TECHNOLOGY

图像 Agent 的
十个工程纵深

我们没有用 LangChain / LangGraph 这类流水线框架。 FigCraft Vision 的图像 Agent 是 完全自研的循环推理架构，为电商图像生产场景深度优化。下面这十个工程点，是我们在真实服装、3C、美妆项目里反复打磨出来的差异化。

200 轮

单任务推理上限

30+

Agent 工具

4 × 3

生成模式 × 锚定策略

100k

上下文预算 tokens

Loop Reasoning

循环推理 · 不是『走完流程就交差』

市面上大多数 AI Agent 本质是流水线——把大模型调用串成一条预设步骤，遇到临场变化立刻僵住。

FigCraft Vision 的图像 Agent 是真正的循环推理：每一轮都重新观察画布、参考图、历史决策，动态决定下一步调哪个工具。单次任务最多支持 200 轮闭环推理。

▸每轮 LLM 重新判断，不按预设脚本走
▸工具调用结果立即反馈到下一轮决策
▸单工具失败不会让整个任务崩溃，Agent 会诊断错误后改变策略

Permission Tiers

工具三级权限 · 解决『AI 拿着钱乱跑』的焦虑

Agent 手上的 30+ 工具按风险严格分级，让品牌方安心交权给 AI。

▸只读工具（分析图片、搜索参考、截屏画布）→ 并行执行，速度最快
▸破坏性工具（生图、修图、合成、导出）→ 串行执行，避免并发冲突
▸高敏感工具（终端命令、覆盖本地文件、批量删除）→ 每次弹窗二次确认，Agent 无法绕过
▸工具可返回 terminal 信号立即结束循环，防止无意义继续烧 token

Shared-Subject Strategy

服装多 SKU 一致性 · 四模式 × 三锚定

服装品牌最头疼的问题：同一款冲锋衣 30 个颜色拍出来全是不同人穿的——AI 生图时随机性让主体发散。

FigCraft Vision 为电商图专门设计了四种生成模式 × 三种锚定策略，保证一组图里主体严格一致。

▸四模式：单图 / 独立变体 / 共享主体 / 序列演化——系统自动识别任务类型
▸锚定策略一 · 上传锚定：每一张图都回参用户原始照片，主体最贴近真实
▸锚定策略二 · 英雄图锚定：首张定调，后续全部参考首图，风格最统一
▸锚定策略三 · 链式锚定：任意一张图可以参考之前任意一张，想继承某张的光线/构图/配色都行
▸每张图的锚定决策必须写进执行计划，客户在批准前能看见能改

Plan Approval

零意外消耗 · 任何多步操作先出计划

Agent 启动多步任务前，必须先把完整步骤展示给用户：「将生成 1 张白底主图 + 3 张雪山场景 + 2 张沙漠场景，预计消耗 12 积分，每张锚定用户上传图」。

用户三选项：一键批准执行 / 取消 / 用自然语言修改（『把雪山换成城市街拍』）。只有批准后 Agent 才真正花钱。

▸批准前零积分消耗：计划阶段不调用生图
▸支持多轮修订：不满意可以反复让 Agent 重出计划
▸批准过的计划自动归档，事后可追溯每一笔积分的去向

Tool Result Cache

智能缓存 · 防模型『健忘症反复调用』

中等智能的大模型（比如 qwen-plus）有个常见毛病：同一个工具反复调用，一遍不够调两遍，每次都烧 token。

我们在 Agent 单次运行内做了工具结果缓存——相同的只读工具 + 相同参数，第二次直接复用上一次的结果，一张参考图不会被 analyze_image 三次。

▸同一 run 内只读工具结果自动缓存复用
▸缓存键基于工具名 + 参数哈希，精确识别
▸单次复杂任务可节省 30-50% 的 token 消耗

Context Memory

长对话不失忆 · 双层记忆体系

服装品牌一次拍摄会生成上百张图，对话滚到几十轮。普通框架这时候要么爆上下文、要么胡言乱语。

我们做了两层记忆：短期靠 token 预算管理 + 自动摘要，长期靠持久化记忆 + 固定池。

▸短期：token 超过 100k 阈值时，自动调 LLM 把早期对话摘要成一段话，保留最近关键消息
▸长期：每次压缩生成的摘要写入本地持久化，下次启动自动注入系统提示词
▸固定池：每张图都附带来源元信息（用户上传还是 AI 生成、第几轮、什么 prompt 生成的），永远分得清
▸Agent 在第 80 轮对话里依然记得第 3 轮用户上传过什么图

Task Persistence

任务系统 · 崩溃了也不丢进度

企业环境下，应用崩溃、断电、关机重启是常事。传统 AI 工具一崩溃，当前任务全部丢失。

我们的任务系统采用递增字符串 ID、子任务位置索引、本地持久化三层设计，崩溃恢复零损失。

▸任务 ID 用递增字符串（1 / 2 / 3）而非 UUID，降低模型记忆负担，调度更稳
▸子任务用位置索引（0 / 1 / 2），模型不用记长字符串
▸本地持久化最多 100 个任务历史，随时查看随时恢复
▸重启自动修复：所有『假进行中』任务降级为 paused，子任务降为 failed，不会出现幽灵任务

Network Resilience

网络容错 · API 抖动不影响出图

调用第三方大模型 API 的人都懂——偶尔超时、偶尔 500、偶尔限流。Agent 必须把这些都吃下来。

▸API 120s 超时（长思考模型留够时间）
▸3 次重试 + 指数退避（500ms → 1s → 2s）
▸4xx 客户端错误立即失败不重试，5xx / 429 / 超时自动重试
▸响应格式异常也当失败处理，触发重试而非返回空
▸空响应显式报错（可能是安全过滤 / max_tokens 被 thinking 吃光），不静默退出让用户一脸懵

Dynamic Prompt

系统提示词每轮重建 · 永远看到最新画布

大多数 Agent 的系统提示词是『一次性定死』——开机注入一次，后续对话里 Agent 不知道画布变了、你换了模型、新上传了参考图。

我们的 Agent 每一轮循环都重新构建系统提示词，把当前画布状态、参考图池、选中物体、可用模型能力、操作系统信息全部动态注入。

▸画布有图 / 空白 / 比例 / 分辨率实时感知
▸参考图池总览逐索引标注，Agent 不会搞混
▸可用模型 + 当前模型能力（是否支持多参考 / inpainting / 最大 N 张）实时传入
▸用户切换模型后 Agent 立即知道新模型能做什么不能做什么

Event Stream

全程可见 · 每一步都不是黑盒

Agent 在思考什么、调了什么工具、返回了什么结果、为什么请求确认——全部实时推送给前端 UI。

客户能看见 Agent 每一次决策，信任感完全不同于『转圈圈等结果』的黑盒工具。

▸事件类型：thinking / tool_call / tool_result / message / permission_request / error
▸工具调用参数实时展示，客户能反向学习 Agent 怎么思考
▸错误信息友好化：提示切换模型、简化请求等具体可操作建议

DEEPER DIVE

想看 Agent 真跑一遍？

我们可以开一场 1 小时的在线演示，用你们自己的产品图跑一遍完整流程—— 从多图锚定策略到最终成片，全程可见 Agent 的每一步决策。

预约一场深度演示 →

图像 Agent 的十个工程纵深