AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架

MUSE团队 投稿
量子位 | 公众号 QbitAI

在人工智能的广阔世界里,我们早已习惯了LLM智能体在各种任务中大放异彩。但有没有那么一瞬间,你觉得这些AI“牛马”还是缺了点什么?

没错,它们缺少的是我们人类最宝贵的职场技能:经验的积累和持续的自我进化

想象一下:你入职第一天,对公司一无所知,只能依靠在学校中学习到的知识,工作中犯了错也无法吸取教训,第二次遇到同样的问题,你还得从头再来。听起来是不是很像一个会失忆的工具人?这就是现有LLM智能体在处理现实世界“长程任务”(Long-Horizon Tasks)时面临的巨大挑战。

为了彻底解决这一“职场尴尬”,来自上海人工智能实验室及合作机构的研究者们,提出了一套全新的智能体框架——MUSE(Memory-Utilizing and Self-Evolving,记忆利用和自我演化),让智能体在“职场”中不断进化,成为真正的“职场新星”,实现“干中学”(Learning on the Job)。

图片[1]-AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架-AI Spot

下面的视频展现了一个模拟人类项目经理对公司项目issue进行管理的例子,可以看到MUSE在包括GitLab,Plane在内的多个软件平台来回跳转操作,最终在没有任何人类介入的情况下完成了这个任务。

目前, MUSE的论文与代码已经完成了开源(链接见文末)。

MUSE:三步走,打造AI“职场新星”

MUSE的核心理念,是为LLM智能体构建一个“经验驱动、自我演化”的闭环系统,用“测试时学习”范式一次性解决“静态参数 + 无法进化 + 长程任务”三大痛点。

这个系统围绕一个分层记忆模块(Hierarchical Memory Module)展开。简单来说,MUSE让智能体像人类一样:先做、再反思、然后进化

图片[2]-AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架-AI Spot
MUSE框架

第一步:告别“健忘症”——分层记忆模块(Memory Module)

传统LLM智能体之所以被称为“失忆的执行者”,就是因为它们没有长期记忆,无法保留和应用历史知识。而MUSE 框架为智能体装上了“大脑中枢”——一个能组织不同层级经验的记忆模块。这些经验包括:

Strategic Memory保存“困境-策略”对,全局加载到系统提示,指导宏观行为范式。

Procedural Memory:按“应用→SOP 索引→详细步骤”三级组织,成功子任务轨迹实时沉淀为自然语言标准作业程序;轻量级索引常驻上下文,详情按需检索。

Tool Memory:静态描述 + 动态指令双组件,为每个基础工具提供“肌肉记忆”,用后立即更新。

MUSE能够利用这些经验来规划和执行跨应用的复杂任务,从而解决现有智能体在动态规划、经验积累和持续学习方面的难题。

第二步:“事后诸葛亮”——自主反思(Self-Reflection)

这是MUSE最“类人”的机制。在每完成一个子任务之后,MUSE的智能体不会立即进行下一个任务,而是会自主地对它的执行轨迹进行反思

这种反思机制,就像是AI在给自己做“工作总结与复盘”。

它会评估子任务的执行结果: 成功了还是失败了?

它会把原始的执行轨迹(Raw Trajectory)自动转化为结构化的经验(Structured Experience)。如果成功,就会提炼出高效的操作序列作为新的 SOP(标准操作程序)。

它甚至拥有“第二次机会”机制: 如果第一次尝试失败,它有一次重试机会(无需检索,鼓励探索),如果再次失败,才会触发重新规划。

第三步:超越“静态参数”——持续自我演化(Self-Evolution)

通过持续的“规划 → 执行 → 反思 → 提取经验”的四步闭环循环,MUSE 实现了真正的自我演化

这些积累的经验会被整合回记忆模块,不断优化智能体未来的规划和执行策略。这意味着:MUSE的性能会随着它自主积累的经验越来越多而持续提高

实验结果:智能体的“职场”表现

MUSE 框架在一系列实验中展示了令人振奋的能力:

  • SOTA表现和降维打击

    在专为长期生产力任务设计的基准测试TAC (TheAgentCompany) 上,MUSE取得了显著的SOTA性能。最令人惊讶的是,MUSE仅使用轻量级的Gemini-2.5 Flash模型,就击败了使用更大模型(Claude Sonnet 4)的现有SOTA方法, 在TAC的指标上首次突破50%大关,达到51.78%。这证明了 “经验驱动的自我演化机制”具有良好的前景。

图片[3]-AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架-AI Spot

图片[4]-AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架-AI Spot

  • 持续进化

    面对重复任务,智能体孰能生巧,一次比一次做得更好,再也不是职场小白啦。

图片[5]-AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架-AI Spot
  • 强大的泛化能力

    MUSE积累的经验具备强大的泛化特性,即使在全新的、从未见过的任务上,它也能实现零样本改进(Zero-shot Improvement)

图片[6]-AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架-AI Spot
  • 可迁移性

    将闭源模型收集到的经验迁移到开源模型DeepSeek-V3上,可以帮助DeepSeek-V3在一众开源模型中成为SOTA。

图片[7]-AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架-AI Spot

效果展示:智能体的工作日常

智能体创建多人聊天群组,同时向三位同事询问信息,显著简化信息收集流程:

图片[8]-AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架-AI Spot

智能体跨越多个平台(rocketchat,gitlab等)依次与三位同事沟通,执行了超过100个步骤,最终圆满完成复杂任务:

图片[9]-AI牛马实现“干中学”!上海AI Lab联合推出智能体自我进化新框架-AI Spot

未来展望:AI的“职场”潜力

MUSE框架的出现,标志着AI智能体已经迈入了“经验驱动的终身学习”新阶段。它超越了传统的“测试时静态”模式,展示了AI在长程任务中的巨大潜力,为实现更具适应性和智能化的AI“职场打工人”奠定了坚实基础。展望未来,有什么办法能让AI打工人实现进一步的提升呢?

1. 告别“失忆”,优化记忆

  • 强化检索与整合: 尽管 MUSE 能够自动将原始轨迹转化为结构化、可重复使用的知识(SOP)并整合到记忆模块中,但如何更高效地检索(Retrieval)相关经验,并确保新旧知识的无缝整合(Integration),是下一步优化的关键。
  • 长效性和持续性: 如何确保记忆模块能够实现真正的终身、持续学习,防止旧知识被不恰当地遗忘或覆盖,从而在海量经验中保持性能的稳定提升,将是需要持续深耕的方向。

2. 丰富经验来源,打造多维度的“职场导师”

引入人类智慧: 展望未来的研究方向,可以将人类反馈(Human Feedback)和人类示范(Demonstrations)集成到记忆系统中。就像职场新人通过观看导师操作(示范)和听取指导(反馈)来快速成长一样,这将大大加速 AI 智能体的学习效率和能力边界。

3. 完善评估体系,助力 AI 职场“公平竞争”

  • 长期评估标准: 需要创建更全面的、专门用于长期任务评估的基准。
  • 多维度能力考察: 评估不仅要关注任务的成功率,还要衡量智能体的记忆保留能力、技能迁移能力以及主动决策能力,确保其能够像一个真正的终身学习者一样持续发展。

Arxiv:
https://arxiv.org/abs/2510.08002
GitHub:
https://github.com/KnowledgeXLab/MUSE

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容