咨询电话
400-123-4567
手 机:13988999988
电 话:400-123-4567
传 真:+86-123-4567
邮 箱:[email protected]
地 址:广东省广州市天河区88号
电 话:400-123-4567
传 真:+86-123-4567
邮 箱:[email protected]
地 址:广东省广州市天河区88号

微信扫一扫
无间接数据可用,AI怎样学会「干活」?微软团队
作者:[db:作者]日期:2025/01/23 08:34浏览:
AIxiv专栏是呆板之心宣布学术、技巧内容的栏目。从前数年,呆板之心AIxiv专栏接受报道了2000多篇内容,笼罩寰球各年夜高校与企业的顶级试验室,无效增进了学术交换与传布。假如你有优良的任务想要分享,欢送投稿或许接洽报道。投稿邮箱:[email protected];[email protected]该技巧讲演的重要作者 Lu Wang, Fangkai Yang, Chaoyun Zhang, Shilin He, Pu Zhao, Si Qin 等均来自 Data, Knowledge, and Intelligence (DKI) 团队,为微软 TaskWeaver, WizardLLM, Windows GUI Agent UFO 的中心开辟者。比年来,年夜言语模子(Large Language Models, LLMs)的迅猛开展推进了天然言语处置(NLP)范畴的技巧提高。这些模子在对话天生、文本翻译、常识问答跟代码天生等义务中展示出出色的机能。但是,只管 LLMs 能够经由过程言语天生为用户供给信息支撑,其功效仍范围于文本层面,无奈自动与物理或数字情况交互,或因缺少范畴常识跟数据而招致天生的「举措」后果欠安。这种「言语 - 举动断层」妨碍了人工智能(AI)在很多现实场景中的普遍利用。为处理这一中心成绩,微软团队初次提出了一种完全的方式系统,细致描写了在无直接可用数据的情形下怎样从零开端练习一个年夜举动模子(Large Action Model, LAM),并将其逐渐构建为可在实在情况中实现义务的智能体。这一任务为 LAM 模子练习的奠基了基本,还为 AI 从主动言语天生向自动举动天生的改变供给了新思绪。技巧讲演链接:Large Action Models: From Inception to Implementation数据处置代码链接:https://github.com/microsoft/UFO/tree/main/dataflow完全的技巧文档链接:https://microsoft.github.io/UFO/dataflow/overview/ 从言语到举动的须要演变LLMs 的范围性传统 LLMs,如 OpenAI 的 GPT 系列跟 Mistral-7B,可能天生富有逻辑性跟创意的文本内容,普遍利用于问答体系、代码补全、案牍天生等义务中。但是,当用户的需要超出言语天生层面,比方操纵软件、实现庞杂的任务流程或直接操控物理装备时,这些模子便裸露出显明的缺乏。这一范围性源于 LLMs 的计划初志:它们被优化用于天生言语内容,而非履行举动。固然 LLMs 在义务计划跟用意懂得方面表示杰出,但它们缺少举动天生所需的义务剖析、情况交互跟多步履行才能。 LAM(年夜举动模子)具有三年夜特征:用户用意懂得,能从多种输入(言语、语音、图像等)中正确剖析用意并转化为详细可履行打算;举动天生才能,可依据情况将用户需要转化为 GUI 操纵、API 挪用、物理举措等多种情势的详细步调;静态计划与顺应,可能剖析庞杂义务,机动应答情况变更,及时调剂打算以实现目的。这些特征使 LAM 在庞杂义务履行中表示杰出。从 LLMs 到 LAMs 的挑衅如图 1 所示,构建 LAMs 的中心挑衅在于怎样将模子从一个主动的文本天生器改变为可能在实在情况中履行庞杂义务的自动举动天生器。这一改变不只须要从新界说模子才能,还波及从数据、练习方式到评价方法的片面改革:数据积聚的困难数据获取是练习 LAM 的最年夜挑衅。LAM 须要大批义务 - 举动对数据来进修怎样在差别情况中履行操纵。但是,这类数据在现实利用中每每难以获取或批量网络。模子练习的严重转化LAM 的开辟须要从仅天生文本的 LLMs 转化为具有义务计划、静态履行跟调剂才能的模子。这不只须要对模子架构停止深度改革,还须要采取全新的练习方式,以付与模子举动天生与情况适配的才能。离线评价的范围性在静态、受控情况中测试 LAM 的机能是须要的一步,用以验证其基本才能。但是,仅止步于离线评价无奈实在反应模子在现实庞杂场景中的表示。情况适配与线上评价的庞杂性LAM 须要及时与庞杂、多样的数字或物理情况交互。这请求模子具有静态顺应性,可能依据及时反应调剂举动。别的,在实在情况中停止线上评价,测试 LAM 的正确性、效力跟义务实现后果,是验证实在际机能的要害环节。针对上述挑衅,微软团队初次提出并实现了一套完全的从 0 到 1 练习 LAM 模子的流程,涵盖了从数据积聚、模子练习到现实安排的全部步调。该团队的方式不只处理了「有数据」的初始瓶颈,还经由过程逐渐迭代的方法,让模子从简略的义务计划才能生长为具有庞杂举动天生才能的智能体。这一研讨弥补了现有范畴的空缺,为 LAMs 的开辟供给了首个实际典范。数据积聚从无到有构建 LAM 的第一步在练习 LAM(年夜举动模子)时,数据积聚是要害。与 LLMs(年夜言语模子)练习须要大批文本数据相似,LAM 的开辟依附高品质的义务 - 举动数据。但是,这类数据在现实利用中十分稀缺,特殊是范畴专属跟可履行的数据。为了战胜这一瓶颈,该团队计划了一套从无到有的数据网络与处置流程,分为两年夜阶段:义务 - 打算数据网络跟义务 - 举动数据网络。阶段一:义务 - 打算数据网络如图 2 所示,义务 - 打算数据以用户恳求为出发点,天生义务描写及其对应的具体操纵步调。该团队从多种开源资本中网络义务 - 打算对,包含利用辅助文档(如 Microsoft Word 的辅助页面)、WikiHow 义务教程,以及用户的搜寻查问记载。经由过程这些起源,该团队构建了包括 76,672 对义务与打算的初始数据集,此中 29,182 对是直接获取的,47,490 对经由过程数据扩大技巧天生。别的,他们采取数据加强技巧天生更多义务 - 打算对。经由过程 GPT-4o 演变原始义务,增添庞杂性跟束缚前提,同时天生响应的打算,扩大数据集范围至本来的 150%。比方,「在 Excel 中创立下拉菜单」被演变为「创立依附下拉菜单,并依据第一列抉择过滤第二列内容」,从而进步模子对庞杂义务的顺应才能。阶段二:义务 - 举动数据网络义务 - 打算数据固然用于高档次计划,但不克不及直接履行。如图 3 所示,为弥补从计划到履行的差距,该团队经由过程以下步调天生义务 - 举动数据:1.实例化义务:应用预约义模板(如 Word 文档样例),将义务描写详细化,将形象的打算步调转化为详细的举动序列(如「点击菜单栏中的「计划」选项」)。2.履行验证:在实在情况中履行实例化的义务,捕捉履行轨迹跟情况反应,确保举动序列的可操纵性跟准确性。3.评价与后处置:应用 GPT-4o 对履行成果停止验证,仅保存与义务目的分歧的胜利轨迹,并记载具体元数据(如情况状况跟履行时光),终极天生构造化的义务 - 举动对。这一流程终极天生了笼罩普遍操纵场景的义务 - 举动数据集,为 LAM 练习供给了准确的举动模板,明显晋升了模子在实在情况中的义务履行才能。经由过程两阶段的逐渐积聚,胜利地从「有数据」状况动身,构建了 LAM 练习所需的高品质义务 - 举动数据。这一方式不只处理了数据稀缺成绩,还经由过程引入实在情况交互跟静态验证,确保数据的高效性跟实用性,为从 LLMs 到 LAMs 的改变供给了坚固基本。方式:从 0 到 1,逐渐构建 LAM如图 4 所示,构建 LAM 的进程分为四个阶段,涵盖了从数据积聚到模子练习的完全任务流。第一阶段:义务打算预练习为了让模子具有基础的义务计划才能,起首练习模子天生义务剖析打算。数据起源为义务 - 打算数据。模子的目的是依据输入义务天生准确的义务剖析打算。比方,「在 Word 中拔出表格」被剖析为「点击拔出菜单」、「抉择表格选项」、「输入表格行列数」等步调。这一阶段让模子控制了义务剖析的基础才能,为后续的举动天生打下了基本。第二阶段:专家常识进修只管第一阶段的模子能够天生义务打算,但仍缺少履行这些打算的才能。为此,须要应用网络到的义务 - 举动数据,并经由过程模拟进修练习模子履行详细操纵。经由练习,模子从一个主动的打算天生器改变为可能履行打算的自动举动天生器。第三阶段:自我摸索晋升专家数据的笼罩范畴无限,无奈席卷全部可能的义务场景。为此,该团队计划了自我摸索机制,将 LAM 安排在 UFO 中,UFO 是一个开源 GUI Agent 框架,可能经由过程交互 Windows 操纵体系中的图形用户界面(GUI)元从来实现义务。让 LAM 实验实现之前掉败的义务,并从中积聚新的胜利教训。1.义务挑衅:模子实验实现 2,284 个由 GPT-4 未处理的义务,经由过程静态摸索天生可能的胜利轨迹。2.数据扩大:在自我摸索中,模子天生了 496 条新胜利轨迹,将其与之前的专家数据兼并构成扩大数据集。3.模子迭代:经由过程再次微调,模子进一步晋升了处置庞杂义务的才能,加强了对未知情况的顺应性。这一阶段实现了从有数据到新数据的主动天生与积聚,扩大了练习数据的笼罩范畴。第四阶段:嘉奖模子优化为了进一步晋升模子的举动品质,在此引入了嘉奖模子(Reward Model, RM),同时应用正负反应,经由过程强化进修优化 LAM 的决议才能。试验成果离线试验成果表格 1:差别 LAM 练习阶段的离线试验成果为了验证练习方式的无效性,该团队在 435 个义务上对差别阶段的 LAM 模子停止了离线测试。如表格 1 的试验成果表现,LAM 的各阶段的练习都带来了模子机能晋升。情况适配如图 5 所示,经由练习的 LAM 模子被集成到 GUI 智能体 UFO 的 AppAgent 中作为推理引擎,后者充任桥梁,将 LAM 猜测的举措「着地」为可履行的现实操纵。线上试验成果表格 2:LAM 的线上试验成果如表格 2 所示,LAM 在线上试验义务中胜利率(TSR)方面表示优良,到达 71.0%,在文本输入形式下超出了基线模子(GPT-4o 跟 GPT-4o Mini)。效力对照LAM 在义务实现时光跟均匀步时延上展示了明显上风:1.义务实现时光:LAM 实现单个义务均匀耗时仅 30.42 秒,比拟之下,疏忽觉输入的 GPT-4o 耗时 86.42 秒,约为 LAM 的 2.84 倍,而带视觉输入的 GPT-4o 耗时更长,为 96.48 秒。2.均匀步时延:LAM 的每步时延为 5.41 秒,明显优于疏忽觉输入的 GPT-4o(12.84 秒)跟带视觉输入的 GPT-4o(19.36 秒)。更多细节,请参阅技巧讲演原文。
相关文章
- 2025/01/23无间接数据可用,AI怎样学会「干活」?
- 2025/01/22手游游戏哪些人气高 人气高的手游游戏精
- 2025/01/21OPPO高管泄漏:OPPO Find N5标配5神仙道W无线
- 2025/01/19竞技场射击游戏下载 好玩的竞技场射击游