fss 露出 在线体验 | ToolACE器具调用模子,效果握平GPT
发布日期:2024-10-08 05:59 点击次数:115
始智AI wisemodel.cn开源社区fss 露出
始智AI wisemodel.cn社区是源自中国的中立绽开的AI开源社区。接待《》以及《》。wisemodel社区上线,H800/H20等资源上线,价钱实惠,活泼便捷,维持在线微调试验模子,及模子和,并。
大讲话模子(如 GPT-4)具备苍劲的讲话治明智商,但其寥寂运作时仍存在局限性,如无法进行复杂探讨,获取不到及时信息,难以提供专科定制化功能等。而大讲话模子的器具调用智商使其不仅限于翰墨经管,更能提供全面、及时、精准的作事,极地面膨胀了其应用范围和施行价值。
为提高模子的器具调用智商,高质料、种种化、且复杂的试验数据至关垂危。关连词,现实中器具调用数据的集结和标注极为贫苦,现存的合成数据生成方式在掩盖率和准确性方面仍存在不及。
针对这一挑战,华为诺亚方舟实验室联接中科大等机构的说合东谈主员提议了一个结伙的器具调用数据合成框架 ToolACE,不错自动化地生成高准确性、高复杂性、高种种性的器具调用数据。ToolACE 通过立异的自进化合成过程,构建了一个包含 26,507 个种种化 API 的 API 库。通过多智能体之间的交互生成对话,并通过边幅化的念念维过程进行相通,确保生成的数据复杂且种种化。并结合了基于法律解释和基于模子的数据质检机制,确保数据准确性。基于对应合成数据对 Llama 3.1 进行微调,以 8B 的模子量级,在开源器具调用榜单 BFCL(https://gorilla.cs.berkeley.edu/leaderboard.html)中握平 GPT-4,赢得开源第一,跨越如 Functionary 等 70B 模子效果。
论文题目:
ToolACE: Winning the Points of LLM Function Calling
论文结合:
https://arxiv.org/abs/2409.00920
模子结合:
https://wisemodel.cn/models/XuHwang/ToolACE-8B
图 1. ToolACE 数据合成框架图
ToolACE 器具调用数据合成框架
ToolACE 的数据合成经由分为 API 生成、对话生成、数据质检三个阶段:
基于自演进的 API 合成:种种化的 API 能够显贵提高器具调用数据的种种性和复杂性。ToolACE 诳骗基于自演进的 API 合成模块构建了一个包含 26,507 个 API 库,在数目和边界掩盖上均卓著了其他代表性的器具调用数据。基于自演进的 API 合成模块不错证据不同的数据类型和欺压条款合成新的器具描写。具体来说,该模块诳骗种种的网页预试验数据索取了一个 API 高下文树,每个节点代表一个潜在的应用边界和函数调用的功能,如金融、健康、交通等。通过由 API 高下文树中进行采样,结合给定的 API 示例,由讲话模子不错合成新的 API。API 的种种性和复杂性通过递归的自我进化和更新迟缓增多。
基于多智能体交互的对话生成:ToolACE 诳骗多智能体交互的方式进行器具调用对话合成,所生成的对话涵盖了多种类型,包括简便函数调用、并行函数调用、依赖函数以及非器具使用的对话。
对话生成过程最初从构建好的 API 库中采样一个或多个候选 API,之后通过三个不同的智能体(用户、助手和器具)的互动生成对话,每个智能体皆由大讲话模子模拟。用户智能体主要提议请求或提供独特信息,请求的种种性和复杂性由多模式领导和基于雷同性的复杂化战略来保证。助手智能体则使用给定的 API 来完成用户提议的请求。助手智能体的操作空间包括:调用 API、请求进一步信息、转头器具响应以及提供非器具使用的恢复。每个操作皆通过边幅化的念念考过程确定,并通过自我一致性考据以确保准确性。器具智能体行为 API 实施者,经管助手提供的器具描写和输入参数,并模拟输出潜在的实施达成。所生成的对话可进一步进行阵势泛化为不同的器具调用阵势。
双层数据质检经由:影响大讲话模子器具调用智商的一个关节成分是试验数据的准确性和可靠性。不一致或不准确的数据会挫折模子相识和实施器具的智商。与一般问答数据不同,器具调用数据的正确性更容易考据,因为奏效的器具调用必须严格适合 API 界说中指定的阵势。因此,ToolACE 提议了结正当律解释质检和模子质检的双层数据质检经由对合成数据进行校验。法律解释质检保证数据严格谨守 API 界说的阵势和结构要求,确保器具调用的可实施性。模子质检则进一步对法律解释难以经管的问题进行查验,如幻象和数据不一致性。
实验考据
数据永别:ToolACE 数据共包含了 26507 个不同的 API,来自于不同的边界。下图展示了各个边界的 API 数目永别,以及在文娱(Entertainment)边界的二级 API 永别。
fss 露出
图 2. ToolACE 数据集 API 边界开首永别
此外,ToolACE 数据聚合 API 的参数掩盖多个类型:字符串(string),浮点数(float),整数(int),字典(dict),数组(array)等。且数据中含有单器具调用(single)、并行多器具调用(parallel)、多轮数据(multi-turn)、器具依赖调用(dependency)和无需器具调用(non-tool)等多种可能情形,永别如下图所示。
图 3. ToolACE 数据 API 参数类型永别和器具调用边幅永别
器具调用智商考据:说合团队使用 ToolACE 决策生成的数据集,对开源的 LLaMA-3.1-8B-Instruct 模子进行 LoRA 微调得到 ToolACE-8B 模子,并在加州大学伯克利分校团队发布的器具调用测试榜单 BFCL 上进行评估,在 BFCL 上打败系数模子赢得榜首。
表 1. 模子在 BFCL-v2 榜单上的器具调用性能比较(榜单数据更新于 2024/08/16)。表中遴荐名次前 20 的模子行为比较。
通用智商考据:说合团队对试验后模子的轮廓通用智商进行测试,实验涵盖通用理罢免务、代码生成任务、数学推理任务、尝试问答任务以及器具调用任务,达成讲解 ToolACE-8B 模子在大幅提高器具调用智商的同期,比较于基座模子(LLaMA-3.1-8B-Instruct)并未显明蚀本其他智商,且各方面显明优于同范围开源器具调用模子 xLAM-7B-fc-r。
图 4. ToolACE-8B 模子通用智商评估
在线部署体验和API作事
ToolACE模子在wisemodel社区照旧不错奏凯在线部署的在线体验和API作事,群众不错来体验和使用,部署经由不错参考以下内容:
从模子笃定页面点击“在线部署”,遴荐“部署在线体验”或“部署API作事”按钮,也不错从“应用”模块点击“新建体验”或“新建API作事”开启模子部署的经由。
填写和遴荐模子作事相应的内容,然后奏凯点击“下一步”,进入说明订单表率。
说明计费方式之后,奏凯提交订单,进入模子启动表率,在“应用-API作事/在线体验”页面判辨“启动中”的情景。
大要1分钟操纵的时刻,情景自动变更为“运转中”,则暗示模子启动奏效,点击运转中的作事奏凯到作事笃定页面。
在作事笃定页面操纵不错奏凯进行在线问答对话,右侧是API作事调用方式,维持OpenAI兼容的模式进行调用,接待群众到wisemodel社区上进行体验和使用。
转载自机器之心
剪辑:成蕴年
----- END -----
wisemodel关连
开心桃色网系统升级
系列模子:
对于wisemodel更多
1
接待握续关怀和维持
开源社区竖立需要恒久坚握和参加,更需要广大用户的积极参与、孝顺和崇尚,接待群众加入wisemodel开源社区的志愿者霸术和开源共创霸术。期待更多开辟者将开源效果,包括模子、数据集和代码等发布到 wisemodel.cn 社区,共建中立、绽开的AI开源社区生态。接待扫码添加wisemodel微信,恳求加入wisemodel社群,握续关怀wisemodel.cn开源社区动态,
2
接待加盟wisemodel开源社区
始智AI wisemodel社区自2023年9月上线以来,迟缓成为影响力日益扩大的中立绽开的AI开源社区,为了加速公司发展,咱们恒久需要技巧、运营等东谈主才加盟,技巧侧重在AI infra、后端开辟,熟练K8S、模子试验和推理等技巧, 以及熟练开辟者生态运营的成员,接待感酷爱的一又友加盟,不错通过添加wisemodel微信,或者将简历送达到邮箱:liudaoquan@wisemodel.cn
3
接待投稿优质内容
接待投稿共享东谈主工智能边界关连的优秀说合效果,饱读吹高校实验室、大企业说合团队、个东谈主等,在wisemodel平台上共享各种优质内容,不错是AI边界最新论文解读、最新开源效果先容,也不错是对于AI技巧实践、应用和转头等。投稿不错发邮件到liudaoquan@wisemodel.cn,也不错扫码添加wisemodel微信。
4
对于wisemodel开源社区
始智AI wisemodel.cn开源社区由清华学友总会AI大数据专委会副布告长刘谈全创立,旨在打造和竖立中立绽开的AI开源立异社区,将打形成“HuggingFace”除外最活跃的AI开源社区,汇注主要AI开源模子、数据集和代码等,接待高校科研院所、大型互联网公司、立异创业企业、广大个东谈主开辟者,以及政府部门、学会协会、定约、基金会等,还有投资机构、科技媒体等,共同参与竖立AI开源立异生态。
朝上滑动稽查fss 露出