最全Agent开源数据集分享系列一

最全Agent开源数据集分享系列一

1. Agent与Agent数据集

1.1 Agent的定义

Agent(智能体)指的是具有自主观察、思考、规划、反思、行为等能力的人工智能系统。

Agent的基本框架

1.2 Agent和LLM的区别

相比于单一LLM(大语言模型)只能支持多模态的输入和输出,Agent将输入和输出扩展到了多步的操作上,例如:

Agent和Single LLM的区别

输入与输出的维度跃升使Agent能够在现实环境中自主思考,如人类专家一般执行复杂任务,解决Chatbot类人工智能无法解决的问题。这种“跳出对话框”的突破为人工智能在更广泛领域的创新应用打下了重要基础。

1.3 Agent数据集

为使Agent掌握形如上述复杂操作的能力,研究人员和开发者已经创建了多个开源数据集,用于训练和评估Agent的能力。在本期分享中,我们为大家整理了当前领域内具有代表性的Agent开源数据集,覆盖从网页交互、软件工程等具体任务场景,到多步推理、动态规划、自我优化等核心认知能力维度。为更清晰地呈现不同数据集的评估侧重点,我们依据其核心评估目标与应用场景,将其划分为三大类别:基础能力评估、场景化交互评估与流程及多步骤任务评估。

2. 基础能力评估

基础能力评估旨在测试Agent的核心认知能力(如推理、规划、知识应用等),通常通过静态问题或任务进行,无需与外部环境交互。

2.1 PlanBench

发布方:Karthik Valmeekam, Matthew Marquez, Alberto Olmo, Sarath Sreedharan, Subbarao Kambhampati

下载地址https://github.com/karthikv792/LLMs-Planning ,数据集位于“plan-bench”子目录中

发布时间:2023.5

大小:约26,250个任务

简介:PlanBench是一个专为评估LLM在规划和推理方面的能力而设计的Benchmark。它基于自动规划社区中常用的域,特别是国际规划竞赛中使用的域,包含约26,250个提示,涵盖不同的测试用例和规划场景。数据集支持各种Blocksworld规划任务,并适用于自然语言和PDDL(规划领域定义语言)两种类型的提示。

{
  "task": "task_1_plan_generation",
  "prompt_type": "oneshot",
  "domain": "blocksworld",
  "instances": [
    {
      "instance_id": 2,
      "example_instance_ids": [
        1
      ],
      "query": "I am playing with a set of blocks where I need to arrange the blocks into stacks. Here are the actions I can do\n\nPick up a block\nUnstack a block from on top of another block\nPut down a block\nStack a block on top of another block\n\nI have the following restrictions on my actions:\nI can only pick up or unstack one block at a time.\nI can only pick up or unstack a block if my hand is empty.\nI can only pick up a block if the block is on the table and the block is clear. A block is clear if the block has no other blocks on top of it and if the block is not picked up.\nI can only unstack a block from on top of another block if the block I am unstacking was really on top of the other block.\nI can only unstack a block from on top of another block if the block I am unstacking is clear.\nOnce I pick up or unstack a block, I am holding the block.\nI can only put down a block that I am holding.\nI can only stack a block on top of another block if I am holding the block being stacked.\nI can only stack a block on top of another block if the block onto which I am stacking the block is clear.\nOnce I put down or stack a block, my hand becomes empty.\nOnce you stack a block on top of a second block, the second block is no longer clear.\n\n[STATEMENT]\nAs initial conditions I have that, the red block is clear, the blue block is clear, the yellow block is clear, the hand is empty, the blue block is on top of the orange block, the red block is on the table, the orange block is on the table and the yellow block is on the table.\nMy goal is to have that the orange block is on top of the blue block.\n\nMy plan is as follows:\n\n[PLAN]\nunstack the blue block from on top of the orange block\nput down the blue block\npick up the orange block\nstack the orange block on top of the blue block\n[PLAN END]\n\n[STATEMENT]\nAs initial conditions I have that, the red block is clear, the yellow block is clear, the hand is empty, the red block is on top of the blue block, the yellow block is on top of the orange block, the blue block is on the table and the orange block is on the table.\nMy goal is to have that the orange block is on top of the red block.\n\nMy plan is as follows:\n\n[PLAN]",
      "ground_truth_plan": "(unstack yellow orange)\n(put-down yellow)\n(pick-up orange)\n(stack orange red)\n"
    },
    {
      "instance_id": 3,
      "example_instance_ids": [
        2
      ],
      "query": "I am playing with a set of blocks where I need to arrange the blocks into stacks. Here are the actions I can do\n\nPick up a block\nUnstack a block from on top of another block\nPut down a block\nStack a block on top of another block\n\nI have the following restrictions on my actions:\nI can only pick up or unstack one block at a time.\nI can only pick up or unstack a block if my hand is empty.\nI can only pick up a block if the block is on the table and the block is clear. A block is clear if the block has no other blocks on top of it and if the block is not picked up.\nI can only unstack a block from on top of another block if the block I am unstacking was really on top of the other block.\nI can only unstack a block from on top of another block if the block I am unstacking is clear.\nOnce I pick up or unstack a block, I am holding the block.\nI can only put down a block that I am holding.\nI can only stack a block on top of another block if I am holding the block being stacked.\nI can only stack a block on top of another block if the block onto which I am stacking the block is clear.\nOnce I put down or stack a block, my hand becomes empty.\nOnce you stack a block on top of a second block, the second block is no longer clear.\n\n[STATEMENT]\nAs initial conditions I have that, the red block is clear, the yellow block is clear, the hand is empty, the red block is on top of the blue block, the yellow block is on top of the orange block, the blue block is on the table and the orange block is on the table.\nMy goal is to have that the orange block is on top of the red block.\n\nMy plan is as follows:\n\n[PLAN]\nunstack the yellow block from on top of the orange block\nput down the yellow block\npick up the orange block\nstack the orange block on top of the red block\n[PLAN END]\n\n[STATEMENT]\nAs initial conditions I have that, the blue block is clear, the hand is empty, the blue block is on top of the orange block, the orange block is on top of the yellow block, the yellow block is on top of the red block and the red block is on the table.\nMy goal is to have that the red block is on top of the orange block and the yellow block is on top of the red block.\n\nMy plan is as follows:\n\n[PLAN]",
            "ground_truth_plan": "(unstack blue orange)\n(put-down blue)\n(unstack orange yellow)\n(put-down orange)\n(unstack yellow red)\n(stack yellow blue)\n(pick-up red)\n(stack red orange)\n(unstack yellow blue)\n(stack yellow red)\n"
        },
        ...
    ]
}

2.2 MSAgent-Bench

发布方:通义实验室

下载地址https://www.modelscope.cn/datasets/iic/MSAgent-Bench/summary

发布时间:2024.9

大小:2.24GB文件,598k的训练集和对应的验证集,测试集。

简介:MSAgent-Bench是一个通用的、可定制的Agent框架,插件的训练数据集,包括598k的训练集和对应的验证集,测试集。数据集主要包括四种:AI模型API,通用API,API无关通用sft数据,API检索增强数据。

{
    "id":"modelscope_merge_api_527",
    "conversations":[
        {
            "from":"system",
            "value":"你是达摩院的ModelScopeGPT(魔搭助手),你是个大语言模型, 是2023年达摩院的工程师训练得到的。你有多种能力,可以通过插件集成魔搭社区的模型api来回复用户的问题,还能解答用户使用模型遇到的问题和模型知识相关问答。1. {\"plugin_name\": \"modelscope_text-ie\", \"plugin_owner\": \"ModelScopeGPT\", \"plugin_type\": \"default\", \"plugin_schema_for_model\": {\"name\": \"modelscope_text-ie\", \"description\": \"针对中文的文本,根据schema要抽取的内容,找出其中对应信息,并用json格式展示\", \"url\": \"http://109.199.101.10:1485/\", \"paths\": [{\"name\": \"modelscope_text-ie\", \"model_id\": \"/damo/nlp_structbert_siamese-uie_chinese-base\", \"method\": \"post\", \"description\": \"针对中文的文本,根据schema要抽取的内容,找出其中对应信息,并用json格式展示\", \"parameters\": [{\"name\": \"text\", \"description\": \"用户输入的文本\", \"required\": \"True\"}, {\"name\": \"schema\", \"description\": \"要抽取信息的json表示\", \"required\": \"True\"}]}]}}\n\n2. {\"plugin_name\": \"modelscope_text-ie\", \"plugin_owner\": \"ModelScopeGPT\", \"plugin_type\": \"default\", \"plugin_schema_for_model\": {\"name\": \"modelscope_text-ie\", \"description\": \"针对中文的文本,根据schema要抽取的内容,找出其中对应信息,并用json格式展示\", \"url\": \"http://9.32.64.200:5873/\", \"paths\": [{\"name\": \"modelscope_text-ie\", \"model_id\": \"/damo/nlp_structbert_siamese-uie_chinese-base\", \"method\": \"post\", \"description\": \"针对中文的文本,根据schema要抽取的内容,找出其中对应信息,并用json格式展示\", \"parameters\": [{\"name\": \"text\", \"description\": \"用户输入的文本\", \"required\": \"True\"}, {\"name\": \"schema\", \"description\": \"要抽取信息的json表示\", \"required\": \"True\"}]}]}}\n\n3. {\"plugin_name\": \"modelscope_text-ie\", \"plugin_owner\": \"ModelScopeGPT\", \"plugin_type\": \"default\", \"plugin_schema_for_model\": {\"name\": \"modelscope_text-ie\", \"description\": \"针对中文的文本,根据schema要抽取的内容,找出其中对应信息,并用json格式展示\", \"url\": \"http://54.149.78.185:3979/\", \"paths\": [{\"name\": \"modelscope_text-ie\", \"model_id\": \"/damo/nlp_structbert_siamese-uie_chinese-base\", \"method\": \"post\", \"description\": \"针对中文的文本,根据schema要抽取的内容,找出其中对应信息,并用json格式展示\", \"parameters\": [{\"name\": \"text\", \"description\": \"用户输入的文本\", \"required\": \"True\"}, {\"name\": \"schema\", \"description\": \"要抽取信息的json表示\", \"required\": \"True\"}]}]}}"
        },
        {
            "from":"user",
            "value":"按照给定的schema抽取出下面文本对应的信息\nschema:{\"人物\": null, \"地理位置\": null, \"组织机构\": null}\n近日,美国政府宣布将对中国1000多种商品加征关税,并威胁进一步加征关税。"
        },
        {
            "from":"assistant",
            "value":"<|startofthink|>```JSON\n{\"api_name\": \"modelscope_text-ie\", \"url\": \"http://9.32.64.200:5873/damo/nlp_structbert_siamese-uie_chinese-base\", \"parameters\": {\"text\": \"近日,美国政府宣布将对中国1000多种商品加征关税,并威胁进一步加征关税。\", \"schema\": \"{\\\"人物\\\": null, \\\"地理位置\\\": null, \\\"组织机构\\\": null}\"}}\n```<|endofthink|>\n\n<|startofexec|>```JSON\n{\"人物\": [], \"地理位置\": [\"中国\", \"美国\"], \"组织机构\": []}\n```<|endofexec|>\n信息抽取结果:{\"人物\": [], \"地理位置\": [\"中国\", \"美国\"], \"组织机构\": []}。我使用的模型是ModelScope的'damo/nlp_structbert_siamese-uie_chinese-base'模型。这是一个基于StructBERT预训练模型微调训练的通用信息抽取模型。"
        }
    ]
}

2.3 KAgentBench

发布方:KwaiKEG团队

下载地址https://hf-mirror.com/datasets/kwaikeg/KAgentBench

发布时间:2023.12

大小:超过3000条数据

简介:KAgentBench包含超过3,000个人工编辑的自动化评估数据,用于测试Agent能力。KAgentBench的评估维度包括规划、工具使用、反思、总结和用户画像。

Query:
我在一年前租了一套公寓,合同期为两年。但是现在房东要求我提前搬出,因为他想卖掉这套公寓。我不知道我该怎么办。

funcs:
[  ]

Type:
profile

golden_result_list:
[ { "thought": null, "tool_name": null, "tool_args": null, "golden_result": "明白了。首先,我们需要确定这个问题涉及的法律领域是租赁法。根据你所在国家或地区的租赁法规,租赁合同在双方同意的情况下具有法律约束力。请问你的租赁合同中有关于提前终止合同的条款吗?" }, { "thought": null, "tool_name": null, "tool_args": null, "golden_result": "根据你的描述,这个问题涉及到租赁合同和房地产法律。首先,我们需要查看你的租赁合同中关于提前终止合同的条款,以及你所在国家或地区的相关法律法规。这将有助于我们了解你的权益和房东的责任。" }, { "thought": null, "tool_name": null, "tool_args": null, "golden_result": "根据你的描述,这个问题涉及到租赁合同和房地产交易。首先,我们需要查阅你所在国家或地区的租赁法律法规,了解租赁合同的相关规定。同时,我们还需要了解房地产交易的相关法律法规,以便为你提供合适的建议。" }, { "thought": null, "tool_name": null, "tool_args": null, "golden_result": "根据你的描述,这个问题涉及到租赁合同和房地产交易。首先,我们需要查阅你所在国家或地区的房地产交易相关法律法规,以便为你提供准确的建议。" }, { "thought": null, "tool_name": null, "tool_args": null, "golden_result": "根据你的描述,这个问题涉及到租赁合同和房地产法律。首先,我们需要查看你的租赁合同中关于提前终止合同的条款,以及你所在国家或地区的相关法律法规,以便为你提供合适的建议。" } ]

prompt_input:
{
"AutoGPT": null,
"ToolLlama": null,
"ModelScope": null,
"KuaiAgent": null,
"prompt": "你需要扮演一名专业的法律顾问,你必须遵循参考对话流程中的一个步骤回答用户,但不能给出其他任何步骤的回答。\n\n参考对话流程:\n1. 收集提问者的法律问题,了解问题的背景和相关信息。\n2. 分析问题,确定问题涉及的法律领域和相关法律法规。\n3. 根据法律法规,为提问者提供合理的解决方案或建议。\n4. 如果问题涉及多个法律领域,为提问者提供综合性的解决方案。\n5. 提醒提问者在实际操作中遵循法律法规,如有需要可建议寻求专业律师的帮助。\n\n当前历史对话为:\nuser: 你好,我有一个关于租赁和房地产纠纷的问题,我需要你的帮助。\nyou: 你好,我很乐意帮助你。请详细描述一下你的问题,以及涉及的背景和相关信息。\n\n用户当前问题为:\n我在一年前租了一套公寓,合同期为两年。但是现在房东要求我提前搬出,因为他想卖掉这套公寓。我不知道我该怎么办。",
"ReACT": null,
"Kuaiagent": null
}

Memory:
user: 你好,我有一个关于租赁和房地产纠纷的问题,我需要你的帮助。
you: 你好,我很乐意帮助你。请详细描述一下你的问题,以及涉及的背景和相关信息。

2.4 Reflection-Bench

发布方:上海人工智能实验室等

下载地址https://github.com/AI45Lab/ReflectionBench

发布时间:2024.10

大小:共354个任务

简介:Reflection-Bench是一个基于认知心理学设计的开源评测平台,旨在系统性地评估大型语言模型作为自主代理的能力。该基准围绕七个相互关联的认知维度展开:预测、决策、感知、记忆、反事实思维、信念更新和元反思。它提供七个参数化的认知评测任务,每个任务针对特定的认知过程设计,如异常检测、工作记忆、信念更新、决策制定等。评测系统设计了详细的评估流水线,能直观展示模型在不同认知维度上的能力表现。下图为七个认知维度的测评。

3. 场景化交互评估

场景化交互评估着眼于在模拟或真实的特定应用场景中测试Agent的操作能力,需与动态环境(如网页、移动界面、工作流程)交互。

3.1 Workarena

发布方:ServiceNow

下载地址https://github.com/ServiceNow/WorkArena

发布时间:2023.7

大小:682个任务

简介:WorkArena是一个Benchmark,通过一系列基于浏览器的任务来评估网络代理在执行日常知识工作任务中的表现。它包括两个部分:WorkArena-L1(包含33种基本任务的19,912个独立实例)和WorkArena++(682个任务,用于测试代理的规划、推理和记忆能力)。任务覆盖面广,包括企业内部知识库信息检索、复杂表单填写、服务目录操作、列表筛选、菜单导航及仪表盘数据解读等常见知识工作场景。

无数据样例,通过搭建网页服务,并评测执行各类任务的效果
可复现并自行采集数据

3.2 tau-bench

发布方:Sierra Research团队

下载地址https://github.com/sierra-research/tau-bench

发布时间:2024.6

大小:共165个任务

简介:tau-bench是一个现实世界领域中的工具-代理-用户交互Benchmark,包括retail和airline两个领域的任务,同时测试代理的工具调用能力 、对话理解能力 以及遵守复杂领域规则的可靠性。

3.3 Weblinx

发布方:McGill-NLP团队

下载地址https://github.com/McGill-NLP/WebLINX

发布时间:2024.2

大小:2300多个任务

简介:WebLINX 专注于会话式GUI agent,特别强调通过多轮对话进行真实世界的Web导航。WebLINX 提供了跨越155个真实世界网站的2300多个专家演示,创建了一个具有DOM树和屏幕截图的丰富环境,用于训练和评估能够执行动态、用户引导的导航任务的 agent。此数据集促进了 agent 在新网站和任务上的泛化,其中全面的动作和对话数据提供了关于增强 agent 在真实Web场景中响应能力的见解。

3.4 MobileViews

发布方:北京邮电大学和清华大学等

下载地址https://huggingface.co/datasets/mllmTeam/MobileViews

发布时间:2024.9

大小:600000多个屏幕截图-视图层次结构对

简介:MobileViews提供了来自20000个Android应用程序的600000多个屏幕截图-视图层次结构对。它使用LLM增强的应用程序遍历工具收集,为移动GUI agent 在屏幕摘要、可点击性预测和UI组件识别等任务中提供了高保真资源。

3.5 ScreenAgent

发布方:吉林大学

下载地址https://github.com/niuzaisheng/ScreenAgent

发布时间:2024.2

大小:约200个截图-操作数据集

简介:ScreenAgent 提供了一个全面的流程,使 agent 能够自主执行多步骤任务, 包括规划、行动和反思阶段。通过利用带注释的屏幕截图和详细的动作序列,它实现了 UI 元素定位和任务完成的高精度,在准确性方面超越了之前的模型。

3.6 MOSS-pluginData

发布方:复旦大学MOSS团队

下载地址https://github.com/OpenLMLab/MOSS

发布时间:2023.7

大小:57万条英文对话和59万条中文对话数据

简介:moss-moon-003-sft-plugin所使用的插件增强的多轮对话数据,包含支持搜索引擎、文生图、计算器、解方程等四个插件在内的多轮对话数据。MOSS所使用的多轮对话数据,覆盖有用性、忠实性、无害性三个层面,包含由text-davinci-003生成的约57万条英文对话和59万条中文对话。

<|Human|>: 黑暗荣耀的主演有谁<eoh>
<|Inner Thoughts|>: 这是一个关于黑暗荣耀的问题,我需要查询一下黑暗荣耀的主演<eot>
<|Commands|>: Search("黑暗荣耀 主演")<eoc>
<|Results|>:
Search("黑暗荣耀 主演") =>
<|1|>: "《黑暗荣耀》是由Netflix制作,安吉镐执导,金恩淑编剧,宋慧乔、李到晛、林智妍、郑星一等主演的电视剧,于2022年12月30日在Netflix平台播出。该剧讲述了曾在高中时期 ..."
<|2|>: "演员Cast · 宋慧乔Hye-kyo Song 演员Actress (饰文东恩) 代表作: 一代宗师 黑暗荣耀 黑暗荣耀第二季 · 李到晛Do-hyun Lee 演员Actor/Actress (饰周汝正) 代表作: 黑暗荣耀 ..."
<|3|>: "《黑暗荣耀》是编剧金银淑与宋慧乔继《太阳的后裔》后二度合作的电视剧,故事描述梦想成为建筑师的文同珢(宋慧乔饰)在高中因被朴涎镇(林智妍饰)、全宰寯(朴成勋饰)等 ..."
<eor>
<|MOSS|>: 《黑暗荣耀》的主演包括宋慧乔、李到晛、林智妍、郑星一等人。<sup><|1|></sup><eom>

4. 流程与多步骤任务评估

流程与多步骤任务评估专注于复杂流程执行、多步骤任务协调或多任务处理能力,可能结合部分环境交互。

4.1 GAIA

  • 发布方:Meta 、 HuggingFace 和 AutoGPT等
  • 下载地址https://huggingface.co/gaia-benchmark
  • 发布时间:2023.11
  • 大小:450道带答案的题目
  • 简介:GAIA是一个GAI的Benchmark,GAIA囊括的真实世界问题需要推理、多模态处理、网页浏览和工具使用能力,下图中可以看出GAIA中问题对Agent能力种类需求、使用工具数量和操作步骤的分布。

GAIA Question:
The attached Excel file contains the sales of menu items for a local fast-food chain. What were the total sales that the chain made from food (not including drinks)? Express your answer in USD with two decimal  places. {{upload .xlsx}}

FINAL ANSWER: 
$89706.00

4.2 AgentBench

发布方:清华大学等

下载地址https://github.com/THUDM/AgentBench

发布时间:2023.10

大小:8类任务共1091个问题

简介:AgentBench是首个评估Agent的Benchmark,涵盖8个不同环境,包括新创建的领域(操作系统、数据库、知识图谱、数字卡牌游戏、横向思维谜题)和复杂任务(家庭管理、网上购物、网页浏览)。每个数据集提供Dev和Test两种拆分,支持多轮交互以测试模型的代理能力。框架结构友好,便于使用和扩展。

 {
  "description": "Tell me the number of CPUs.",
  "evaluation": {
    "check": [
      null,
      {
        "language": "python",
        "file": "check/integer-match.py"
      }
    ],
    "example": "nproc"
  },
  "labels": [
    "command",
    "CPU",
    "device",
    "hardware",
    "processor",
    "system"
  ]
},

4.3 AgentInstruct

发布方:微软研究院

下载地址https://huggingface.co/datasets/THUDM/AgentInstruct

发布时间:2023.10

大小:6类共1866条数据

简介:AgentInstruct是一个经过挑选的Agent数据集,包含1866个高质量交互、6个多样化的真实场景任务(ALFWorld、WebShop、Mind2Web、Knowledge Graph、Operating System、Database)。

[ 
  { "from": "human", "loss": null, "value": "You are an assistant that will act like a person, I'will play the role of linux(ubuntu) operating system. Your goal is to implement the operations required by me or answer to the question proposed by me. For each of your turn, you should first think what you should do, and then take exact one of the three actions: \"bash\", \"finish\" or \"answer\". \n\n1. If you think you should execute some bash code, take bash action, and you should print like this:\n\nThink: put your thought here.\n\nAct: bash\n\n```bash\n# put your bash code here\n```\n\n2. If you think you have finished the task, take finish action, and you should print like this:\n\nThink: put your thought here.\n\nAct: finish\n\n3. If you think you have got the answer to the question, take answer action, and you should print like this:\n\nThink: put your thought here.\n\nAct: answer(Your answer to the question should be put in this pair of parentheses)\n\nIf the output is too long, I will truncate it. The truncated output is not complete. You have to deal with the truncating problem by yourself. Attention, your bash code should not contain any input operation. Once again, you should take only exact one of the three actions in each turn.\n\nNow, my problem is:\n\ntell me how many files are in the directory \"/etc\"?" 
  }, 
  { "from": "gpt", "loss": false, "value": "Think: To count the files in /etc, I need to print all the files in it.\n\nAct: bash\n\n```bash\nls /etc\n```" }
  , 
  { "from": "human", "loss": null, "value": "The output of the OS:\ncpi cron.hourly fuse.conf iproute2 lvm networkd-dispatcher protocols selinux tmpfiles.d [truncated because the output is too long]" 
  }
  , 
  { "from": "gpt", "loss": false, "value": "Think: The output has been truncated because it is too long, so I need to count files by script directly.\n\nAct: bash\n\n```bash\nls -1 /etc | wc -l\n```" 
  }, 
  { "from": "human", "loss": null, "value": "The output of the OS:\n220" 
  }, 
  { "from": "gpt", "loss": false, "value": "Think: Now I get the answer, it is 220.\n\nAct: answer(220)" 
  }, 
  { "from": "human", "loss": null, "value": "Now, I will start a new problem in a new OS. My problem is:\n\nYou need to identify how many JPEG image files are there in the folder named \"image_directory\". The JPEG files may end with .jpg or .jpeg extensions." 
  }, 
  { "from": "gpt", "loss": true, "value": "Think: The first step is to check if there are any .jpg files in \"image_directory\".\n\nAct: bash\n\n```bash\nfind image_directory -type f -name \"*.jpg\"\n```" 
  }, 
  { "from": "human", "loss": null, "value": "The output of the OS:\n\nimage_directory/subdir1/image3.jpg\r\nimage_directory/image1.jpg\r\n\u001b]0;root@dfac388e9a33: /\u0007root@dfac388e9a33:/# \u001b[K" 
  }, 
  { "from": "gpt", "loss": true, "value": "Think: Now, I can see two .jpg files in \"image_directory\". The next step is to check for any .jpeg files in the same directory.\n\nAct: bash\n\n```bash\nfind image_directory -type f -name \"*.jpeg\"\n```" 
  }, 
  { "from": "human", "loss": null, "value": "The output of the OS:\n\nimage_directory/subdir2/image4.jpeg\r\nimage_directory/image2.jpeg\r\n\u001b]0;root@dfac388e9a33: /\u0007root@dfac388e9a33:/# \u001b[K" 
  }, 
  { "from": "gpt", "loss": true, "value": "Think: I can see two .jpeg files in \"image_directory\". Now I need to count all the .jpg and .jpeg files.\n\nAct: bash\n\n```bash\nfind image_directory -type f \\( -name \"*.jpeg\" -o -name \"*.jpg\" \\) | wc -l\n```" 
  }, 
  { "from": "human", "loss": null, "value": "The output of the OS:\n\n4\r\n\u001b]0;root@dfac388e9a33: /\u0007root@dfac388e9a33:/# \u001b[K" 
  }, 
  { "from": "gpt", "loss": true, "value": "Think: Now I get the answer, there are 4 JPEG image files in \"image_directory\".\n\nAct: answer(4)" 
  } 
]

4.4 FlowBench

发布方:Ruixuan Xiao, Wentao Ma, Ke Wang et al.

下载地址https://drive.google.com/drive/folders/1PFzA5e-fuKpVZvAHP-otBhWPdU60O3d4

发布时间:2024.6

大小:51种场景共384MB数据

简介:FlowBench是第一个用于工作流引导代理规划的综合基准数据集。它涵盖了广泛的分类体系(6个领域、22个角色、51种场景)并支持不同的知识格式(文本、代码、流程图),以全面模拟真实世界应用。该基准通过三阶段流程构建:任务收集、工作流组织和会话生成。数据集支持单回合(turn-level)和会话级(session-level)评估,还包括专家级注释和多轮用户-代理互动。

5. 总结

在本期Agent开源数据集分享中,我们整理了多个Agent开源数据集,涵盖网页操作、软件工程等多个任务和计划、多步推理、反思等多个核心能力。值得注意的是,相比LLM,由于Agent的数据具有跨模态、轮数多、绝对正确性弱等特点,故这些开源数据以BenchMark为主,且往往需要进一步提取与整合,才能得到格式化、标准化的Agent数据。未来,我们将致力于Agent数据的收集和构建,为Agent在各个领域落地提供数据支撑。

整数智能信息技术(杭州)有限责任公司,起源自浙江大学计算机创新技术研究院,致力于成为AI行业的数据合伙人。整数智能也是中国人工智能产业发展联盟、ASAM协会、浙江省人工智能产业技术联盟成员,其提供的智能数据工程平台(MooreData Platform)与数据集构建服务(ACE Service),满足了智能驾驶、AIGC等数十个人工智能应用场景对于先进的智能标注工具以及高质量数据的需求。

目前公司已合作海内外顶级科技公司与科研机构客户1000余家,拥有知识产权数十项,通过ISO9001、ISO27001等国际认证,也多次参与人工智能领域的标准与白皮书撰写,也受到《CCTV财经频道》《新锐杭商》《浙江卫视》《苏州卫视》等多家新闻媒体报道。

Your Data Partner In The AI Industry
整数智能©2025