a股如何杠杆使任务在复杂性上逐步扩展

Agent 能"看懂网页"，像人类一样上网？

阿里发布WebDancer，就像它的名字一样，为"网络舞台"而生。

只要输入指令，它就可以帮你上网搜索、做攻略，实现自主信息检索代理和类似深度研究模型的推理。

传统模型只能按固定流程思考，而 WebDancer 作为一个端到端的自主信息搜索智能体，具备多步推理、工具使用和泛化能力。

WebDancer 在 GAIA 和 WebWalkerQA 上分别取得了 61.1% 和 54.6% 的 Pass@3 分数，优于基线模型和部分开源框架。

模型和方法均已开源，网友直呼想试：

WebDancer 的秘密武器

不同于其它的推理问答模型，WebDancer 要像人类一样思考、理解并操作，可不是一件简单的事情。

使用 GAIA、WebWalkerQA 和日常使用情况对 WebDancer 进行演示，可以看到，WebDancer 能够执行多步骤和复杂推理的长期任务，例如网页遍历、信息搜索和问答。

它的"秘密武器"是一种四阶段训练范式，包括浏览数据构建、轨迹采样、针对有效冷启动的监督微调以及用于改进泛化能力的强化学习。

阿里开源了这个训练框架，使除了 WebDancer 以外的智能代理也能够自主获取自主搜索和推理技能：

1、浏览数据构建

这一步的目标是创建覆盖真实的网页环境、需要多步交互的复杂 QA 对。

可以分为两个网络数据生成流程，如上图所示。

在 CRAWLQA 中，需要先收集知识性网站（ArXiv、GitHub、Wiki 等）的主 URL，然后在主页上系统地点击和收集通过子链接可访问的子页面，模拟人类行为。

使用预定义规则，就可以利用 GPT4o 根据收集到的信息生成 QA 对（1.0 版）了。

对于 E2HQA ( Easy-to-Hard QA ) 来说，将初始的简单问题 Q1 通过实体检索→信息扩展→问题重构的步骤，使任务在复杂性上逐步扩展，从简单的实例到更具挑战性的实例。

依然是使用 GPT-4o 重写问题，直到迭代达到 n，QA 对足够成熟。

2、轨迹采样

这一步要从 QA 对中生成高质量的思维 - 动作 - 观察（Thought-Action-Observation）执行轨迹。

WebDancer 的代理框架基于ReAct，这是语言代理最流行的方法，一个 ReAct 轨迹由多个思维 - 动作 - 观察轮次组成：

在思维阶段，模型会根据输入生成推理链，然后在动作阶段将参数为结构化 JSON，最后在观察阶段返回结果（如网页摘要或搜索片段）。

思维阶段生成的思维链对智能体执行十分重要，WebDancer 采用了双路径采样的方法，可分为短思维链和长思维链两条路径：

短思维链适用于单步骤任务，直接使用 GPT-4o 生成简洁轨迹；

长思维链适用于多步骤任务，使用专用推理模型（LRMs、QwQ-Plus）生成带长链推理的轨迹。

因为 LRM、QwQ-Plus 在训练过程中没有接触过多步推理输入，在进一步推理时，WebDancer 排除了之前的思维，但它们作为有价值的监督信号保留在了生成的轨迹中。

随后，WebDancer 采用了一个基于漏斗的三阶段轨迹过滤框架，仅保留满足以下三个标准的轨迹：信息非冗余、目标一致性以及逻辑推理准确性。

3、有监督微调

在获得 ReAct 格式的优质轨迹后，就可以将其无缝整合到智能体的有监督微调（Supervised Fine-Tuning，SFT）训练阶段，这个步骤可以教会模型基础的任务分解与工具调用能力，同时尽可能保留其原有的推理能力。

在 SFT 阶段，要先将轨迹转换为标记化输入，明确分隔符，然后计算 Thought 和 Action 部分的损失（忽略 Observation 噪声），损失公式如下：

其中tc是任务上下文，为完整的智能体执行轨迹，每个

代表思考 / 行动 / 观察，过滤掉对应外部反馈的标记，确保损失是在代理的自主决策步骤上计算的。

SFT 阶段为后续的 RL 阶段提供了强大的初始化。

4、强化学习

这一步的目标是优化代理在真实网络环境中的决策能力和泛化能力。

在 SFT 阶段的基础上，本阶段采用解耦裁剪动态采样策略优化算法（Decoupled Clip and Dynamic Sampling Policy Optimization，DAPO）来精调策略模型。

DAPO 是一种基于奖励模型R的策略优化算法，其工作原理如下：

首先，对于每个包含部分答案的阶段轨迹，算法生成一组候选执行序列。通过最大化以下目标更新策略：

随后，过采样并过滤准确率为 1 或 0 的提示（prompts），确保智能体聚焦于高质量信号的学习。

最后，采用新旧策略的概率比替代固定 KL 惩罚项：

奖励设计在 RL 训练过程中起着至关重要的作用，WebDancer 的奖励机制主要由两种类型的奖励组成，分别为格式奖励和答案奖励，权重分别为 0.1 和 0.9。

最终奖励函数为：

有效性分析

在 GAIA 和 WebWalkerQA 这两个成熟的基准数据集上测试 WebDancer，结果显示，WebDancer 在 GAIA 上达到 46.6% 的平均准确率，WebWalkerQA 上达到 43.2%，优于基线模型和部分开源智能体框架。

可以看到，不具备代理能力的框架（No Agency）在 GAIA 和 WebWalkerQA 基准测试中均表现不佳，这突出了主动信息搜索和代理决策对于这些任务的重要性。

闭源代理系统 OpenAI DR 通过端到端强化学习训练实现了最高分，在开源框架中，基于原生强推理模型（如 QwQ-32B）构建的代理方法始终优于非代理对应方法，证明了在代理构建中利用推理专用模型的有效性。

在两个更具挑战性的数据集 BrowseComp（英文）和 BrowseComp-zh（中文）上测试 WebDancer，均表现出持续强劲的性能，突显了其在处理困难推理和信息搜索任务中的鲁棒性和有效性。

鉴于智能体环境的动态性和复杂性，以及 GAIA 测试集相对较小且变化较大的特点，对 Pass@3 和 Cons@3 进行细粒度分析。

值得注意的是，经过 RL 后的 Pass@1 性能与 SFT 基线的 Pass@3 相当，表明 RL 能够更有效地采样正确响应。

对于语言推理模型（LRMs），虽然经过 RL 后 Pass@1、Pass@3 或 Cons@3 没有显著提升，但在一致性方面有明显的改善；这可能是过长轨迹导致的稀疏奖励信号所致。

参考链接：

https://x.com/_akhaliq/status/1937997314737553873

论文：https://arxiv.org/abs/2505.22648

github：https://github.com/Alibaba-NLP/WebAgent/tree/main/WebDancer

模型：https://huggingface.co/Alibaba-NLP/WebDancer-32B

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 量子位 AI 主题策划正在征集中！欢迎参与专题365 行 AI 落地方案，一千零一个 AI 应用，或与我们分享你在寻找的 AI 产品，或发现的AI 新动向。

� � 也欢迎你加入量子位每日 AI 交流群，一起来畅聊 AI 吧～

一键关注 � � 点亮星标

科技前沿进展每日见

启远网配资-怎么在手机上买股票开户-配资之家主要有配资炒股-配资世界门户首页提示：文章来自网络，不代表本站观点。

a股如何杠杆使任务在复杂性上逐步扩展

在线配资查询服务塞进背包就鼓鼓囊囊了

股票如何配资杠杆晨丰转债信用级别为“A”

什么是股票配资普通滑竿根本塞不下他

配资公司大全老版本的装备获取难度也是极其考究的

168股票配资俱乐部将继续增加投入

全国最大的配资公司后来才知道证据“抓重点”：“光说对方态度差没用

配资资金民间资本发达、民间融资需求旺盛

炒股配资什么意思理由之一竟是“中国不愿刺激印度

杭州配资门户依法实施的强制性市场准入制度

全国股票配资孩子才能在激烈的竞争中立于不败之地

浙江配资公司四季民福望京南湖东园店依然需要排位就餐

网上配资门户贵州队2-1战胜对手提前一轮夺冠升入甲级

加杠杆炒股平台薯片随莎莎得分节奏晃动

安全配资炒股美国人还在为突破15马赫开香槟