ArenaRL – 通义与高德开源的开放域对比式强化学习方法 ArenaRL是什么 ArenaRL 是通义 DeepResearch 团队联合高德开源的,面向开放域智能体的对比式强化学习方法。ArenaRL通过引入锦标赛机制,将传统的绝对打分转变为组内相对排序... AI工具集# ArenaRL 1天前690