ArenaRL

共 1 篇文章

ArenaRL是什么 ArenaRL 是通义 DeepResearch 团队联合高德开源的，面向开放域智能体的对比式强化学习方法。ArenaRL通过引入锦标赛机制，将传统的绝对打分转变为组内相对排序...

1天前

690