阶跃星斗推理模子 Step R-mini 上线:声称“文理兼修”,AIME 等数学基准测试成就超 o1-preview
阶跃星斗推理模子 Step R-mini 上线:声称“文理兼修”,AIME 等数学基准测试成就超 o1-preview
2025年01月17日 16:55
IT之家
IT之家 1 月 17 日新闻,阶跃星斗昨日(1 月 16 日)发布,自研推理模子 Step Reasoner mini(简称 Step R-mini )上线。官方表现,在 AIME 跟 Math 等数学基准测试上,Step Reasoner mini 的成就超越了 o1-preview,比肩 OpenAI o1-mini。在 LiveCodeBench 代码义务上,也比 o1-preview 后果更佳。Step Reasoner mini 经由过程年夜范围的强化进修练习,并应用 On-Policy(同战略)强化进修算法,实现了“文理兼修”。Step Reasoner mini 除了能正确解答数学、代码、逻辑推理成绩,还能富有创意地实现文学内容创作跟一样平常谈天的义务。IT之家附休会链接:https://yuewen.cn