如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
来源:
编辑:
时间:2025-06-23 16:20:17

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
-
{dede:pagebreak/}


网友评论:
{dede:include file='ajaxfeedback.htm' /}
栏目分类

最新文章
- 如何评价苹果 3 月 5 日发布的 MacBook Air M4,相比前代有哪些提升?
- Rust 使用 Result 的错误处理方式与 Golang 使用 error 的方式有什么本质区别?
- PHP现在真的已经过时了吗?
- 自己拥有一台服务器可以做哪些很酷的事情?
- 华为自研的仓颉编程语言将于 7 月 30 日开源,这款语言将如何影响未来的开发趋势?
- 是军舰上的大炮厉害还是陆军的大炮厉害?
- 字节大量使用新语言,包括go,rust等,为什么阿里一直都抱着j***a不松手?
- A股市场通达信游资量能异动捉妖主升浪指标公式哪些比较好用?
- 脸与身材不符是种怎样的体验?
- 重庆一酒店小熊猫叫早服务引争议被叫停,小熊猫与人亲密接触存在哪些安全隐患?动物园开动物主题酒店合理吗?

热门文章
- 一个人想养一个不怎么需要打理的小宠物,有什么推荐的?
- 媒体称以色列防空成本一晚近 3 亿美元,最多再撑 12 天,美方会支援吗?若无美补给结果会如何?
- 韦东奕和王虹谁的数学天赋更强?
- J***a现在好找工作吗?
- 如何电脑下载Adobe audition?
- 什么样的女主才能叫做「人间尤物」?
- 编程语言 MoonBit 发布 Beta 版,正式进入企业场景应用,会带来哪些影响?
- 匿名关了,大家实名说说你最近的烦恼?
- 客户端kotlin、swiftUI、flutter和web端vue、jsx的UI语法,哪种方式更优雅?
- 如何看待不超过1879元的Mac mini(M4+16/256GB+票),易用性吊打同级其他台式电脑?
