如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

时间：2025-06-20 18:00:17来源：当前位置：当前位置：首页 >

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果，突出了一个政治正确，6款大模型，OpenAI的o3倒数第一，我当时看到的时候就觉得很奇怪，o3好歹也是曾经的一代王者，高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下，因为这道题除了o3，其他的国产模型都答对了。

这是第五题的原题，正确答案是A. - 1/2。

这是之前的第三方的测试结果，6个模型…。

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

上一篇 : 周杰伦为什么不告粥饼伦黑伦侵犯他的名誉权?

下一篇 : 如何编写让别人看不懂的代码？

相关文章：

{dede:myad name='右侧广告位'/}

用K8s的公司有多少人会部署K8s？

只要愿意问，LLM能把幼儿园的小朋友教会怎么部署k8s，但事...
2025-06-20阅读全文 >>
请各位参与了鸿蒙NEXT APP适配的开发者来谈一谈适配过程中的感受？

这么说吧，有种系统核心级的框架，外包给了第三方开发的感觉。 ...
2025-06-20阅读全文 >>
为什么苹果手机杀后台现象频繁？是内存不够、后台管理严格还是其他原因呢？

根据苹果社区开发者们的测试，iOS是一个不存在页面交换和zr...
2025-06-20阅读全文 >>
DF-41已经可以打击美国本土，这是否相当于古巴导弹危机常态化？

先说结论，不是再说为啥 1.虽然东风41能覆盖米利坚，但是...
2025-06-20阅读全文 >>
一米二的棍子打的赢三十厘米的刀子吗？

先说结论，打不过。一米二什么概念？就一扫把棍。无论是...
2025-06-20阅读全文 >>

养花知识本月排行

1丰田将中国市场决策权交给中方，是在华战略重大调整，这会不会意味着未来中国市场的丰田车“中味”十足了？
Flutter 为什么没有一款好用的UI框架？
现在为什么没有黑客了？
周杰伦为什么不告粥饼伦黑伦侵犯他的名誉权?
编程语言 MoonBit 发布 Beta 版，正式进入企业场景应用，会带来哪些影响？
如何评价电影《碟中谍8：最后清算》？
Mac电脑总是提示磁盘已满，怎么才能清理干净？
MacOS真的比Windows流畅吗？
和女生旅游开一间房有什么注意事项？
以前大力推广的沼气池，怎么现在越来越少了？

{dede:myad name='右侧广告位'/}

养花知识精选

养花知识推荐