网站地图官方微信:
网站首页 赵北乡 高作镇 东案乡 合浦县 铺门镇 色达县

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | 大家的个人网站都是什么样的,可以拿出来展示展示吗? |

    我的个人小破站(龙腾万里sky 的博客),谈不上美,不太喜欢...

    查看详情>>
  • | 什么是 5G 固定无线接入(FWA)? |

  • | 商城里如何缓存商品信息? |

  • | 现代艺术只考虑意义、不考虑美感吗? |

  • | 为什么年轻的肉体让人沉迷? |

  • | 如何看待 Git 的 Windows 安装程序称 Vim「很难用」? |

  • | 韦东奕(北大韦神)要是去写游戏引擎代码,能不能把虚幻引擎按在地上摩擦?数学好真能‘降维打击吗? |

  • | 性在婚姻生活中真的重要吗? |

  • | 360 集团周鸿袆努力拼了 4 年,最后反而跌了近 4000 亿,其原因是什么? |

  • | 为什么感觉淘宝现在不如拼多多了? |

  • | 为什么这么多人讨厌中国移动? |

  • 因为 QuickJS 这样的东西没有早出来几年,否则根本没有...

    2025-06-22
  • 这事吧,其中隐含兔子的理政经验、治国传统。 不止是禁酒,而...

    2025-06-22
  • 我认为恰恰相反 你看这幅画,美的无可挑剔! 独特的构图、...

    2025-06-22
  • 不带货哈。 我是真有在用。 家里是我洗碗,但是我洗碗真的...

    2025-06-22

关注我们

添加微信好友,关注最新动态