
Grok3发布!跟其他AI对比表现如何呢?
相关链接:
引言
昨天,马斯克发布了Grok3,号称“地表最强模型”。作为一个技术爱好者,我当然不能放过这个机会,第一时间用招行信用卡开通了X的高级订阅(花了125.44元人民币),准备对它进行一次全面测试。这篇文章将详细记录我对Grok3的使用体验,并与GPT-4o、Gemini 2.0、DeepSeek R1等主流AI模型进行对比,看看它到底值不值得这个价。
Grok3模型概述
Grok3目前仅对X平台的最高级别订阅者开放,入口有两个:一是X平台左侧的Grok选项,二是GrokAI官网。目前处于Beta版,提供思考功能和Deep Search功能。思考功能让我眼前一亮,但每天使用次数有限(大约10次左右,具体算法我没搞懂)。Deep Search功能则不太稳定,时有时无,上次测试时好不容易出现了一次,结果停电了——录了一个多小时的视频全白费,当时我的表情估计能拉磨!
官方宣称Grok3超越了DeepSeek V3,据说训练用了20万张H100显卡,光听这数字就让人有点晕。但实际表现如何?咱们得用数据说话。
测试过程和结果
1. 数学问题测试
我先拿网友的问题开刀:“哪两个整数的乘积是10万,且尾数都不是0?” Grok3答对了:32和3125。不过别急,GPT-4o和DeepSeek R1也能轻松答对,DeepSeek R1还反复验算了一番,显得格外认真。
再试一个:“9.11和9.8哪个大?” Grok3直接说9.11大,错了!正确的答案是9.8。GPT-4o也翻车了,言之凿凿地说9.11大,废话一堆。DeepSeek R1不开深度思考时也错了,但开启后能通过推理纠正(比如把9.8补成9.80再比)。Gemini 2.0的基础模型倒是直接答对了,可能优化过。Grok3开启思考功能后也能答对,但这暴露了基础能力的短板。
还有个问题:“筐子里至少有多少个桃子?”(具体题目没说清楚,我按网友可能的意思理解为一道逻辑题)。Grok3算出106个,GPT-4o和Gemini 2.0也给出了106,答案一致,但过程冗长,Grok3显得稍微狂妄了点。
2. 代码编写测试
我让Grok3写一个类似超级马里奥的游戏,用Python实现。代码跑起来后,能走,但按空格不会跳跃,体验有点拉胯。GPT-4o和DeepSeek R1写的版本能跳,虽然简单但功能完整。Gemini 2.0的多步推理版也能跳,但跳出去就消失了,像是迷你版马里奥。
接着,我提高难度,要求一个半透明3D立方体容器动画,包含动态物体、物理效果和鼠标交互。Grok3思考后给了一个精简测试版,能跑但有小bug,比如小球掉出去的物理效果不对。Gemini 2.0直接认怂,说给不了完整代码。O3mini high思考1分45秒后给了一个可运行版,但加载顺序有问题,需要手动调整。Grok3在这块表现中规中矩,没特别惊艳。
3. 个性化文本生成
我想看看Grok3的“嘴”有多毒,让它用犀利语言评价我的博客。结果它说我的内容“空洞”“高深莫测”,还算温和。GPT-4o更弱,甚至让我有点暗爽。Gemini 2.0直接开大招,建议我关博客,字字诛心,差点没把我整自闭。DeepSeek R1最佛系,说尊重他人创作,建议我不喜欢的就屏蔽,格局一下子打开了。
4. 图像生成
Grok3没有内容审查是个亮点。我让它生成公众人物图像没问题,还试了半透明3D立方体容器,效果不错。但Deep Search不稳定,限制了发挥空间,挺可惜的。
价格和性价比分析
Grok3订阅费125.44元,比OpenAI便宜,UI设计也更讨喜,性价比看似不错。但跟DeepSeek比就有点尴尬了。DeepSeek目前免费,据说已解决算力问题,未来可能对免费用户开放更多功能。Grok3这收费模式在DeepSeek面前显得不香,除非你特别喜欢它的UI或马斯克的牌子。
个人感受和展望
老实说,Grok3比我想象中差点。20万张H100的训练规模听起来吓人,但实际表现也就那样。思考功能是我最喜欢的亮点,逻辑清晰,能救场,但次数限制太严格。Deep Search不稳定,关键时刻掉链子,上次好不容易用了一次还停电了,属实倒霉。
未来,我希望Grok3能优化基础能力,把Deep Search稳定住。样本量太少,现在下结论还早,等正式版推出我再测测看。
- 感谢您的赞赏