Grok3发布!跟其他AI对比表现如何呢?

文章摘要

神人GPT

相关链接：

YouTube：https://www.youtube.com/embed/HKAuOCFu0lc

B站：https://player.bilibili.com/player.html?isOutside=true&bvid=BV1Z4AzeBEKT&autoplay=0

引言

昨天，马斯克发布了Grok3，号称“地表最强模型”。作为一个技术爱好者，我当然不能放过这个机会，第一时间用招行信用卡开通了X的高级订阅（花了125.44元人民币），准备对它进行一次全面测试。这篇文章将详细记录我对Grok3的使用体验，并与GPT-4o、Gemini 2.0、DeepSeek R1等主流AI模型进行对比，看看它到底值不值得这个价。

Grok3模型概述

Grok3目前仅对X平台的最高级别订阅者开放，入口有两个：一是X平台左侧的Grok选项，二是GrokAI官网。目前处于Beta版，提供思考功能和Deep Search功能。思考功能让我眼前一亮，但每天使用次数有限（大约10次左右，具体算法我没搞懂）。Deep Search功能则不太稳定，时有时无，上次测试时好不容易出现了一次，结果停电了——录了一个多小时的视频全白费，当时我的表情估计能拉磨！

官方宣称Grok3超越了DeepSeek V3，据说训练用了20万张H100显卡，光听这数字就让人有点晕。但实际表现如何？咱们得用数据说话。

测试过程和结果

1. 数学问题测试

我先拿网友的问题开刀：“哪两个整数的乘积是10万，且尾数都不是0？” Grok3答对了：32和3125。不过别急，GPT-4o和DeepSeek R1也能轻松答对，DeepSeek R1还反复验算了一番，显得格外认真。

再试一个：“9.11和9.8哪个大？” Grok3直接说9.11大，错了！正确的答案是9.8。GPT-4o也翻车了，言之凿凿地说9.11大，废话一堆。DeepSeek R1不开深度思考时也错了，但开启后能通过推理纠正（比如把9.8补成9.80再比）。Gemini 2.0的基础模型倒是直接答对了，可能优化过。Grok3开启思考功能后也能答对，但这暴露了基础能力的短板。

还有个问题：“筐子里至少有多少个桃子？”（具体题目没说清楚，我按网友可能的意思理解为一道逻辑题）。Grok3算出106个，GPT-4o和Gemini 2.0也给出了106，答案一致，但过程冗长，Grok3显得稍微狂妄了点。

2. 代码编写测试

我让Grok3写一个类似超级马里奥的游戏，用Python实现。代码跑起来后，能走，但按空格不会跳跃，体验有点拉胯。GPT-4o和DeepSeek R1写的版本能跳，虽然简单但功能完整。Gemini 2.0的多步推理版也能跳，但跳出去就消失了，像是迷你版马里奥。

接着，我提高难度，要求一个半透明3D立方体容器动画，包含动态物体、物理效果和鼠标交互。Grok3思考后给了一个精简测试版，能跑但有小bug，比如小球掉出去的物理效果不对。Gemini 2.0直接认怂，说给不了完整代码。O3mini high思考1分45秒后给了一个可运行版，但加载顺序有问题，需要手动调整。Grok3在这块表现中规中矩，没特别惊艳。

3. 个性化文本生成

我想看看Grok3的“嘴”有多毒，让它用犀利语言评价我的博客。结果它说我的内容“空洞”“高深莫测”，还算温和。GPT-4o更弱，甚至让我有点暗爽。Gemini 2.0直接开大招，建议我关博客，字字诛心，差点没把我整自闭。DeepSeek R1最佛系，说尊重他人创作，建议我不喜欢的就屏蔽，格局一下子打开了。