※この記事は2025年2月21日に作成したものです(当記事掲載の画像は、当該ツール・サービスのものを除き全てAI生成の画像です)
2025年2月、イーロン・マスク氏率いるxAIが正式発表した第三世代大規模言語モデル群『Grok3』。
イーロン・マスク氏が「地球上で最も賢いAI」と称するGrok3について、本記事では解説しています。
Grok3とは何のか、その概要的なところから実際の使い方など、AI初心者の方でもわかりやすく紹介します。
目次
Grok3とは
Grok3とは、イーロン・マスク氏率いるxAIが開発したLLM(大規模言語モデル)/AIチャットボット/AIモデル群で、xAIが2025年2月17日(米国時間)、最新のAIモデルとして発表しました。
Grok3は、対話型のAIチャットボットとしての基本機能から、リアルタイム情報を活用した能力(推論力)、コーディング(コード生成)や、DeepSearch(ディープサーチ)と名付けられた深層検索ツールとしての側面も持ち合わせています。
そういった意味では、Grok3は”AIエージェント”とも言えるかと思います。
そんなGrok3ですが、”どんなことが出来て、どうスゴイのか”という点は、AI初心者の方のみならず気になるところかと思います。
従来の最新モデルの10倍の計算リソースを用いて訓練されたGrok3は、『推論、数学、コーディング、世界知識、そして指示に従うタスクにおいて顕著な性能向上を示す』と、開発元のxAIが発表しています。
大規模強化学習によって洗練されたGrok3の推論能力は、数秒から数分間にわたって思考することで、エラーを修正し、代替案を検討し、正確な回答を導き出すことを可能にする、と。
Grok3のベンチマーク
↑は、Grok3のベンチマーク比較ですが、様々なベンチマークで優秀な性能を示しています。
例えば、左上の「AIME’25」(2025 American Invitational Mathematics Examination)で、Grok3 beta (Think)は数学競技で93.3%のスコアを達成したということがわかります。大学院レベルの専門的推論を要するGPQAで84.6%、コード生成と問題解決を測るLiveCodeBenchでは79.4%を記録しています。
大規模言語モデル(LLM)の代表格ともいえるChatGPT(GPT-4o)や、GoogleのGemini等との比較を見ても、Grok3の数値が高いことがわかります。
Grok3の利用条件
(2025年2月21日現在)Grok3を利用するための条件は以下の通りです。
・X(旧Twitter)のWeb、アプリ版
・iOS版(Androidは事前登録)
・Grok Web版(xAI公式)
当初はX(旧Twitter)の有料プラン(X Premium+、SuperGrokプラン)のみでしたが、無料利用が可能となっています。
※無料版のGrok3 betaでは、例えばX(旧Twitter)での無料利用の場合、2時間あたり5セッション等の制限があります
Grok3を実際に使ってみた
↑は、X(旧Twitter)内でのGrok3 betaのスクリーンショットです。深層検索ツールであるDeepSearch(ディープサーチ)を選択して、入力フォームに以下のように入力しました↓
Grok3のDeepSearchとOpenAIのDeepResearchとの違い
入力内容は、「Grok3のDeepSearchと、OpenAIのDeepResearchとの違いを教えて」のみで、特に「調べるソースは○個以上」等、細かな条件・指示はしていません。
それでも、Grok3 betaのDeepSearchモードでは↑のように、複数のソースから調べているというのが可視化できます。
続けて、↓のように最終結果まで回答されました。
-
Grok3 DeepSearchとOpenAI DeepResearchは、どちらもウェブ調査を行い詳細なレポートを提供するAIツールです。
-
Grok3 DeepSearchはxAIが開発し、Grok3モデルを使用。OpenAI DeepResearchはOpenAIが開発し、o3モデルを使用。
-
アクセス方法が異なり、Grok3 DeepSearchはXやGrokのウェブサイトで利用可能、OpenAI DeepResearchはChatGPTで利用可能。
-
OpenAI DeepResearchはPythonベースのデータ分析をサポートするが、Grok3 DeepSearchにはその機能がない可能性。
-
Grok3 DeepSearchは、xAIが開発し、Grok3モデルを基盤としています。
-
OpenAI DeepResearchは、OpenAIが開発し、最新のo3モデルを基盤としています。
-
Grok3 DeepSearchは、XやGrokの公式ウェブサイト(Grok)で利用でき、サブスクリプションオプション(SuperGrok)があります。
-
OpenAI DeepResearchは、ChatGPTのデスクトップ版で利用可能で、初期はProユーザーに限定されています。
-
両方ともウェブを閲覧し、ソースを検証し、情報を合成する能力があります。
-
驚くべき詳細: OpenAI DeepResearchはPythonベースのデータ分析をサポートしており、これはGrok3 DeepSearchには明示的に記載がないため、大きな違いと言えます。
-
Grok3 DeepSearchは「推論ベースのチャットボット」と説明されており、回答の推論過程を詳しく説明する傾向があるようです。
-
Grok3 DeepSearchは一般ユーザーにも広く対応しており、Xを通じてアクセス可能です。
-
OpenAI DeepResearchは金融、科学、政策、工学などの専門家を対象に設計されています。
-
Grok3 DeepSearch: xAIのGrok3モデルに基づき、大きな計算能力(Colossusスーパーコンピュータクラスターを使用)と新しいトレーニング技術で強化されています。
-
OpenAI DeepResearch: OpenAIのo3モデルを基盤とし、ウェブブラウジングとデータ分析に最適化されています。
-
Grok3 DeepSearch: XやGrokウェブサイト、SuperGrokサブスクリプション。
-
OpenAI DeepResearch: ChatGPTデスクトップ版、Proユーザー限定(初期)、モバイル対応予定。
-
共通機能: 両方ともウェブを閲覧し、ソースを検証し、リアルタイム情報を合成して詳細なレポートを作成します。
-
Grok3 DeepSearchの特長: 「次世代検索エンジン」として位置付けられ、「推論ベースのチャットボット」として、回答の推論過程を詳しく説明することが強調されています。例えば、Mashableの記事(Mashable)では、「次世代検索エンジン」として紹介され、例として「次のStarship打ち上げはいつ?」という質問に対して、Wikipediaをソースとして回答を生成することが示されています。また、npakaのX post(npaka)では、DeepSearchが複数のソースから包括的なレポートを数分で作成するAIエージェント機能と説明されています。
-
OpenAI DeepResearchの特長: Pythonベースのデータ分析をサポートし、強化学習を使用して反復的な調査を行う能力があります。DataCampの記事(DataCamp)では、数百のオンラインソースを分析し、構造化されたレポートを作成することが強調されています。また、Natureの記事(Nature)では、引用付きの長文レポートを生成し、文献レビューに役立つと評価されています。
機能
|
Grok3 DeepSearch
|
OpenAI DeepResearch
|
---|---|---|
ウェブブラウジング
|
可能(リアルタイム情報合成)
|
可能(数百のソース分析)
|
ソース検証
|
可能(例:Wikipedia使用)
|
可能(引用付きレポート)
|
推論過程の説明
|
強調(推論ベースのチャットボット)
|
記載なし
|
Pythonデータ分析
|
明示的に記載なし
|
サポート(強化学習と統合)
|
レポート作成
|
包括的なレポート(数分で作成)
|
構造化されたレポート(10分で作成)
|
-
Grok3 DeepSearch: xAIはGrok3を「地球上で最も賢いAI」と主張し、数学、科学、コーディングのベンチマークでGemini 2 Pro、DeepSeek V3、Claude 3.5 Sonnet、GPT-4oを上回るとしています(Impress Watch)。また、DataCampの記事(DataCamp)では、Grok3のThinkモードとBig BrainモードがOpenAIのo1やDeepSeek R1と比較され、数学で93–96のスコアを達成したと報告されています。
-
OpenAI DeepResearch: GAIAベンチマークでは、Level 1で74.29%、Level 2で69.06%、Level 3で47.6%のpass@1スコアを達成し、Humanity’s Last Examでは26.6%の精度を示しました(DataCamp)。これはo1(9.1%)、DeepSeek-R1(9.4%)、Claude 3.5 Sonnet(4.3%)を上回る結果です。
ベンチマーク
|
Grok3 DeepSearch
|
OpenAI DeepResearch
|
---|---|---|
数学
|
93–96(Thinkモード)
|
記載なし
|
GAIA Level 1
|
記載なし
|
74.29% (pass@1)
|
Humanity’s Last Exam
|
記載なし
|
26.6% 精度
|
比較モデル
|
Gemini 2 Pro, DeepSeek V3, etc.
|
o1, DeepSeek-R1, Claude 3.5 Sonnet
|
-
Grok3 DeepSearch: 一般ユーザーにも対応しており、Xを通じてアクセス可能です。例として、Mashableの記事(Mashable)では、日常的な質問(例:Starshipの打ち上げ日)に対応することが示されています。
-
OpenAI DeepResearch: 金融、科学、政策、工学などの専門家を対象に設計されています。DataCampの記事(DataCamp)では、車購入の比較やAIエコシステムの調査など、専門的なタスクに適していると評価されています。
-
Grok3 DeepSearch: npakaのX post(npaka)では、DeepSearchが数分でレポートを作成するが、具体的な精度や最新情報の扱いについては詳細が不足しています。
-
OpenAI DeepResearch: DataCampの記事(DataCamp)では、最新情報の扱いに課題があり、急速に変化するトピックでは精度が低下する可能性があると指摘されています。また、ハルシネーション(幻覚)のリスクも存在するとされています(Nikkei XTECH)。
-
Grok3 DeepSearch: npakaのX post(npaka)では、DeepSearchを試した結果、数分で包括的なレポートが作成されたと報告されていますが、具体的な例は限定的です。
-
OpenAI DeepResearch: DataCampの記事(DataCamp)では、AIエコシステムの調査(11分、25ソース)と車購入の比較(6分、12ソース)の実例が提供されています。前者は不正確な情報(例:DeepSeek-V3とR1の混同)を含むが、後者は包括的で論理的なレポートと評価されています。
-
開発元とモデル:xAI vs OpenAI、Grok3 vs o3。
-
アクセス方法:X/Grokウェブサイト vs ChatGPT。
-
機能:Grok3 DeepSearchは推論過程の説明に重点、OpenAI DeepResearchはPythonデータ分析をサポート。
-
対象ユーザー:一般ユーザー vs 専門家。
-
性能:Grok3は数学で強い、OpenAIはGAIAベンチマークで優位。
-
Elon Musk unveils Grok 3 and ‘Deep Search’ tool
-
Grok 3: Features, Access, O1 and R1 Comparison & More
-
OpenAI’s Deep Research: A Guide With Practical Examples
-
OpenAI’s ‘deep research’ tool: is it useful for scientists?
-
Grok 3 DeepSearch を試す|npaka
-
xAI、最も賢いモデル「Grok-3」発表 DeepSearchで詳細調査
-
OpenAI、詳細な調査レポートをChatGPTで作成できる「deep research」
-
OpenAIがAIエージェント「deep research」、複雑なタスクを多段階で調査
↑結論までの回答時間は、正確に計測していませんが、1~2分程度の体感でした。(入力と回答は2025年2月20日のものです)
結構なボリュームですが、あからさまな間違っているハルシネーション(簡単にいうとAIの誤回答)は特にありません。
ただ、これはGrok3に限ったことではありませんが、大規模言語モデル(LLM)はハルシネーションに要注意です。
ハルシネーションは、大規模言語モデル(LLM)全般の現象として大きな課題の一つです。
ユーザーからすると「正しい情報かどうか」よりも、「流暢に、もっともらしく答えているか」で判断してしまいやすく、誤った情報が含まれていても気づきにくいのが非常に厄介です。
例えば、利用するユーザーが既知のことであれば「この部分はハルシネーションだな」と気付きやすいですが、未知のことであれば、↑の回答結果のようにある程度ボリュームのあるという点から、「これだけしっかり調べて回答してくれてるから大丈夫だろう」というバイアスがかかってしまったりします。
ハルシネーションを信じて外部へアウトプットしてしまった場合、ユーザー自身にリスクが及ぶため、怖い問題です。
そのため、「AIの出力をそのまま使用しない」「特に重要な内容は他の情報源と照合する」ことを習慣化するなど、安全策を講じて活用すべきだといえます。
ハルシネーションは大きな問題ですが、今後も改善が進むことを期待したいところです。
当記事は基本的にAI初心者の方向けに執筆していますが、Grok3では前述の通りコーディング(コード生成)も行ってくれます。
↑は、「二つのクラシックなゲームを組み合わせて、PyGameで見た目も美しくゲームを作ってほしい」というリクエスト(プロンプト)に応じてコードを生成している様子です。
ものすごく簡潔にいうと、「○○の条件でゲームを作ってください」という要望に対して、AI が「6分ほど考えたうえで」コードの例を出力している、という状況ですね。
コードをPython環境(pygameをインストール済み)で実行すれば、画面が立ち上がって、↓のようにゲームが動くというイメージです。
↑ゲーム内ではパドルやボールなどが表示され、ユーザーがパドルを動かしてボールを弾くといったゲームプレイが可能となっているのがわかります。
ほか、Grok3 betaで画像生成も可能です↓
まとめ
イーロン・マスク率いるxAIが開発したGrok3について、簡単に解説しました。
AIチャットボットとして日常会話、専門的な難題まで、DeepSearch機能搭載で、コード生成などもこなせるGrok3が無料で利用可能なので、「ちょっと試しに触ってみるか」が可能=AI初心者の方にも嬉しい点だといえるでしょう。
何をもって比較すればいいのか、何をもって良し悪しの判断ないし優劣をつけるのか、LLMの優劣を完全に決めるのは難しいですが、「自分が求めるタスク(用途)に最も適したツールは何か」という具体的な用途に焦点を当てて選ぶのが現実的です。