ChatGPT

AIはなぜ嘘をつくの? ChatGPTのハルシネーションと仕事でだまされないためのコツ

※この記事は2025年5月10日に作成したものです

ChatGPTなどのLLM(大規模言語モデル)におけるAIのハルシネーションとは、大規模言語モデルがもっともらしい、あるいは権威あるように見えるものの、実際には不正確、誤解を招く、または無意味な情報を生成する現象を指します。

この記事では、ハルシネーションとは何か?ハルシネーションの具体例、ハルシネーションが起こる原因・理由、ハルシネーションに対する対策等、仕事でアウトプットする際に気を付けるべき点について、AI初心者向けにわかりやすく解説しています。

LLMにおけるAIのハルシネーションとは

冒頭でも少し触れましたが、LLMにおけるAIのハルシネーションとは、大規模言語モデルがもっともらしい、あるいは権威あるように見えるものの、実際には不正確、誤解を招く、または無意味な情報を生成する現象を指します。これは、人間が現実と異なるものを知覚する幻覚に例えられますが、AIの場合は、学習データやアルゴリズムの限界から、存在しないパターンや情報を誤って生成することに起因します。LLMは人間のように「知っている」わけでも「理解している」わけでもなく、学習データ内の統計的なパターンに基づいて次の単語を予測しています。

ハルシネーションは、これらの予測が事実の正確性や論理的な一貫性から逸脱した際に発生します 。この用語は比喩的なものであり、人間の誤った知覚に似ていますが、AIにおいては、知覚体験というよりも、誤って構築された応答に関連しています。

OpenAIのChatGPTやGoogleのGemini等、LLMは、人間が話したり書いたりするような自然な言葉づかいを再現するように訓練・設計されており、その結果、ハルシネーションは非常に説得力のあるものになる可能性があり、注意深い検証なしには検出が困難です。このもっともらしさは、流暢さを目的とした設計の中心的な要素ですが、正確性が最も重要な場合には欠点となります。

また、一部の研究では、ハルシネーションはLLMの機能方法に内在する避けられない側面である可能性が示唆されています。これは、LLMが知識リポジトリというよりも予測モデルであることに起因します。

知識リポジトリ (Knowledge Repository)とは?
組織やプロジェクト内で蓄積された知識・情報を体系的に整理・保存・共有するための仕組みやシステムのこと

ハルシネーションの具体例

以下、代表的なLLMであるChatGPTとGeminiの具体的な実例をいくつか挙げてみました。

▼ChatGPT
レオナルド・ダ・ヴィンチが1815年にモナリザを描いたと主張
→ハルシネーションの種類:事実の誤り

▼Gemini
ジェームズ・ウェッブ宇宙望遠鏡が系外惑星の最初の画像を撮影したと誤って主張
→ハルシネーションの種類:事実の誤り

▼ChatGPT
ジョージ・ワシントンが綿繰り機を発明したと主張
→ハルシネーションの種類:事実の誤り

▼Gemini
猫は実際には犬のような犬歯類であると示唆
→ハルシネーションの種類:事実の誤り

▼Gemini
火星に最初に足を踏み入れたのはサンダー・ピチャイだと主張
→ハルシネーションの種類:事実の誤り

▼ChatGPT
存在しない法律判例を引用
→ハルシネーションの種類:捏造された情報

▼ChatGPT
チーズを食べることが体に悪いという主張に対して、存在しない参考文献を提示
→ハルシネーションの種類:捏造された情報

▼ChatGPT
徒歩でイギリス海峡を横断した記録について議論
→ハルシネーションの種類:無意味または非論理的な出力

などなど、”ハルシネーションの種類”も明記しましたが、それぞれもう少し掘り下げると、「事実の誤り」は、LLMが自信を持って提示するため、ユーザーが真偽を見分けるのが難しい場合があります。

私自身、Xでもポストしましたが、やはり”自信を持って間違えられる”と非常に厄介です。

次に、「捏造された情報」。
ChatGPTは、参考文献を求められた際に、存在しない書籍のタイトルと著者名を捏造することもあります。

また、ChatGPTは存在しないニューヨーク・タイムズの記事を要約したり、遺伝子変異の研究に関する詳細を捏造したり、Geminiは研究中に存在しないウェブサイトの記事をハルシネーションとして生成することがあります。

LLMは、質問に対する具体的な情報がない場合、そのギャップを埋めるために詳細を捏造する傾向があり、”もっともらしいが完全に誤った情報を作り出す”ことがあります。

次に、「無意味または非論理的な出力」ですが、ChatGPTやGeminiは、誤った主張や陰謀論に同意することがあります。また、ChatGPTは、プロンプトに基づいて偏った情報を提供することもあります。

LLMはインターネット上の膨大なデータで学習しているため、そのデータに含まれる偏見、誤情報、古い情報が反映されることがあります。

ハルシネーションが起こる原因/理由

LLMにおけるAIのハルシネーションは、いくつかの要因によって引き起こされます。

▼学習データの問題
学習データに偏りがある場合、AIは現実世界を正確に学習できず、偏った出力をしてしまうことがあります。
また、学習データが不完全または不十分な場合、AIは情報の欠落を捏造された情報で埋めてしまう可能性があります。
学習データが古い場合、最近の出来事に関して不正確な情報を提供する可能性があります。

さらに、学習データにノイズや誤り、矛盾が含まれている場合、AIはそれらを学習し、再現してしまうことがあります。
学習データと望ましい出力との間にずれがある場合も、不正確な生成につながる可能性があります。学習データの質と性質は、LLMの正確性の基礎であり、そのデータにおける不完全さは、モデルがハルシネーションを起こす主な原因となります。

▼モデルのアーキテクチャと限界

モデルのアーキテクチャとは
“そのAIがどう作られているのか?どんな仕組みで動いているのか?”という設計図のようなもの

LLMは、必ずしも正確な情報を予測するのではなく、最も可能性の高い次の単語を予測するように設計されています。
また、LLMは直接的な感覚経験や現実世界の包括的な理解を持っていないため、真実と虚偽を区別することが困難です。

モデルが学習データを過剰に学習した場合(過学習)、新しいデータに対してうまく機能せず、ハルシネーションを引き起こす可能性があります。
逆に、モデルが単純すぎると(過小学習)、学習データから十分な詳細を捉えられず、不正確な出力につながる可能性があります。

LLMが一度に処理できるテキストの量には限界があり(コンテキストウィンドウの制限)、長い対話や文書では文脈が失われ、ハルシネーションが発生する可能性があります。

コンテキストウィンドウとは…AIが一度に見られる「文脈の範囲」

学習データや知識の範囲外のトピックについて質問された場合、LLMはもっともらしいが不正確な回答を生成することがあります。LLMは本質的に推論や理解の能力を持たないため、不確実性や知識のギャップに直面した際に、統計的な可能性に基づいて推測を行うことがあり、それが誤りにつながります。

▼プロンプトの問題

プロンプトとは
ChatGPTやGemini等、LLMにユーザーがテキスト/チャット形式で入力する質問事項や指示

曖昧なプロンプトは、誤解を招き、無関係または不正確な出力につながる可能性があります。
また、複雑すぎるプロンプトや誤った前提に基づく質問も、ハルシネーションを引き起こす可能性があります。

ユーザーがAIに求める内容が不明確であると、AIは意図を推測しようとし、それが不正確な応答につながることがあります。

ハルシネーションに対する対策等

LLMのハルシネーションを軽減するための対策は多岐にわたります。

プロンプトエンジニアリング

明確で具体的、かつ曖昧さのないプロンプトを使用することが重要です。
例えば、以下のような工夫が有効です。

質問をできるだけ具体的にする
例:「日本の総理大臣は誰?」よりも「2025年時点での日本の総理大臣は誰?」と聞いた方が、間違いが減ります。

関連情報や例を一緒に与える(インコンテキスト学習・フューショット学習)
たとえば「こんな形式で答えてね」と例を添えると、AIはそのパターンに沿って答えてくれます。

AIに「役割」や「立場」を与える
「あなたは歴史の専門家として答えてください」と伝えると、専門家らしい落ち着いた答えになりやすくなります。

出力の形式を指定する
「箇条書きで答えて」「表にまとめて」など、答え方を具体的に指示すると、情報が整理されて出てきやすくなります。

情報の出典を示すように指示する
「できるだけ出典を添えて答えてください」と伝えると、根拠をもとに答えようとする傾向が強まります。
「信頼できるソースからのみ調べてください」というのも効果的。

段階的に考えるように促す(チェーン・オブ・ソート)
「ステップ・バイ・ステップで答えて」と言うことで、複雑な問題でも順を追って考えるようになります。

検索拡張生成(RAG)

AI(LLM)はたくさんの情報を学んでいますが、それでも「知らないこと」や「古い情報」を答えてしまうことがあります。検索拡張生成(RAG: Retrieval-Augmented Generation)は、そんなときに役立つ仕組みです。

どういうことかというと…

ユーザーが質問する

AIがその質問に関連しそうな情報を、データベースやインターネットから検索する

その「見つけた情報」を参考にして、AIが答える

つまり、AIが自分の知識だけに頼らず、「調べながら答える」という方法です。

▼検索拡張生成(RAG)がハルシネーション対策になる理由

古い・間違った知識に頼らず、実際の情報に基づいて答える
→嘘や勘違い(ハルシネーション)が減ります。

出典のある答えになりやすい
→情報の正しさを自分で確かめることができます。

といったように、検索拡張生成(RAG)は、AIが「今の情報」を取り入れながら答える方法で、ハルシネーションを減らしたり、より正確な答えを出すためのとても有効なアプローチとして注目されています。

ファインチューニングとポストトレーニング

AIを「もっと専門的で正確」にするための追加トレーニングです。

AI(LLM)は、大量の一般的な情報を学習して作られていますが、特定の専門分野や目的に合わせてもっと賢くしたいときには「追加のトレーニング(再調整)」を行います。これが ファインチューニング や ポストトレーニング と呼ばれる工程になります。

具体的に何をするのかは、以下の通りです。

・特定の分野に特化したデータで学ばせる(ファインチューニング)
→例:「法律」「医療」「金融」など、特定分野の文章で学習させると、その分野に強くなる。

・人が正解や理想の答えを教えて強化する(人間のフィードバック=RLHF)
→AIの答えに対して「これは良い」「これは不正確」と教えることで、正しい方向に育てる。

・さまざまなパターンを学ばせて、偏りや勘違いを防ぐ(データの多様化)
→同じ内容でも言い方を変えたり、例を変えたりして教える。

・覚えすぎて間違った思い込みをしないようにする(過学習の防止)
→「こればかりが正しい」と思い込まないよう、バランスよく調整する。

こうした追加学習によってハルシネーションを減らし、精度の高いAIに育てることができます。

普通に1ユーザーがファインチューニングとポストトレーニングするのは可能なのか?
一応技術的には可能ではありますが、非常にハードルが高いです。
オープンソースのLLMを使えば、手元のPCやクラウドで再学習することは可能です。
Hugging Faceのようなプラットフォームを使えば、必要なガイドも揃っていたりするとは思いますが、一口に手元のPCとはいっても、例えば高性能なGPUが必要だったり、PyTorchやTransformersなどのライブラリ、トレーニング手順を理解するための専門的な知識が必要といえるでしょう。
この辺は例えば、潜在的にハルシネーションを起こしたコンテンツを自動的に検出するアルゴリズムを開発するのと同等レベルにハードルが高いといえます。

人間の監督と検証

文字通り、AIの出力を人間がチェックしてミスを防ぐための仕組みです。
これはChatGPTなどLLMを利用している方でも普段から行っている方はいるのではないでしょうか。

ChatGPTのようなLLMを使う理由の多くは「調べる手間を省きたい」からなのに、その答えをさらに自分で検証しなければいけないとしたら、本末転倒のように感じる方もいることでしょう。

LLMの強みは「情報を要約したり整理したりする力」や「表現の提案」「文章生成のスピード」にあります。
一方で、「知識の正確さ」に関してはまだユーザーの見極めが不可欠な段階です。

ですが現状、ハルシネーション対策として一番簡単にできることでもあります。

・ChatGPTの答えを見て「ほんとかな?」と思ってググる
・回答に違和感があって「これは信用できない」と判断する
・「この内容、ちょっと間違ってるよ」とフィードバックボタンを押す
・回答をそのまま使わずに、自分で手直ししてから提出する

これらはすべて、「人間の監督と検証」の一部です。

つまり、AIを盲信せず、最終判断は人間が行うという姿勢こそが、ハルシネーションへの最大の防御といえます。

仕事でアウトプットする際に気を付けるべきハルシネーション

仕事でLLMからアウトプットされた情報を利用する際には、前項の対策と通ずる部分がありますが、基本的に以下の点に注意する必要があります。

▼批判的な評価と事実確認
LLMによって生成された情報は常に信頼できる情報源と照らし合わせて検証してください 。数値、日付、固有名詞、技術的な詳細を含む情報には特に注意が必要です。LLMの出力は、最終的な答えとしてではなく、作業の出発点として捉えるべきです 。プロフェッショナルな環境では、正確さに対する責任はユーザーにあります。したがって、LLMからのすべての出力を批判的に評価し、作業成果物に組み込む前に、あらゆる情報を厳密に事実確認することが不可欠です。
出力を鵜呑みにせず、必ず自分で事実確認しましょう

▼限界の理解
LLMは最新の情報や特定の分野の専門知識を持っていない可能性があることを認識してください 。LLMは自信を持って誤った情報を提示する可能性があることを理解してください 。LLMは、従来の意味での検索エンジンや知識データベースとして設計されていないことを理解してください 。プロフェッショナルは、LLMの潜在的な知識の限界と、情報を捏造する傾向を明確に理解する必要があります。この認識は、適切にLLMを使用し、過度の依存を避けるために重要です。
LLMには苦手なことがあるので、過信は禁物です

▼プロフェッショナルな文脈での責任ある利用
LLMは、ブレインストーミング、アウトライン作成、下書きなどのタスクを支援するツールとして使用し、唯一の真実の情報源として使用しないでください 。法律、医療、金融のアドバイスなど、高い精度が要求されるタスクにLLMを使用する際には注意が必要です 。AIによって生成されたコンテンツは明確に帰属させ、潜在的な不正確さに関する免責事項を含めることを検討してください 。モデルを効果的に導くために、明確で具体的なプロンプトを提供してください 。プロフェッショナルな環境でLLMを活用するための鍵は、アシスタントとしての強みと、唯一の権威としての限界を認識し、既存のワークフローに慎重に統合することです。
LLMは補助ツールとして使い、本番の判断は人間が行いましょう

▼AIの限界と進歩に関する最新情報の把握
ハルシネーション問題に対処するための継続的な取り組みを含め、AI分野の最新の研究と開発について常に情報を把握してください 。AIモデルは常に進化しており、その能力と限界は時間とともに変化する可能性があることを理解してください 。AIの分野は急速に進化しており、LLMの正確性と信頼性を向上させることを目的とした研究が継続的に行われています。プロフェッショナルは、これらの技術の最新の進歩と限界について常に情報を把握し、それに応じて使用戦略を適応させる必要があります。
AIの能力も限界も日々変わるので、常にアップデートを追いましょう

まとめ

今回は、ChatGPTやGeminiなどのLLMにおけるAIのハルシネーションについて、AI初心者向けに出来る限りわかりやすく解説したつもりです。ChatGPTやGeminiなどのLLMにおけるAIのハルシネーションは、その強力な能力と進歩にもかかわらず、依然として重要な課題です。ハルシネーションは、事実の誤りから完全に捏造された情報、無意味な出力、誤解を招く偏ったコンテンツまで、さまざまな形で現れます。これらの問題の原因は、学習データの不完全さや偏り、モデルのアーキテクチャの限界、プロンプトのあいまいさなど、多岐にわたります。

ハルシネーションに対処するためには、プロンプトエンジニアリング、RAG、ファインチューニング、人間の監督、自動検出技術など、多角的なアプローチが必要です。仕事でLLMを利用する際には、生成された情報を常に批判的に評価し、信頼できる情報源と照らし合わせて事実確認を行うことが不可欠です。LLMの限界を理解し、責任ある方法で使用することで、その潜在的な利点を活用しながら、誤った情報のリスクを軽減することができます。AI技術は常に進化しており、ハルシネーションの問題に対する解決策も進歩していくことが期待されます。

他にも、ChatGPTで出来る画像生成関連のことも、当サイトにて紹介しています。

▼国内外問わず人気のビックリマン風シール画像を無料で誰でも簡単に作るやり方はコチラの記事を参考にしてみてください。

▼ジブリ風の画像を無料で生成するやり方はコチラの記事を参考にしてみてください。

 

またSNSでトレンドにもなったペット写真を擬人化する画像も無料で生成することができます。
やり方はコチラの記事を参考にしてみてください。

関連記事