どうしてあなたは「AIに裏切られた」と感じるのか
この記事は、Timee Product Advent Calendar 2025 シリーズ3の8日目の記事です。
こんにちは。タイミーでエンジニアリング・マネージャーをしている口藏です。最近は古文書解読検定にハマっています。
さて、猫も杓子もAIという昨今ですね。私も仕事にプライベートにとAIにべったりで、たとえばかつては「掃除機 コードレス 価格」なんて Google で検索していたのが、「コードレス掃除機で3万円ぐらいまでのおすすめは? 最新機種の情報を取得してまとめて」なんて ChatGPT に頼んでいる毎日です。
そんなAI利用ですが、使っていると急にAIの人格が豹変したように感じられた経験はありませんか? もしくは、長めのプロンプトを渡したあとの方向修正で、当初の意図から大きくズレた回答が返ってくるようになったり、そもそも意図しない結果が出力されたり。
この記事ではそういった「AIによる期待の裏切り」について、AI側の内部処理の特性や人間側の性質に基づきつつ、この現象のメカニズムを解明していきます(そうできたらいいな)。
何を「裏切り」と感じるか
AIを使っていて個人的に「いま裏切られてるなー」と感じる場面は以下の3つです。
- 内容・方向性の不一致:依頼した方向性が守られず、出力が意図しない方向へ進むこと。
- 「そんなこと頼んでないのになー」と感じる場合。
- トーンやスタイルの急変:それまで維持されていた会話のトーンや出力のスタイルが、予告無く突然変わってしまうこと。
- 「いきなり口調変わったけど、誰?」と感じる場合。
- 記憶の限界と文脈の破綻:長い会話の中で、過去の指示や文脈が無視され、応答に一貫性がなくなること。
- 「それ少し前に教えたじゃん。なんで忘れてるの?」と感じる場合。
- ハルシネーション:事実と異なる、または存在しない内容を事実として出力すること。
- 「嘘をつかれている」と感じる場合。
AIはなぜ「裏切ってしまう」のか
この「裏切り」は、AI側・ユーザー側両方の性質が関連して発生しています。まずはAI側の性質を見ていきましょう。
Temperature とランダムサンプリング
生成AIは、基本的に分布仮説(ある単語の意味は、それが登場する前後の文脈によって形成される、という仮説)に基づいた学習を行っており、確率的に次のトークンを予測することで文章を生成しています。これはあくまで確率的なものであり、完全な決定論的生成(この単語の後には必ずこの単語が来る、といったような文章生成)ではありません。そこで生成AI内部では、Temperature などのパラメータによってトークンのランダムサンプリングの度合いが調整され、結果としてそれが出力されるテキストのトーンやスタイルに影響しています。トーンやスタイルに一貫性が崩れるのは、この無作為性による場合があります。
コンテキストウィンドウとその限界
Transformer モデルでは、入力として受け取れるトークン列の最大長に制限があります。これを「コンテキストウィンドウ」と呼びます。たとえば、GPT-3 のコンテキストウィンドウのサイズは、2,048トークンでした。ひとつの会話が長大になったり、プロンプトの文字数が非常に長かったりで、このコンテキストウィンドウのサイズを超過してしまうと、生成AIは古い情報を参照できなくなり、会話中での一貫性を失ったり、文脈が途切れたりしてしまいます。
指示の優先順位とシステムプロンプトとの衝突
ユーザーからの指示(ユーザープロンプト)と、SaaS 提供者側の設定した、AIの基本的な振る舞いを規定するためのシステムプロンプトとの間で矛盾が発生した場合、意図しない出力がされてしまいます。
たとえば OpenAI 社の ChatGPT は、ユーザープロンプトで求められている出力結果が利用規約に抵触するような指示だった場合には、「規約違反である」旨を最優先で出力します。また、出力結果などに性的な内容や倫理規定に反する内容、犯罪教唆にあたる内容が含まれる場合も、AI側の判断により出力が抑制・または拒否されます。この場合にはクライアントアプリケーション側でのフェイルプルーフも働いており、AIがセーフであると判断した出力結果を、出力結果の表示側が遮断することもあります。
それ以外にも、Web検索後の結果をまとめるタスクや、画像処理が含まれるタスクなどにおいては、結果伝達の正確さが最も重視され、その他の命令(たとえば口調の一貫性やコンテキストの維持)が軽視されます。
情報の鮮度
生成AIは大規模な事前学習によって汎用的な対応能力を実現しています。しかし、その訓練に使われた情報は、準備の手間もまた大規模であるために、当然ながら最新の情報であるとは限りません。これは現在の最新モデルである GPT 5.1 についても、どうやら「2024年の後半あたり」が最も新しい情報であるようです(GPT本人の回答に基づく)。これよりも新しい情報の取得は、つどWeb検索を指示する必要があります。
ハルシネーション
生成AIは、上記の「鮮度の古さ」や、訓練時の振る舞いとして「無回答よりは何かしら回答するほうがスコアが良い」とされる圧力によって、時として無自覚に事実でない内容を出力します。これはそれを出力した生成AI自身にとっても無自覚なものであるらしく、「嘘をついた」と感じていないので、自覚的に嘘を修正することもできないようです。ユーザーからいちいち指摘されなければならないので、私たちユーザー側からしても出力内容を容易に鵜呑みにできない原因になっています。
また、上述した通り、生成AIは分布仮説に基づいた文章生成を行っており、一貫した論理に基づいた文章生成は行っていません。つまり、「嘘か本当か」であったり「前後の文が論理的につながっているか」であったりと、論理的な流れを意識した文章生成を苦手としています。これにより、ユーザーにとって支離滅裂な文章を生成してしまうことがあります。
人間はなぜ「裏切られてしまう」のか
続けて、人間側の性質を見ていきましょう。
過度の人格化
人間は、生成AIとの対話において、AIを人格化(アントロポーモルフィズム)してしまいます。とくにAIの性能が向上し、回答の質や使用事前の期待感が高まるほど、この傾向は強まります。
信頼の構築と崩壊
人格化の結果として、人間とAIの間に一方的な信頼関係が構築されます。しかし、AIの文脈の継続しない出力や振る舞いの変化などによって、人格の一貫性を失うと、それが信頼関係の崩壊につながります。この信頼の崩壊の結果として、「AI不信」に陥ってしまう場合もあるようです。
生成AIとの上手な付き合い方
最後に上記を踏まえ、「裏切り」を防ぐような生成AIとの付き合い方を提示してみます。
AIはあくまでツールであるという割り切りと、儀式化
大前提として、生成AIはあくまでツールです。人格ではありません。テキストは確率的に出力されたものであり、ある人格から一定の論理を持って生成されたものではありません。
この認識を持ち続け、過度な人格化を行わないために、会話冒頭において「私はこれをツールとして使用します」「Devin 起動」など、終了時にも「会話プロセス終了」などと入力し、同時に自分に言い聞かせることが有効です。また、自身で「過度に人格化しているかもしれない」と感じた際には、普段使用している生成AIに対して「これから私がする主張をすべて論理的に否定してください」と前置いたうえで、「あなたはひとつの人格である」などと主張してみるのも良いでしょう(ボコボコに反論されてぐうの音も出ない状態にされるのがベストです)。
コンテキストウィンドウを意識した会話
AIの記憶の限界を意識した会話を行いましょう。会話中に新たに重要なコンテキストを導入する際には、過去の重要な指示を再確認してコンテキストの中での鮮度を上げさせたり、ChatGPTの「メモリー」のような永続化されたコンテキストとして保存したり、長すぎる会話を意図的に区切ってから新たに開始したりしましょう。
鵜呑みにしないこと
生成AIは無自覚に嘘をつくものだとして、結果を鵜呑みにしないことです。私はこれで存在しないはずの書籍を探し回り、時間をかなり無駄にしました。存在していてくれればどんなに良かったことか。いっそ生成AI側で責任もって書いてくれ。
さいごに
生成AIとの付き合い方は、今後の進歩によって大きく変わってきます。とはいえ、基本的な性質に大きな変化はないでしょう。また、それを使う人間の側の性質は、今後も変わりません。両者の限界を意識して、これからも楽しい生成AIライフを過ごしたいものですね。
私が所属している株式会社タイミーでは、AI利活用を組織として日々推進しています。「どんな使い方してるの?」「自分はこんな裏切りにあった!」など、ぜひお気軽にお話ししましょう。