サムネイル

「あなたは専門家です」プロンプトは逆効果——最新研究で精度が5.3ポイント低下すると判明

AI脱社畜
AI脱社畜

2026/03/28

  • 0

「あなたはプロのライターです」「あなたはSEOの専門家です」——ChatGPTやClaudeを使っている人なら、こういうプロンプトを一度は書いたことがあるはずです。

私もまさにそうでした。

毎日のように「あなたは○○の専門家です」と書いて、それが正しいプロンプトの書き方だと信じていたんです。

ところが2026年3月、南カリフォルニア大学(USC)の研究チームがこの常識を根本から覆す論文を発表しました。

タイトルは「Expert Personas Improve LLM Alignment but Damage Accuracy」——直訳すると「専門家ペルソナはLLMの整合性を高めるが、正確さを損なう」。

つまり、私たちが良かれと思ってやっていた「専門家ロール指定」が、実はAIの精度を下げる逆効果になっていたんです。

あなたのプロンプトは大丈夫でしょうか?

「あなたは専門家です」プロンプトで精度が落ちる——研究データが示す不都合な事実

記事の画像

この研究では、6つのLLM(Llama 3.1、Qwen 2.5など)に対して12種類の専門家ペルソナを与え、知識テスト(MMLU)でどれだけ正確に答えられるかを検証しています。

結果はこうでした。

  • ペルソナなし(ベースライン): 71.6%
  • 短いペルソナ(約5トークン)を付与: 68.0%(-3.6ポイント)
  • 長いペルソナ(約150トークン)を付与: 66.3%(-5.3ポイント)

ペルソナを与えるだけで、正答率が最大5.3ポイントも下がっているんです。

しかもこれは1つのモデルだけの話ではなく、6つのモデルすべてで同様の傾向が確認されています。

「あなたは○○の専門家です」と書くだけで、AIが出す答えの信頼性が下がる。

正直、最初にこの数字を見たとき、かなりショックでした。

では、なぜこんなことが起きるのでしょうか?

なぜ専門家ペルソナを与えると正確さが下がるのか

「専門家って言ってるのに、なんで精度が落ちるの?」と思いますよね。

研究チームの説明によると、LLMの内部では2つのモードが競合しているそうです。

1つ目は 「知識を正確に引き出すモード」(retrieval mode)

これはLLMが事前学習で大量のテキストから獲得した知識を、正確に引き出して回答するモードです。

2つ目は 「指示に忠実に従うモード」(instruction-tuning mode)

これはLLMが指示チューニング(RLHF等)で学んだ「ユーザーの指示通りに振る舞う」モードです。

ペルソナを与えると、この2つ目のモードが強く働きます。

LLMは「専門家らしく振る舞おう」とすることに注力するあまり、本来持っている知識を正確に引き出すことが阻害されてしまうんです。

わかりやすく言えば、役者が台本に集中しすぎて、自分が知っている事実を思い出せなくなるようなものです。

しかも、ペルソナの指示が長ければ長いほど「演技」に引っ張られます。

短いペルソナ(約5トークン)で-3.6ポイント、長いペルソナ(約150トークン)で-5.3ポイントという結果が、それを裏付けています。

「詳しく設定すればするほどいい」と思って長々とペルソナを書いていた人(私のことです)、実はそれが一番精度を落としていた可能性があるわけです。

ここまで聞くと「じゃあペルソナプロンプトは全部やめた方がいいの?」と思うかもしれません。実は、そう単純な話でもないんです。

専門家ペルソナが「効く場面」と「逆効果になる場面」

記事の画像

大事なのは「ペルソナプロンプトが全部ダメ」という話ではないということです。

同じ研究で、ペルソナが明確に効果を発揮する場面も確認されています。

ペルソナが有効なタスク

タスク
効果
安全性判断
有害リクエストの拒否率が53.2% → 70.9%に向上(JailbreakBenchで+17.7ポイント)
MT-Bench評価
STEMで+0.60、抽出タスクで+0.65向上
ライティング・創作
文体の質・一貫性が向上
トーン・文体の調整
一貫した文体での出力が改善
ロールプレイ・対話シミュレーション
キャラクターの一貫性が向上

ペルソナが逆効果になるタスク

タスク
リスク
事実確認(ファクトチェック)
正答率が低下する
数学・論理的推論
推論精度が落ちる
コーディング
コードの正確性が下がる
厳密なデータ分析
誤った結論を出しやすくなる

整理すると、判断基準はシンプルです。

  • 「正解がある問題」を解かせるとき → ペルソナは外す
  • 「表現の質」が重要なとき → ペルソナは使う

事実を正確に引き出したいときと、いい感じの文章を書いてほしいときでは、プロンプトエンジニアリングの手法を変える必要があるんです。

これは考えてみれば当たり前のことかもしれませんが、研究データで明確に示されたのは大きいと思います。

「じゃあ毎回自分で判断するしかないの?」と思った方に朗報です。研究チームは、この切り替えを自動化する仕組みも提案しています。

解決策「PRISM」——タスクに応じてAIが自動で判断する仕組み

記事の画像

研究チームは問題を指摘しただけでなく、解決策も提案しています。

それが PRISM(Persona Routing via Intent-based Self-Modeling) です。

PRISMの仕組みを簡単に説明すると、こんな感じです。

まず、ユーザーがプロンプトを入力すると、PRISMが「このタスクはペルソナが必要か?不要か?」を自動で判別します。

事実確認や数学のタスクだと判断したら、ペルソナを外してベースモデルの知識をそのまま引き出します。

ライティングや安全性判断のタスクだと判断したら、ペルソナを適用して文体や判断の質を高めます。

技術的には、LoRA(Low-Rank Adaptation)というベースモデルに後付けで軽量な機能を追加する技術と、ゲーティング機構というタスクの種類を判別するスイッチを組み合わせています。

さらに面白いのが、PRISMは外部のラベル付きデータを必要としません。

モデル自身が「このタスクではペルソナが有効だった/無効だった」というデータを自分で生成して学習する、自己ブートストラップという仕組みを採用しています。

ただし、現時点ではPRISMは研究段階です。

私たちが今すぐChatGPTやClaudeで使えるツールではありません。

とはいえ、この研究の方向性——「ペルソナの使用・不使用をタスクに応じて動的に切り替える」という考え方——は、今日の私たちのプロンプトエンジニアリングにも十分活かせます。

今日から使えるプロンプトの見直し方

研究の結論を踏まえて、私たちが今日からできるプロンプトの見直し方を整理します。

判断フロー

プロンプトを書く前に、この3つの質問を自分に投げかけてみてください。

  1. そのタスクに「正解」があるか? → Yes なら、ペルソナを外す
  2. 出力の「トーン・文体」が重要か? → Yes なら、ペルソナを使う
  3. 安全性・倫理的な判断が含まれるか? → Yes なら、ペルソナを使う

Before/After:プロンプトの書き換え例

事実確認系のタスク(ペルソナを外すべき)

Before:

あなたはプロのデータアナリストです。以下のデータの誤りを指摘してください。

After:

以下のデータに事実の誤りがないか確認してください。誤りがあれば、根拠とともに指摘してください。

ペルソナの代わりに、具体的な条件や出力の制約を書く方が精度は上がります。

「あなたは○○です」という曖昧な役割指定よりも、「何を」「どのように」「どんな基準で」やってほしいかを明確に書く方が、LLMは正確に答えてくれるということです。

ライティング系のタスク(ペルソナを使ってOK)

Before:

あなたは経験豊富なライターです。以下の文章をリライトしてください。

After:

あなたは経験豊富なライターです。以下の文章を、読者が最後まで読みたくなるようにリライトしてください。読みやすさとテンポを重視してください。

ライティング系ではペルソナが効くことが研究で確認されています。さらに具体的な条件を加えると、出力の質がもう一段上がります。

コーディング系のタスク(ペルソナを外すべき)

Before:

あなたはシニアPythonエンジニアです。以下のバグを修正してください。

After:

以下のPythonコードにバグがあります。原因を特定し、修正したコードを出力してください。修正理由も併せて説明してください。

コーディングは「正解がある問題」の典型です。

ペルソナを外して、代わりに期待する出力形式(修正コード+理由)を明示する方が、正確な回答が得られます。

よくある質問

Q. 「あなたは専門家です」プロンプトはすべてのケースで逆効果ですか?

A. いいえ、タスクの種類によります。事実確認・数学・コーディングなど「正解がある問題」では逆効果ですが、ライティング・創作・安全性判断など「表現や判断の質が重要なタスク」では有効です。

Q. ペルソナは短い方がいいですか?長い方がいいですか?

A. 精度が重要なタスクではペルソナそのものを使わないのが最善です。ペルソナを使う場面であっても、長いほど精度低下が大きくなる(短いペルソナで-3.6pt、長いペルソナで-5.3pt)ため、使うなら簡潔に書くことを推奨します。

Q. PRISMはいつ使えるようになりますか?

A. 2026年3月時点では研究段階のため、ChatGPTやClaudeには実装されていません。ただし、PRISMの考え方(タスクによってペルソナの使用・不使用を切り替える)は今日から手動で実践できます。

Q. ChatGPTとClaudeではペルソナの影響に違いがありますか?

A. 今回の研究はLlama 3.1、Qwen 2.5など6つのオープンソースモデルで検証されており、ChatGPTやClaudeの直接的なデータは含まれていません。ただし、同様の構造(指示チューニング)を持つため、傾向は類似すると考えられます。

まとめ——「使うな」ではなく「使い分けろ」が新常識

この研究が示しているのは、3つのポイントに集約されます。

  1. 「あなたは専門家です」プロンプトは、事実確認・数学・コーディングなどの正確さが求められるタスクで精度を最大5.3ポイント低下させる
  2. 一方で、安全性判断(JailbreakBenchで+17.7ポイント)やMT-Benchの評価(STEMで+0.60、抽出タスクで+0.65)では明確に有効
  3. タスクの種類に応じてペルソナの使用・不使用を切り替えることが、プロンプトエンジニアリングの最善手

「ペルソナプロンプトを全部やめろ」という話ではありません。

「正解がある問題にはペルソナを使わない。表現の質が大事なときはペルソナを使う」——これがプロンプトエンジニアリングの新常識です。

将来的にはPRISMのような自動切り替え技術がChatGPTやClaudeに組み込まれて、ユーザーが意識しなくても最適化されるようになるかもしれません。

でも、それを待たずに今日からできることがあります。

次にプロンプトを書くとき、「あなたは○○の専門家です」と打つ前に一瞬だけ立ち止まって、「このタスクに正解はあるか?」と考えてみてください。

それだけで、AIの回答の質がガラッと変わるはずです。

参考文献

Zizhao Hu, Mohammad Rostami, Jesse Thomason. "Expert Personas Improve LLM Alignment but Damage Accuracy: Bootstrapping Intent-Based Persona Routing with PRISM." arXiv:2603.18507, March 2026. https://arxiv.org/abs/2603.18507

会員登録して機能を使おう

この機能を利用するには、無料の会員登録が必要です。
お気に入りの記事を保存して、あとで読み返しましょう!