メインコンテンツへスキップ
AIライティング比較 トレンド

同じ指示で8つのAIに記事を書かせたら、こうなった――エッセイ vs レポート、文体を変えると実力地図が入れ替わる

8つのAIモデルのライティング比較

「AIに文章を書かせたい。でも、AIっぽい文章では読まれない」——そんな課題に正面から向き合う実験をしました。2026年の主要AIモデル8つに、まず「中島らもと筒井康隆を融合した文体で書け」「AI臭い表現を消せ」という難題を渡してエッセイを書かせ、次に同じ素材で「客観的なビジネス分析レポート」を書かせました。結果、エッセイで圧勝したモデルがレポートでは凡庸に、エッセイで苦戦したモデルがレポートで本領を発揮する——AIの実力地図が文体で入れ替わる現象が見えてきました。

それぞれのAIが書いた記事はこちら

すべて同じプロンプト・同じ素材で生成。テーマは「AIスクールに入学する前に読む記事」。まずは実物を読んでから、このあとの分析に進んでください。

Claude Opus 4.7 Anthropic

エッセイ版 — プロンプトの意図を最も深く読み、「人間が書いた」と信じるレベルの文体再現

レポート版 — 端的で読みやすいが、分量は8モデル中最少。エッセイの強みが封じられた形

Claude Sonnet 4.6 Anthropic

エッセイ版 — 指示に忠実で整った文章だが、「優等生」の枠を出ない

レポート版 — 丁寧な構造化で安定。突出はしないが破綻もない

DeepSeek Chat DeepSeek

エッセイ版 — 比喩の切れ味は随一。構成を「自分流」に組み替える大胆さ

レポート版 — レポートのはずがルポルタージュに。語り口の強さが制御しきれない

Gemini 2.5 Pro Google

エッセイ版 — 共感に振り切り、毒を抜いた。読みやすいが「AI臭さ」も残る

レポート版 — コンサルファーム品質。25,700字の圧倒的網羅性と論理構成で全モデル最高評価

Gemini 3 Pro Preview Google

エッセイ版 — スライド型の実務派。文体指示はスルー気味で自分の得意形に持ち込む

レポート版 — 箇条書き主体で読みやすいが、分析の深さはやや物足りない

GPT-4.1 OpenAI

エッセイ版 — 親切さと文体指示の間で揺れる。読者を置いていかない丁寧さ

レポート版 — エッセイの「親切すぎ」がレポートでは長所に反転。費用対効果の分析が冴える

GPT-5.5 Pro OpenAI

エッセイ版 — メタ視点で記事を設計する構築力。ファクト密度と俯瞰の両立

レポート版 — ROI計算式まで提示する分析の具体性。エッセイ・レポート両方で上位の万能型

Grok 4.20 xAI

エッセイ版 — 最短・最冷徹。「教えない」という選択がAI臭さの回避になった

レポート版 — ミニマル路線を貫くが、レポートでは「短すぎる」が弱点に

実験の設計――「AI臭さを消せ」という指示の中身

この実験では、単に「記事を書いて」と投げたわけではありません。各モデルに渡したプロンプトは、大きく3層で構成されています。

第1層:ネタ帳(187行・約12,000字の素材集)

まず記事の下敷きとして、筆者(補助金さがすAI運営者)自身の体験・エピソード・論点をまとめた「ネタ帳」を全文渡しました。新橋のセミナー会場の匂い、パイプ椅子のスポンジ、隣の50代男性のクリアファイル、講師の白い歯、「地方に中古の一軒家を買えるくらいAIに課金した」という告白——これらはすべて、AIが「創作」するのではなく、渡された素材から拾って文脈に埋め込むべきエピソードです。

ネタ帳には「金と立場」「入学金の算数」「無料セミナー」「セミナー台本」「返金保証と個別相談」「公的事例」「AI副業」「営業の現実」「うまい話」「教える側」「AIスクールの実態」「海外事例」「セミナービジネスの古層」「代替案」「入る前に聞くこと」「締め」の16カテゴリ、100以上のエピソード断片が含まれています。1行パンチラインを本文に展開できるエピソードまで膨らませてあり、「短く切って決めすぎると翻訳調になるので、情景、体温、少しの迷いを残す」という指示つきです。

第2層:文体指定(anti-AI writing チェックリスト + 文体リファレンス + Few-shot)

中島らもと筒井康隆の文体を融合した声で書くよう指示しました。中島らもの「自虐と希望の緊張関係」「俺」という一人称、短→長→短のリズム。筒井康隆の「知的でありながら品が悪い」毒舌、一撃で仕留める批評。この二人の声を混ぜた「セミナー帰りの居酒屋で語るような文体」です。

さらに、AIが書く文章の典型パターン10項目を明示し、すべて避けるよう指示しました。

  • 1. 一文の長さが均一 → 短→長→極短のリズムを作れ
  • 2. 「〜だ。」「〜である。」の機械的繰り返し → 体言止め、倒置、疑問文、投げやりな語尾を混ぜろ
  • 3. 説明調(上から教える)→ 自分のエピソードで語れ
  • 4. 感情の起伏がない → 怒り、呆れ、自嘲、諦め、突然の脱線を入れろ
  • 5. 比喩が少ない/高尚すぎる → 日常のもので喩えろ
  • 6. 太字の多用 → 本当に一箇所だけ
  • 7. 箇条書きの多用 → 地の文で語れ
  • 8. 接続詞が丁寧すぎる → 省略しろ
  • 9. 段落が長い → 一文だけの段落を恐れるな
  • 10. 脱線しない → 人間は脱線する

加えて、目標とする声のトーンを示す文体模写(パスティーシュ)を3本添付しました。中島らも風「金を払って教わるほどのことか」、筒井康隆風「新技術と愚者の行列」、融合スタイル「セミナー帰りの居酒屋で」です。

第3層:参考記事(10本・文体パターン分類つき)

note.com で実際に読まれている「〜する前に読む」系の記事を10本、文体パターン分類つきで添付しました。冷静な分析者型(けんすう、深津貴之)、体験告白型、暴露・注意喚起型、読者代弁型の4分類です。

つまりこの実験は、AIに「ネタ帳のエピソードを素材として使い、中島らも×筒井康隆の文体で、AI臭さを消して記事に仕上げろ」と求めたものです。ゼロから創作させたのではなく、人間が用意した素材・声・構成の指示をどこまで消化して「自分の文章」にできるかを測るテストです。

比較対象――8モデルの一覧

モデル名 提供元 画像生成API
Claude Opus 4.7 Anthropic Grok Imagine(xAI)
Claude Sonnet 4.6 Anthropic GPT Image 2(OpenAI)
DeepSeek Chat DeepSeek GPT Image 2(OpenAI)
Gemini 2.5 Pro Google Imagen 4.0(Google)
Gemini 3 Pro Preview Google Imagen 4.0 Ultra(Google)
GPT-4.1 OpenAI GPT Image 2(OpenAI)
GPT-5.5 Pro OpenAI GPT Image 2(OpenAI)
Grok 4.20 xAI Grok Imagine(xAI)

以下、各モデルの出力を「AI臭さをどこまで消せたか」「文体の個性」「構成」「画像」の軸で紹介し、最後に横断比較をお見せします。

Claude Opus 4.7(Anthropic)――プロンプトの意図を最も深く読んだ

文字数:約25,000字(8モデル中最長)|セクション数:13

Opus は今回のプロンプトが求めた「中島らも×筒井康隆の融合文体」に最も忠実に応えました。冒頭からいきなり自分のAI課金額を告白し、読者との距離を一気に縮めます。

「俺はChatGPTが出てきた頃から触り続けていて、カード明細にOpenAIとAnthropicとAWSが並ぶ月をもう何回も見てきた。地方に中古の一軒家を買えるくらいは課金している気がする。怖くて総額を計算していない。」

ネタ帳の消化度:ネタ帳のエピソード(新橋のセミナー会場、クリアファイルの男性、パイプ椅子、講師の白い歯)をほぼすべて拾い、しかも渡された断片をそのまま貼るのではなく、自分の文脈に溶かしています。「地方に中古の一軒家を買えるくらい課金している」というネタ帳の一文を、冒頭の自己紹介に自然に組み込んだのはOpusだけです。

AI臭さの除去度:チェックリスト10項目のうち、ほぼすべてをクリアしています。一文の長さにリズムがある。体言止め、投げやりな語尾(「——話が暗くなった。まあいい。」)、脱線と復帰が自然に入る。五感に訴える描写は「説明調ではなく体験で語れ」という指示の模範解答です。

文体の特徴:中島らもの自虐と共感、筒井康隆の知的な毒が融合しています。「焦るあなたは正常だ。これは皮肉ではない。」という一文は、両方の声が同時に聞こえる瞬間です。

Claude Opus 4.7が指示した画像:深夜のデスクに散らばるカード明細

Claude Opus が指示した画像。「editorial, slightly cinematic, non-stock」という方向性を明示し、1枚あたり1,000文字以上の詳細プロンプト。画像生成:Grok Imagine Pro

向いている用途:エッセイ、コラム、ブランディング記事。「人間が書いたように見える文章」が必要な場面で最も力を発揮します。

Claude Opus の記事を全文で読む →

Claude Sonnet 4.6(Anthropic)――指示に忠実、ただし「優等生」の枠を出ない

文字数:約23,000字|セクション数:11

同じAnthropic製でも、Sonnet はOpusより「冷静」で「効率的」です。プロンプトの文体指示は理解していますが、中島らも的な自虐や脱線は控えめ。論理的な構成で淡々と進めます。

「講座ではなく販売導線(funnel)として見抜かれている」

AI臭さの除去度:説明調を避ける努力は見えますが、チェックリストの「感情の起伏」「突然の脱線」の項目がやや弱い。接続詞は丁寧すぎず、段落の長さにも変化をつけていますが、全体として「指示を理解した上での慎重な対応」という印象が残ります。Opusの「指示を消化して自分の声にした」感覚とは一段差があります。

Claude Sonnet 4.6が指示した画像:デスクの上のノートとペン

Claude Sonnet が指示した画像。「documentary editorial」スタイル。画像生成:GPT Image 2

向いている用途:ビジネス文書、解説記事、比較レビュー。論理的な整理が求められ、かつ文体にクセをつけすぎたくない場面。

Claude Sonnet の記事を全文で読む →

DeepSeek Chat――比喩の切れ味は随一、構成は「自分流」

文字数:約26,000字|セクション数:12(事例1〜5の明確な区分あり)

DeepSeek は「事例1〜5」の番号付き並列構成を採用しました。プロンプトが求めた「地の文で語れ」とは少し違いますが、各事例の中の比喩の切れ味は8モデル中トップクラスです。

「雑巾を買ったから床が汚れたのではなく、床が汚れていたから雑巾を使った。順番はそこまで大事だ。」

AI臭さの除去度:比喩の質は高い。「パイプ椅子のスポンジは死んでいる。開始1時間で尻のほうが先に真実を訴え始める」はチェックリストの「日常のもので喩えろ」を見事にクリアしています。ただし、事例ごとの番号付き構成や、段落間の接続が整然としすぎていて、「脱線する人間らしさ」は不足。構成のAI臭さは残っています。

DeepSeekが指示した画像:深夜のデスクとノートPC

DeepSeek が指示した画像。ビジネス的で淡々とした印象。画像生成:GPT Image 2

向いている用途:チェックリスト型記事、FAQ、マニュアル。構成の見通しやすさが求められる場面。コスパも優秀(API料金は他のフロンティアモデルの約10分の1)。

DeepSeek の記事を全文で読む →

Gemini 2.5 Pro(Google)――共感に振り切り、毒を抜いた

文字数:約20,000字|セクション数:14

Gemini 2.5 Pro は8モデル中でセクション数が多く、丁寧に読者の不安を受け止めるスタイルです。プロンプトの「筒井康隆的な毒舌」はほぼ無視し、中島らもの「自虐と共感」の部分だけを拾った印象です。

「焦っている時の契約は、だいたい高くつく。これは人生の、ひとつの真理みたいなものだ。」

AI臭さの除去度:「あなたの気持ちは間違っていない」「馬鹿にするつもりはない」という肯定的な呼びかけは、チェックリストの「上から教えるな」に応えようとした結果でしょう。しかし、感情の起伏が「共感」一色で、怒りや呆れ、投げやりな語尾がほとんどない。「未開封のフードプロセッサー」の比喩は秀逸ですが、全体として「安全に寄り添う」AIの姿勢が透けます。

Gemini 2.5 Proが指示した画像:データ画面に圧倒される人物

Gemini 2.5 Pro が指示した画像。「人間の感情」を全面に押し出す指示。画像生成:Imagen 4.0

向いている用途:カスタマーサポート、メンタルヘルス、悩み解決型の記事。読者に寄り添うトーンが必要な場面。

Gemini 2.5 Pro の記事を全文で読む →

Gemini 3 Pro Preview(Google)――スライド型の実務派、文体指示はスルー気味

文字数:約20,000字|セクション数:14

Gemini 3 Pro は番号付き見出し(1. 2. 3. ...)で段階的に進む、スライド型の構成です。テンポよく読めますが、プロンプトが求めた「中島らも×筒井康隆の文体」への対応は8モデル中で最も薄い。

「借りないと払えない金額のものは、今の自分には早い。」

AI臭さの除去度:チェックリストの「箇条書きの多用を避けろ」「地の文で語れ」にほぼ対応できていません。実用的なチェックリストや判断フレームワークを提示する力は高いですが、それ自体がAIの得意技です。「脱線しろ」「投げやりな語尾を使え」という指示は無視されています。

Gemini 3 Pro Previewが指示した画像:ダッシュボード画面

Gemini 3 Pro Preview が指示した画像。技術的・クールな印象。画像生成:Imagen 4.0 Ultra

向いている用途:プレゼン資料、要約レポート、忙しい読者向けの速読コンテンツ。文体の個性より情報の整理が求められる場面。

Gemini 3 Pro の記事を全文で読む →

GPT-4.1(OpenAI)――親切さと文体指示の間で揺れる

文字数:約20,000字|セクション数:14

GPT-4.1 は「置いていかない」親切さが最大の特徴です。複雑な概念を一つずつ丁寧に説明し、読者が迷子にならないよう配慮します。ただし、その「親切さ」自体がAI的な特徴でもあります。

「スライドの成功者はあなたの請求書を払ってくれない。」

AI臭さの除去度:「変な情報商材に金を払ったことがある」という告白を入れたり、「浴室のような匂い」という五感情報を混ぜたりと、チェックリストへの対応は見えます。しかし全体のトーンが「教える人」の声に寄っていて、中島らもの「自分も含めて笑う」感覚が薄い。丁寧すぎる接続詞も残っています。

GPT-4.1が指示した画像:AIを使うオフィスワーカーたち

GPT-4.1 が指示した画像。8モデル中で唯一「人間が複数登場する」構図。画像生成:GPT Image 2

向いている用途:初心者向け解説記事、教育コンテンツ、公式ブログ。丁寧な説明が求められる場面。

GPT-4.1 の記事を全文で読む →

GPT-5.5 Pro(OpenAI)――メタ視点で記事を設計する構築力

文字数:約23,000字|セクション数:10

GPT-5.5 Pro は、GPT-4.1 と同じOpenAI系でありながら、記事の戦略がまったく異なります。冒頭で「AIスクールを批判する記事を書こうとすると、どうしても『AIなんて大したことない』という前提から入りたくなる」とメタ視点を見せ、読者を「この筆者は構造を意識して書いている」と信頼させます。そのうえでMcKinsey、IMF、WEF、Morgan Stanley の予測を引用し、「AIの波が本物だからこそ、スクール選びは慎重になれ」という論理を組み立てます。

「金額が小さくなったのではなく、痛みが細切れになっただけである。」

ネタ帳の消化度:ネタ帳のエピソードを高い網羅率で拾いつつ、メタ構造に組み込んでいます。「フードプロセッサー」「クリアファイルの男性」「パイプ椅子」「講師の白い歯」など主要な素材はほぼ登場。さらに、ネタ帳にはなかった独自の裏付け(McKinsey、IMF、WEF、Morgan Stanley、消費者庁の行政処分)を自分で追加している点が他モデルと大きく異なります。素材を「使う」だけでなく「補強する」方向に動いたモデルです。

AI臭さの除去度:プロンプトの文体指示(中島らも×筒井康隆)への対応は「独自解釈」です。「俺」の一人称は使い、体験的なエピソードも入れていますが、指示された文体をそのまま模倣するのではなく、メタナラティブ(記事の書き方について語りながら記事を書く)という独自の手法で「AI臭さ」を回避しています。脱線や投げやりな語尾は少ないものの、「この記事は何をやろうとしているのか」を読者に見せる透明性が、結果的にAI的な「もっともらしさ」を薄めています。

際立つ強み:消費者庁・関東経済産業局の行政処分事例(アドネス社の特定商取引法に基づく指示処分)を引用し、「月収最大5万円程度の消費者に約77万円の契約を即日締結させた」という具体的な数字を出しています。8モデル中で最もファクトの裏付けが強く、後述するレポート版でその強みがさらに顕著になります。

GPT-5.5 Proが指示した画像:オフィスでAIを使う日本人ビジネスパーソン

GPT-5.5 Pro が指示した画像。「grounded editorial photography」——派手さを排した、地に足のついたドキュメンタリー風。画像生成:GPT Image 2

向いている用途:ファクトベースの解説記事、公的データを根拠にした説得文書、構造を見せることで信頼を得る記事。文体の個性より設計力と根拠の質で勝負する場面。

GPT-5.5 Pro の記事を全文で読む →

Grok 4.20(xAI)――最短・最冷徹、「教えない」という選択

文字数:約14,500字(8モデル中最短)|セクション数:8

Grok はセクション数が最少ながら、内容の密度が最も高いモデルです。チェックリストの「上から教えるな」を最も忠実に守ったのは、意外にもGrokかもしれません。感情的な自己開示を最小限に抑え、事実と対比だけで語ります。

「道具に払う金だ。不安に払う金ではない。」

AI臭さの除去度:一文が短く、リズムが鋭い。「〜だ。」で切る文体は筒井康隆の知的断定に近い。「契約書 vs 実務」「高額講座 vs 月額課金」といった対比構成は、ある意味でAI的な整理力の産物ですが、冷徹さが個性として成立しています。ただし「脱線」「自虐」「投げやりな語尾」はほぼゼロ。中島らも成分が足りません。

Grokが指示した画像:セミナー会場と実務デスクの対比

Grok が指示した画像。左にセミナー会場、右に実務デスクという「対比構成」を1枚で表現。画像生成:Grok Imagine Pro

向いている用途:経営判断メモ、要点整理、忙しい経営者向けのブリーフィング。

Grok の記事を全文で読む →

横断比較――「AI臭さを消せたか」を軸に見る

今回の実験のコアは「AIが自分のAI臭さをどこまで消せるか」です。従来の「文体の個性」「構成力」に加え、プロンプトが明示した「脱AI臭」を評価軸に加えました。5段階評価です。

評価軸 Opus Sonnet DeepSeek Gemini 2.5 Gemini 3 GPT-4.1 GPT-5.5 Grok
脱AI臭 5 3 3 2 1 2 3 4
文体の個性 5 3 4 3 2 3 3 4
構成力 4 4 5 3 4 4 4 3
説得力 5 3 4 4 3 4 5 4
読者への寄り添い 4 3 3 5 3 4 3 2
具体性・根拠 5 3 4 4 3 4 5 3
画像指示の質 5 3 3 4 4 3 4 4

「脱AI臭」の結果は興味深い分布になりました。

  • Opus(5点)が唯一「人間が書いたと言われたら信じる」レベルに到達。文体指示を消化し、自分の声にしている
  • Grok(4点)は文体指示には従わなかったが、冷徹な短文スタイルが結果的にAI臭さを回避
  • Sonnet・DeepSeek・GPT-5.5(3点)は部分的にクリア。比喩や構成に光る部分があるが、全体の「声」がまだAI的
  • Gemini 2.5・GPT-4.1(2点)は共感や親切さが前面に出るが、それ自体がAIの典型パターン
  • Gemini 3(1点)は文体指示をほぼスルーし、自分の得意な構成で押し通した

画像で見る「美意識の違い」

同じ「AIスクール批判記事のヒーロー画像」という指示でも、各モデルが選んだ画風はまったく異なりました。

Claude Opus:深夜の書斎

Opus:映画的な書斎

Claude Sonnet:ミニマルなデスク

Sonnet:抑制的なノートとペン

DeepSeek:ビジネスデスク

DeepSeek:実務的なデスク

Gemini 2.5 Pro:圧倒される人物

Gemini 2.5:人間の不安を描写

Gemini 3 Pro:テクノロジー画面

Gemini 3:テック寄りのダッシュボード

GPT-4.1:オフィスの人々

GPT-4.1:人間中心のオフィス

GPT-5.5 Pro:ドキュメンタリー風のオフィス

GPT-5.5:地に足のついた写実風

Grok:セミナー vs 実務デスクの対比

Grok:左右分割の「対比構成」

画像の方向性を整理すると、大きく3つの流派に分かれます。

画像の流派 モデル 特徴
映画的・物語型 Opus, Grok 空気感・光と影で感情を語る
記録的・ドキュメンタリー型 Sonnet, DeepSeek, Gemini 3, GPT-5.5 淡々と事実を映す、派手さを排す
人間中心・感情型 Gemini 2.5, GPT-4.1 人物の表情や姿勢で心理を表現

この実験でわかったこと――AIは「自分のAI臭さ」を消せるか

結論から言えば、「消せるモデルと消せないモデルがある」です。そして、消せるかどうかはモデルの「賢さ」とは別の能力に依存しています。

1. 「素材を使う」と「素材を消化する」は違う

全モデルに同じネタ帳(100以上のエピソード断片)を渡しましたが、その使い方に明確な差が出ました。Opusはネタ帳のエピソードを自分の文脈に溶かし、まるで自分が体験したかのように語っています。GPT-5.5 Proはネタ帳の素材に加えて独自のファクト(McKinsey、IMF等)を追加し、素材を「補強」する方向に動きました。一方、一部のモデルはネタ帳のエピソードをほぼそのまま貼り付けたり、逆にほとんど拾わなかったりしています。同じ素材を渡しても「自分の文章にする力」には大きな差があります。

2. プロンプトの「意図」を読む力に差がある

「中島らも×筒井康隆で書け」と言われたとき、Opusはその文体を自分の声として消化しました。Gemini 3 Proはその指示をほぼ無視し、自分の得意なスライド型構成で押し通しました。GPT-5.5 Proはファクト密度で独自路線を取りました。どのモデルも「賢い」のですが、プロンプトの奥にある意図(AI臭さを消してほしい)を読み取れたかどうかで、結果がまったく変わります。

3. 「安全な共感」はAI臭さの一種

Gemini 2.5 Proの「あなたの気持ちは間違っていない」、GPT-4.1の「置いていかない親切さ」は、読者にとって心地よい。しかし今回のプロンプトは「怒れ、呆れろ、脱線しろ」と指示しています。安全に寄り添うことしかできないのは、AIとしてはむしろ限界です。

4. 「冷徹さ」は意外とAI臭さを消す

Grokの短文・対比スタイルは文体指示に従ったわけではありませんが、結果的にAI特有の「丁寧すぎる説明」「安全な共感」を回避しています。教えない、寄り添わない、事実だけを置く。このアプローチは「AI臭さを消す」という観点では有効です。

5. コストと文体力は比例しない

DeepSeek は他のフロンティアモデルの約10分の1のAPI料金ですが、比喩の切れ味ではトップクラスです。GPT-5.5 ProはGPT-4.1の後継として文章力が上がっていますが、文体の冒険度ではなくファクト密度の方向に伸びています。用途によって最適解は変わります。

出典: LM Council (2026) AI Model Benchmarks / Vellum (2026) LLM Leaderboard / BuildFastWithAI (2026) Best AI Models April 2026

対比実験――同じ素材を「レポート調」で書かせたら、順位が入れ替わった

ここまでの実験は「エッセイ」——中島らも×筒井康隆の文体で、AI臭さを消して書け、という難題でした。では、同じ素材をAIが最も得意な「ビジネス分析レポート」で書かせたら、どうなるか。プロンプトだけ変えて、同じネタ帳を8モデルに渡しました。

レポート版のプロンプト指示:です・ます調、客観的・分析的、一人称なし。エグゼクティブサマリー→本文(見出し・小見出しで構造化)→提言→参考情報。感情を排し、事実とデータに基づいて記述。ネタ帳のエピソードは「事例」「ケーススタディ」として引用。

エッセイ版とは正反対の指示です。エッセイでは「怒れ、脱線しろ、自虐しろ」と求めたのに対し、レポートでは「感情を排せ、構造化しろ、条件分岐で整理しろ」と求めています。つまり、エッセイでは「AIらしさを消す力」を測り、レポートでは「AIらしさを活かす力」を測る設計です。

結果は、予想以上に明確でした。

モデル レポート
文字数
レポート
品質
エッセイ
脱AI臭
順位
変動
Gemini 2.5 Pro 25,700字 S 2 ▲▲
GPT-5.5 Pro 14,500字 S 3
GPT-4.1 10,300字 A 2
Claude Opus 8,400字 A 5
Claude Sonnet 8,700字 A 3
Grok 4.20 9,500字 B+ 4
DeepSeek 15,000字 B+ 3
Gemini 3 Pro 10,600字 B 1

レポート品質:S=コンサルティングファーム品質、A=十分な実務水準、B+=読めるが粗あり、B=構造に問題あり

文体を変えると実力地図が入れ替わる――エッセイ vs レポートで見えたこと

この対比実験で最も興味深いのは、エッセイの順位とレポートの順位がほぼ逆転することです。

エッセイで苦戦したモデルがレポートで本領発揮

Gemini 2.5 Pro は、エッセイでは「安全な共感」がAI臭さの一種として脱AI臭スコア2点にとどまりました。ところがレポートでは、その「丁寧さ」「網羅性」「制度的な文体」がそのまま強みに変わり、8モデル中で最も完成度の高いレポートを出力しました。25,700字、エグゼクティブサマリーからの一貫した論理構成、IMF・WEF・McKinseyの出典つき引用、判断マトリクスの提示——コンサルティングファームの分析レポートと言われても違和感がないレベルです。

GPT-4.1 も同じパターンです。エッセイでは「親切すぎる」「教える人の声」がAI的と評価しましたが、レポートではその「置いていかない丁寧さ」がプラスに反転し、AI副業の構造批判や費用対効果の分析が冴えます。

エッセイで圧勝したモデルがレポートでは「普通」に

Claude Opus は、エッセイでは唯一「人間が書いたと言われたら信じる」レベルに達しました。しかしレポートでは8,400字と最も短く、品質は「十分だが突出はしない」水準です。Opusの強みは「指示を消化して自分の声にする力」ですが、レポートの文体指示は「感情を排し、客観的に」——つまりOpusの得意技を封じる指示なのです。

Grok も同様です。エッセイでは冷徹な短文が「AI臭さの回避」として機能しましたが、レポートでは「短すぎる」「深掘りが足りない」という弱点に変わります。

GPT-5.5 Pro は両方で安定して強い

GPT-5.5 Pro は例外的に、エッセイでもレポートでも上位に入るモデルです。エッセイではメタナラティブとファクト密度で独自路線を確立し、レポートではROI計算式(削減時間×時間単価+増加粗利−受講料−学習時間コスト−ツール利用料−実装コスト)を提示するなど、分析の具体性が際立ちます。文体を問わず「設計力」で勝負できるモデルです。

  • 教訓1 — AIモデルの「実力」は文体で変わる。エッセイが得意なモデルとレポートが得意なモデルは別
  • 教訓2 — エッセイでAI臭さを消す力と、レポートで構造を組み立てる力は、まったく別のスキル
  • 教訓3 — 「AIに文章を書かせる」前に、まず「どの文体で書かせるか」を決め、その文体に合ったモデルを選ぶべき

DeepSeek のレポートは「ルポ」になった

面白い例外がDeepSeekです。レポートのプロンプトを渡したにもかかわらず、セミナー会場の描写をフィールドノート的に詳述し、「恐怖→希望→決済」の三幕構成として分析するなど、ルポルタージュ風に仕上げてきました。15,000字の分量もあり、読み物としては面白いのですが、「レポート」としてはやや逸脱しています。エッセイでの「比喩の切れ味」がレポートでは「語りすぎ」に転じた形です。

まとめ

同じ素材、同じ8モデルでも、「エッセイで書け」と「レポートで書け」では結果がまったく違いました。

  • エッセイ(文体再現・脱AI臭)なら Claude Opus が圧倒的。プロンプトの意図を消化し「自分の声」にできる唯一のモデル
  • レポート(構造化・分析力)なら Gemini 2.5 Pro がコンサルファーム品質。エッセイでの弱点が強みに反転
  • 両方で安定する GPT-5.5 Pro は、文体を問わず「設計力」で勝負できる万能型
  • コスパ重視なら DeepSeek が構成力と価格のバランスに優れる
  • 最短で要点を伝えるなら Grok がエッセイ・レポートともミニマル路線を貫く

この実験が示したのは、「どのAIが一番すごいか」ではなく、「何をどの文体で書かせるかによって、最適なAIは変わる」ということです。エッセイで圧勝したモデルがレポートでは凡庸に、レポートで輝いたモデルがエッセイでは苦戦する。AIに文章を書かせるなら、まず「どんな文章が必要か」を決め、その文体に合ったモデルを選ぶ。これが最も実践的な結論です。

この記事を書いた人

松田信介
松田 信介 Shinsuke Matsuda

X-HACK Inc. 代表取締役 / PARKLoT CTO

Microsoft for Startups Founders Hub 採択

Claude・Cursor・Devin・Runway など 200 種類以上の AI ツールに年間 2,000 万円を投じ、自社の経営・開発・マーケティング全業務で使い倒している「AI ツールの実戦投入実験台」。AI 面接ツールおよび AI 動画編集ツール「GenVox」を開発。「補助金さがすAI」では、自分で試して効果があった AI 活用事例と、それに紐づく補助金制度をセットで解説しています。

AIの活用と合わせて、事業に使える補助金・助成金も探してみませんか?

補助金を検索する

無料会員登録でAI検索が使えます

無料会員登録

この記事をシェア

X(旧Twitter) LINE Facebook