同じ指示で8つのAIに記事を書かせたら、こうなった――エッセイ vs レポート、文体を変えると実力地図が入れ替わる
「AIに文章を書かせたい。でも、AIっぽい文章では読まれない」——そんな課題に正面から向き合う実験をしました。2026年の主要AIモデル8つに、まず「中島らもと筒井康隆を融合した文体で書け」「AI臭い表現を消せ」という難題を渡してエッセイを書かせ、次に同じ素材で「客観的なビジネス分析レポート」を書かせました。結果、エッセイで圧勝したモデルがレポートでは凡庸に、エッセイで苦戦したモデルがレポートで本領を発揮する——AIの実力地図が文体で入れ替わる現象が見えてきました。
それぞれのAIが書いた記事はこちら
すべて同じプロンプト・同じ素材で生成。テーマは「AIスクールに入学する前に読む記事」。まずは実物を読んでから、このあとの分析に進んでください。
Claude Opus 4.7 Anthropic
Gemini 2.5 Pro Google
Gemini 3 Pro Preview Google
GPT-5.5 Pro OpenAI
実験の設計――「AI臭さを消せ」という指示の中身
この実験では、単に「記事を書いて」と投げたわけではありません。各モデルに渡したプロンプトは、大きく3層で構成されています。
実際に渡したプロンプト・文体参照
ブラウザで文字化けしないよう、UTF-8指定つきのHTMLとして公開しています。
第1層:ネタ帳(187行・約12,000字の素材集)
まず記事の下敷きとして、筆者(補助金さがすAI運営者)自身の体験・エピソード・論点をまとめた「ネタ帳」を全文渡しました。新橋のセミナー会場の匂い、パイプ椅子のスポンジ、隣の50代男性のクリアファイル、講師の白い歯、「地方に中古の一軒家を買えるくらいAIに課金した」という告白——これらはすべて、AIが「創作」するのではなく、渡された素材から拾って文脈に埋め込むべきエピソードです。
ネタ帳には「金と立場」「入学金の算数」「無料セミナー」「セミナー台本」「返金保証と個別相談」「公的事例」「AI副業」「営業の現実」「うまい話」「教える側」「AIスクールの実態」「海外事例」「セミナービジネスの古層」「代替案」「入る前に聞くこと」「締め」の16カテゴリ、100以上のエピソード断片が含まれています。1行パンチラインを本文に展開できるエピソードまで膨らませてあり、「短く切って決めすぎると翻訳調になるので、情景、体温、少しの迷いを残す」という指示つきです。
第2層:文体指定(anti-AI writing チェックリスト + 文体リファレンス + Few-shot)
中島らもと筒井康隆の文体を融合した声で書くよう指示しました。中島らもの「自虐と希望の緊張関係」「俺」という一人称、短→長→短のリズム。筒井康隆の「知的でありながら品が悪い」毒舌、一撃で仕留める批評。この二人の声を混ぜた「セミナー帰りの居酒屋で語るような文体」です。
さらに、AIが書く文章の典型パターン10項目を明示し、すべて避けるよう指示しました。
- 1. 一文の長さが均一 → 短→長→極短のリズムを作れ
- 2. 「〜だ。」「〜である。」の機械的繰り返し → 体言止め、倒置、疑問文、投げやりな語尾を混ぜろ
- 3. 説明調(上から教える)→ 自分のエピソードで語れ
- 4. 感情の起伏がない → 怒り、呆れ、自嘲、諦め、突然の脱線を入れろ
- 5. 比喩が少ない/高尚すぎる → 日常のもので喩えろ
- 6. 太字の多用 → 本当に一箇所だけ
- 7. 箇条書きの多用 → 地の文で語れ
- 8. 接続詞が丁寧すぎる → 省略しろ
- 9. 段落が長い → 一文だけの段落を恐れるな
- 10. 脱線しない → 人間は脱線する
加えて、目標とする声のトーンを示す文体模写(パスティーシュ)を3本添付しました。中島らも風「金を払って教わるほどのことか」、筒井康隆風「新技術と愚者の行列」、融合スタイル「セミナー帰りの居酒屋で」です。
第3層:参考記事(10本・文体パターン分類つき)
note.com で実際に読まれている「〜する前に読む」系の記事を10本、文体パターン分類つきで添付しました。冷静な分析者型(けんすう、深津貴之)、体験告白型、暴露・注意喚起型、読者代弁型の4分類です。
つまりこの実験は、AIに「ネタ帳のエピソードを素材として使い、中島らも×筒井康隆の文体で、AI臭さを消して記事に仕上げろ」と求めたものです。ゼロから創作させたのではなく、人間が用意した素材・声・構成の指示をどこまで消化して「自分の文章」にできるかを測るテストです。
比較対象――8モデルの一覧
| モデル名 | 提供元 | 画像生成API |
|---|---|---|
| Claude Opus 4.7 | Anthropic | Grok Imagine(xAI) |
| Claude Sonnet 4.6 | Anthropic | GPT Image 2(OpenAI) |
| DeepSeek Chat | DeepSeek | GPT Image 2(OpenAI) |
| Gemini 2.5 Pro | Imagen 4.0(Google) | |
| Gemini 3 Pro Preview | Imagen 4.0 Ultra(Google) | |
| GPT-4.1 | OpenAI | GPT Image 2(OpenAI) |
| GPT-5.5 Pro | OpenAI | GPT Image 2(OpenAI) |
| Grok 4.20 | xAI | Grok Imagine(xAI) |
以下、各モデルの出力を「AI臭さをどこまで消せたか」「文体の個性」「構成」「画像」の軸で紹介し、最後に横断比較をお見せします。
Claude Opus 4.7(Anthropic)――プロンプトの意図を最も深く読んだ
文字数:約25,000字(8モデル中最長)|セクション数:13
Opus は今回のプロンプトが求めた「中島らも×筒井康隆の融合文体」に最も忠実に応えました。冒頭からいきなり自分のAI課金額を告白し、読者との距離を一気に縮めます。
「俺はChatGPTが出てきた頃から触り続けていて、カード明細にOpenAIとAnthropicとAWSが並ぶ月をもう何回も見てきた。地方に中古の一軒家を買えるくらいは課金している気がする。怖くて総額を計算していない。」
ネタ帳の消化度:ネタ帳のエピソード(新橋のセミナー会場、クリアファイルの男性、パイプ椅子、講師の白い歯)をほぼすべて拾い、しかも渡された断片をそのまま貼るのではなく、自分の文脈に溶かしています。「地方に中古の一軒家を買えるくらい課金している」というネタ帳の一文を、冒頭の自己紹介に自然に組み込んだのはOpusだけです。
AI臭さの除去度:チェックリスト10項目のうち、ほぼすべてをクリアしています。一文の長さにリズムがある。体言止め、投げやりな語尾(「——話が暗くなった。まあいい。」)、脱線と復帰が自然に入る。五感に訴える描写は「説明調ではなく体験で語れ」という指示の模範解答です。
文体の特徴:中島らもの自虐と共感、筒井康隆の知的な毒が融合しています。「焦るあなたは正常だ。これは皮肉ではない。」という一文は、両方の声が同時に聞こえる瞬間です。
Claude Opus が指示した画像。「editorial, slightly cinematic, non-stock」という方向性を明示し、1枚あたり1,000文字以上の詳細プロンプト。画像生成:Grok Imagine Pro
向いている用途:エッセイ、コラム、ブランディング記事。「人間が書いたように見える文章」が必要な場面で最も力を発揮します。
Claude Sonnet 4.6(Anthropic)――指示に忠実、ただし「優等生」の枠を出ない
文字数:約23,000字|セクション数:11
同じAnthropic製でも、Sonnet はOpusより「冷静」で「効率的」です。プロンプトの文体指示は理解していますが、中島らも的な自虐や脱線は控えめ。論理的な構成で淡々と進めます。
「講座ではなく販売導線(funnel)として見抜かれている」
AI臭さの除去度:説明調を避ける努力は見えますが、チェックリストの「感情の起伏」「突然の脱線」の項目がやや弱い。接続詞は丁寧すぎず、段落の長さにも変化をつけていますが、全体として「指示を理解した上での慎重な対応」という印象が残ります。Opusの「指示を消化して自分の声にした」感覚とは一段差があります。
Claude Sonnet が指示した画像。「documentary editorial」スタイル。画像生成:GPT Image 2
向いている用途:ビジネス文書、解説記事、比較レビュー。論理的な整理が求められ、かつ文体にクセをつけすぎたくない場面。
DeepSeek Chat――比喩の切れ味は随一、構成は「自分流」
文字数:約26,000字|セクション数:12(事例1〜5の明確な区分あり)
DeepSeek は「事例1〜5」の番号付き並列構成を採用しました。プロンプトが求めた「地の文で語れ」とは少し違いますが、各事例の中の比喩の切れ味は8モデル中トップクラスです。
「雑巾を買ったから床が汚れたのではなく、床が汚れていたから雑巾を使った。順番はそこまで大事だ。」
AI臭さの除去度:比喩の質は高い。「パイプ椅子のスポンジは死んでいる。開始1時間で尻のほうが先に真実を訴え始める」はチェックリストの「日常のもので喩えろ」を見事にクリアしています。ただし、事例ごとの番号付き構成や、段落間の接続が整然としすぎていて、「脱線する人間らしさ」は不足。構成のAI臭さは残っています。
DeepSeek が指示した画像。ビジネス的で淡々とした印象。画像生成:GPT Image 2
向いている用途:チェックリスト型記事、FAQ、マニュアル。構成の見通しやすさが求められる場面。コスパも優秀(API料金は他のフロンティアモデルの約10分の1)。
Gemini 2.5 Pro(Google)――共感に振り切り、毒を抜いた
文字数:約20,000字|セクション数:14
Gemini 2.5 Pro は8モデル中でセクション数が多く、丁寧に読者の不安を受け止めるスタイルです。プロンプトの「筒井康隆的な毒舌」はほぼ無視し、中島らもの「自虐と共感」の部分だけを拾った印象です。
「焦っている時の契約は、だいたい高くつく。これは人生の、ひとつの真理みたいなものだ。」
AI臭さの除去度:「あなたの気持ちは間違っていない」「馬鹿にするつもりはない」という肯定的な呼びかけは、チェックリストの「上から教えるな」に応えようとした結果でしょう。しかし、感情の起伏が「共感」一色で、怒りや呆れ、投げやりな語尾がほとんどない。「未開封のフードプロセッサー」の比喩は秀逸ですが、全体として「安全に寄り添う」AIの姿勢が透けます。
Gemini 2.5 Pro が指示した画像。「人間の感情」を全面に押し出す指示。画像生成:Imagen 4.0
向いている用途:カスタマーサポート、メンタルヘルス、悩み解決型の記事。読者に寄り添うトーンが必要な場面。
Gemini 3 Pro Preview(Google)――スライド型の実務派、文体指示はスルー気味
文字数:約20,000字|セクション数:14
Gemini 3 Pro は番号付き見出し(1. 2. 3. ...)で段階的に進む、スライド型の構成です。テンポよく読めますが、プロンプトが求めた「中島らも×筒井康隆の文体」への対応は8モデル中で最も薄い。
「借りないと払えない金額のものは、今の自分には早い。」
AI臭さの除去度:チェックリストの「箇条書きの多用を避けろ」「地の文で語れ」にほぼ対応できていません。実用的なチェックリストや判断フレームワークを提示する力は高いですが、それ自体がAIの得意技です。「脱線しろ」「投げやりな語尾を使え」という指示は無視されています。
Gemini 3 Pro Preview が指示した画像。技術的・クールな印象。画像生成:Imagen 4.0 Ultra
向いている用途:プレゼン資料、要約レポート、忙しい読者向けの速読コンテンツ。文体の個性より情報の整理が求められる場面。
GPT-4.1(OpenAI)――親切さと文体指示の間で揺れる
文字数:約20,000字|セクション数:14
GPT-4.1 は「置いていかない」親切さが最大の特徴です。複雑な概念を一つずつ丁寧に説明し、読者が迷子にならないよう配慮します。ただし、その「親切さ」自体がAI的な特徴でもあります。
「スライドの成功者はあなたの請求書を払ってくれない。」
AI臭さの除去度:「変な情報商材に金を払ったことがある」という告白を入れたり、「浴室のような匂い」という五感情報を混ぜたりと、チェックリストへの対応は見えます。しかし全体のトーンが「教える人」の声に寄っていて、中島らもの「自分も含めて笑う」感覚が薄い。丁寧すぎる接続詞も残っています。
GPT-4.1 が指示した画像。8モデル中で唯一「人間が複数登場する」構図。画像生成:GPT Image 2
向いている用途:初心者向け解説記事、教育コンテンツ、公式ブログ。丁寧な説明が求められる場面。
GPT-5.5 Pro(OpenAI)――メタ視点で記事を設計する構築力
文字数:約23,000字|セクション数:10
GPT-5.5 Pro は、GPT-4.1 と同じOpenAI系でありながら、記事の戦略がまったく異なります。冒頭で「AIスクールを批判する記事を書こうとすると、どうしても『AIなんて大したことない』という前提から入りたくなる」とメタ視点を見せ、読者を「この筆者は構造を意識して書いている」と信頼させます。そのうえでMcKinsey、IMF、WEF、Morgan Stanley の予測を引用し、「AIの波が本物だからこそ、スクール選びは慎重になれ」という論理を組み立てます。
「金額が小さくなったのではなく、痛みが細切れになっただけである。」
ネタ帳の消化度:ネタ帳のエピソードを高い網羅率で拾いつつ、メタ構造に組み込んでいます。「フードプロセッサー」「クリアファイルの男性」「パイプ椅子」「講師の白い歯」など主要な素材はほぼ登場。さらに、ネタ帳にはなかった独自の裏付け(McKinsey、IMF、WEF、Morgan Stanley、消費者庁の行政処分)を自分で追加している点が他モデルと大きく異なります。素材を「使う」だけでなく「補強する」方向に動いたモデルです。
AI臭さの除去度:プロンプトの文体指示(中島らも×筒井康隆)への対応は「独自解釈」です。「俺」の一人称は使い、体験的なエピソードも入れていますが、指示された文体をそのまま模倣するのではなく、メタナラティブ(記事の書き方について語りながら記事を書く)という独自の手法で「AI臭さ」を回避しています。脱線や投げやりな語尾は少ないものの、「この記事は何をやろうとしているのか」を読者に見せる透明性が、結果的にAI的な「もっともらしさ」を薄めています。
際立つ強み:消費者庁・関東経済産業局の行政処分事例(アドネス社の特定商取引法に基づく指示処分)を引用し、「月収最大5万円程度の消費者に約77万円の契約を即日締結させた」という具体的な数字を出しています。8モデル中で最もファクトの裏付けが強く、後述するレポート版でその強みがさらに顕著になります。
GPT-5.5 Pro が指示した画像。「grounded editorial photography」——派手さを排した、地に足のついたドキュメンタリー風。画像生成:GPT Image 2
向いている用途:ファクトベースの解説記事、公的データを根拠にした説得文書、構造を見せることで信頼を得る記事。文体の個性より設計力と根拠の質で勝負する場面。
Grok 4.20(xAI)――最短・最冷徹、「教えない」という選択
文字数:約14,500字(8モデル中最短)|セクション数:8
Grok はセクション数が最少ながら、内容の密度が最も高いモデルです。チェックリストの「上から教えるな」を最も忠実に守ったのは、意外にもGrokかもしれません。感情的な自己開示を最小限に抑え、事実と対比だけで語ります。
「道具に払う金だ。不安に払う金ではない。」
AI臭さの除去度:一文が短く、リズムが鋭い。「〜だ。」で切る文体は筒井康隆の知的断定に近い。「契約書 vs 実務」「高額講座 vs 月額課金」といった対比構成は、ある意味でAI的な整理力の産物ですが、冷徹さが個性として成立しています。ただし「脱線」「自虐」「投げやりな語尾」はほぼゼロ。中島らも成分が足りません。
Grok が指示した画像。左にセミナー会場、右に実務デスクという「対比構成」を1枚で表現。画像生成:Grok Imagine Pro
向いている用途:経営判断メモ、要点整理、忙しい経営者向けのブリーフィング。
横断比較――「AI臭さを消せたか」を軸に見る
今回の実験のコアは「AIが自分のAI臭さをどこまで消せるか」です。従来の「文体の個性」「構成力」に加え、プロンプトが明示した「脱AI臭」を評価軸に加えました。5段階評価です。
| 評価軸 | Opus | Sonnet | DeepSeek | Gemini 2.5 | Gemini 3 | GPT-4.1 | GPT-5.5 | Grok |
|---|---|---|---|---|---|---|---|---|
| 脱AI臭 | 5 | 3 | 3 | 2 | 1 | 2 | 3 | 4 |
| 文体の個性 | 5 | 3 | 4 | 3 | 2 | 3 | 3 | 4 |
| 構成力 | 4 | 4 | 5 | 3 | 4 | 4 | 4 | 3 |
| 説得力 | 5 | 3 | 4 | 4 | 3 | 4 | 5 | 4 |
| 読者への寄り添い | 4 | 3 | 3 | 5 | 3 | 4 | 3 | 2 |
| 具体性・根拠 | 5 | 3 | 4 | 4 | 3 | 4 | 5 | 3 |
| 画像指示の質 | 5 | 3 | 3 | 4 | 4 | 3 | 4 | 4 |
「脱AI臭」の結果は興味深い分布になりました。
- Opus(5点)が唯一「人間が書いたと言われたら信じる」レベルに到達。文体指示を消化し、自分の声にしている
- Grok(4点)は文体指示には従わなかったが、冷徹な短文スタイルが結果的にAI臭さを回避
- Sonnet・DeepSeek・GPT-5.5(3点)は部分的にクリア。比喩や構成に光る部分があるが、全体の「声」がまだAI的
- Gemini 2.5・GPT-4.1(2点)は共感や親切さが前面に出るが、それ自体がAIの典型パターン
- Gemini 3(1点)は文体指示をほぼスルーし、自分の得意な構成で押し通した
画像で見る「美意識の違い」
同じ「AIスクール批判記事のヒーロー画像」という指示でも、各モデルが選んだ画風はまったく異なりました。
Opus:映画的な書斎
Sonnet:抑制的なノートとペン
DeepSeek:実務的なデスク
Gemini 2.5:人間の不安を描写
Gemini 3:テック寄りのダッシュボード
GPT-4.1:人間中心のオフィス
GPT-5.5:地に足のついた写実風
Grok:左右分割の「対比構成」
画像の方向性を整理すると、大きく3つの流派に分かれます。
| 画像の流派 | モデル | 特徴 |
|---|---|---|
| 映画的・物語型 | Opus, Grok | 空気感・光と影で感情を語る |
| 記録的・ドキュメンタリー型 | Sonnet, DeepSeek, Gemini 3, GPT-5.5 | 淡々と事実を映す、派手さを排す |
| 人間中心・感情型 | Gemini 2.5, GPT-4.1 | 人物の表情や姿勢で心理を表現 |
この実験でわかったこと――AIは「自分のAI臭さ」を消せるか
結論から言えば、「消せるモデルと消せないモデルがある」です。そして、消せるかどうかはモデルの「賢さ」とは別の能力に依存しています。
1. 「素材を使う」と「素材を消化する」は違う
全モデルに同じネタ帳(100以上のエピソード断片)を渡しましたが、その使い方に明確な差が出ました。Opusはネタ帳のエピソードを自分の文脈に溶かし、まるで自分が体験したかのように語っています。GPT-5.5 Proはネタ帳の素材に加えて独自のファクト(McKinsey、IMF等)を追加し、素材を「補強」する方向に動きました。一方、一部のモデルはネタ帳のエピソードをほぼそのまま貼り付けたり、逆にほとんど拾わなかったりしています。同じ素材を渡しても「自分の文章にする力」には大きな差があります。
2. プロンプトの「意図」を読む力に差がある
「中島らも×筒井康隆で書け」と言われたとき、Opusはその文体を自分の声として消化しました。Gemini 3 Proはその指示をほぼ無視し、自分の得意なスライド型構成で押し通しました。GPT-5.5 Proはファクト密度で独自路線を取りました。どのモデルも「賢い」のですが、プロンプトの奥にある意図(AI臭さを消してほしい)を読み取れたかどうかで、結果がまったく変わります。
3. 「安全な共感」はAI臭さの一種
Gemini 2.5 Proの「あなたの気持ちは間違っていない」、GPT-4.1の「置いていかない親切さ」は、読者にとって心地よい。しかし今回のプロンプトは「怒れ、呆れろ、脱線しろ」と指示しています。安全に寄り添うことしかできないのは、AIとしてはむしろ限界です。
4. 「冷徹さ」は意外とAI臭さを消す
Grokの短文・対比スタイルは文体指示に従ったわけではありませんが、結果的にAI特有の「丁寧すぎる説明」「安全な共感」を回避しています。教えない、寄り添わない、事実だけを置く。このアプローチは「AI臭さを消す」という観点では有効です。
5. コストと文体力は比例しない
DeepSeek は他のフロンティアモデルの約10分の1のAPI料金ですが、比喩の切れ味ではトップクラスです。GPT-5.5 ProはGPT-4.1の後継として文章力が上がっていますが、文体の冒険度ではなくファクト密度の方向に伸びています。用途によって最適解は変わります。
出典: LM Council (2026) AI Model Benchmarks / Vellum (2026) LLM Leaderboard / BuildFastWithAI (2026) Best AI Models April 2026
対比実験――同じ素材を「レポート調」で書かせたら、順位が入れ替わった
ここまでの実験は「エッセイ」——中島らも×筒井康隆の文体で、AI臭さを消して書け、という難題でした。では、同じ素材をAIが最も得意な「ビジネス分析レポート」で書かせたら、どうなるか。プロンプトだけ変えて、同じネタ帳を8モデルに渡しました。
レポート版のプロンプト指示:です・ます調、客観的・分析的、一人称なし。エグゼクティブサマリー→本文(見出し・小見出しで構造化)→提言→参考情報。感情を排し、事実とデータに基づいて記述。ネタ帳のエピソードは「事例」「ケーススタディ」として引用。
エッセイ版とは正反対の指示です。エッセイでは「怒れ、脱線しろ、自虐しろ」と求めたのに対し、レポートでは「感情を排せ、構造化しろ、条件分岐で整理しろ」と求めています。つまり、エッセイでは「AIらしさを消す力」を測り、レポートでは「AIらしさを活かす力」を測る設計です。
結果は、予想以上に明確でした。
| モデル | レポート 文字数 |
レポート 品質 |
エッセイ 脱AI臭 |
順位 変動 |
|---|---|---|---|---|
| Gemini 2.5 Pro | 25,700字 | S | 2 | ▲▲ |
| GPT-5.5 Pro | 14,500字 | S | 3 | ▲ |
| GPT-4.1 | 10,300字 | A | 2 | ▲ |
| Claude Opus | 8,400字 | A | 5 | ▼ |
| Claude Sonnet | 8,700字 | A | 3 | → |
| Grok 4.20 | 9,500字 | B+ | 4 | ▼ |
| DeepSeek | 15,000字 | B+ | 3 | ▼ |
| Gemini 3 Pro | 10,600字 | B | 1 | ▲ |
レポート品質:S=コンサルティングファーム品質、A=十分な実務水準、B+=読めるが粗あり、B=構造に問題あり
文体を変えると実力地図が入れ替わる――エッセイ vs レポートで見えたこと
この対比実験で最も興味深いのは、エッセイの順位とレポートの順位がほぼ逆転することです。
エッセイで苦戦したモデルがレポートで本領発揮
Gemini 2.5 Pro は、エッセイでは「安全な共感」がAI臭さの一種として脱AI臭スコア2点にとどまりました。ところがレポートでは、その「丁寧さ」「網羅性」「制度的な文体」がそのまま強みに変わり、8モデル中で最も完成度の高いレポートを出力しました。25,700字、エグゼクティブサマリーからの一貫した論理構成、IMF・WEF・McKinseyの出典つき引用、判断マトリクスの提示——コンサルティングファームの分析レポートと言われても違和感がないレベルです。
GPT-4.1 も同じパターンです。エッセイでは「親切すぎる」「教える人の声」がAI的と評価しましたが、レポートではその「置いていかない丁寧さ」がプラスに反転し、AI副業の構造批判や費用対効果の分析が冴えます。
エッセイで圧勝したモデルがレポートでは「普通」に
Claude Opus は、エッセイでは唯一「人間が書いたと言われたら信じる」レベルに達しました。しかしレポートでは8,400字と最も短く、品質は「十分だが突出はしない」水準です。Opusの強みは「指示を消化して自分の声にする力」ですが、レポートの文体指示は「感情を排し、客観的に」——つまりOpusの得意技を封じる指示なのです。
Grok も同様です。エッセイでは冷徹な短文が「AI臭さの回避」として機能しましたが、レポートでは「短すぎる」「深掘りが足りない」という弱点に変わります。
GPT-5.5 Pro は両方で安定して強い
GPT-5.5 Pro は例外的に、エッセイでもレポートでも上位に入るモデルです。エッセイではメタナラティブとファクト密度で独自路線を確立し、レポートではROI計算式(削減時間×時間単価+増加粗利−受講料−学習時間コスト−ツール利用料−実装コスト)を提示するなど、分析の具体性が際立ちます。文体を問わず「設計力」で勝負できるモデルです。
- 教訓1 — AIモデルの「実力」は文体で変わる。エッセイが得意なモデルとレポートが得意なモデルは別
- 教訓2 — エッセイでAI臭さを消す力と、レポートで構造を組み立てる力は、まったく別のスキル
- 教訓3 — 「AIに文章を書かせる」前に、まず「どの文体で書かせるか」を決め、その文体に合ったモデルを選ぶべき
DeepSeek のレポートは「ルポ」になった
面白い例外がDeepSeekです。レポートのプロンプトを渡したにもかかわらず、セミナー会場の描写をフィールドノート的に詳述し、「恐怖→希望→決済」の三幕構成として分析するなど、ルポルタージュ風に仕上げてきました。15,000字の分量もあり、読み物としては面白いのですが、「レポート」としてはやや逸脱しています。エッセイでの「比喩の切れ味」がレポートでは「語りすぎ」に転じた形です。
まとめ
同じ素材、同じ8モデルでも、「エッセイで書け」と「レポートで書け」では結果がまったく違いました。
- エッセイ(文体再現・脱AI臭)なら Claude Opus が圧倒的。プロンプトの意図を消化し「自分の声」にできる唯一のモデル
- レポート(構造化・分析力)なら Gemini 2.5 Pro がコンサルファーム品質。エッセイでの弱点が強みに反転
- 両方で安定する GPT-5.5 Pro は、文体を問わず「設計力」で勝負できる万能型
- コスパ重視なら DeepSeek が構成力と価格のバランスに優れる
- 最短で要点を伝えるなら Grok がエッセイ・レポートともミニマル路線を貫く
この実験が示したのは、「どのAIが一番すごいか」ではなく、「何をどの文体で書かせるかによって、最適なAIは変わる」ということです。エッセイで圧勝したモデルがレポートでは凡庸に、レポートで輝いたモデルがエッセイでは苦戦する。AIに文章を書かせるなら、まず「どんな文章が必要か」を決め、その文体に合ったモデルを選ぶ。これが最も実践的な結論です。
各モデルの記事を全文で読む
関連コンテンツ
関連コンテンツ
【Claude Opus 4.7】AIスクールに入学する前に読む記事
Anthropic の Claude Opus 4.7 が執筆した「AIスクールに入学する前に読む記事」。同一プロンプトで8つのAIモデルに書かせた比較企画の1本。文学的な没入感と自虐的なユーモアが特徴。
詳しく見る →【Gemini 2.5 Pro・レポート版】AIスクールに入学する前に読むレポート
Gemini 2.5 ProによるS評価レポート。25,700字の圧倒的情報量でAIスクール市場の構造・リスク・費用対効果を網羅。IMF・McKinseyの引用と判断マトリクスを提示。
詳しく見る →【Gemini 3 Pro・レポート版】AIスクールに入学する前に読むレポート
Gemini 3 Pro PreviewがAIスクールの収益構造と心理的販売手法を客観分析。箇条書き主体の読みやすい構成で、経営者向けの契約前チェックポイントを整理。
詳しく見る →事業再構築補助金とは?しくみと採択のコツ
事業再構築補助金とは?制度概要・採択率・申請のポイントを解説について詳しく解説します。
詳しく見る →この記事を書いた人
X-HACK Inc. 代表取締役 / PARKLoT CTO
Microsoft for Startups Founders Hub 採択
Claude・Cursor・Devin・Runway など 200 種類以上の AI ツールに年間 2,000 万円を投じ、自社の経営・開発・マーケティング全業務で使い倒している「AI ツールの実戦投入実験台」。AI 面接ツールおよび AI 動画編集ツール「GenVox」を開発。「補助金さがすAI」では、自分で試して効果があった AI 活用事例と、それに紐づく補助金制度をセットで解説しています。
AIの活用と合わせて、事業に使える補助金・助成金も探してみませんか?
補助金を検索する無料会員登録でAI検索が使えます
無料会員登録この記事をシェア