Midjourney、LLMの創造的な文章表現力を向上させる新手法を開発

Midjourney、LLMの創造的な文章表現力を向上させる新手法を開発

Midjourneyとニューヨーク大学の研究者たちは、言語モデルがより多様で創造的なテキストを生成できるようにする新たなアプローチを開発しました。それによって、品質を大きく損なうことなく、表現の幅を広げられる可能性があります。

最近公開された論文で、研究チームはAIの学習プロセスに「逸脱メトリクス(deviation metrics)」を導入しています。この手法では、同じプロンプトに対して生成されたテキスト同士の違いを数値化して測定します。具体的には、テキストをベクトル化し、それぞれのコサイン類似度を計算することで、その違いの大きさを把握するという方法です。

初期テストでは有望な結果が得られました。この新しい訓練方法を使ったモデルは、23%多様性が向上し、品質スコアの低下はわずか5%にとどまりました(Redditの報酬システムを基に評価)。

テストケースの一例では、「なぜ震えているの、私の愛しい人? あなたはもう王なのに。」というプロンプトに対し、標準のGPT-4oモデルは主に新しい国王の緊張を描くストーリーを生成しました。一方、改良されたLlama-3.1-8Bモデル(より小規模なモデル)は、クマの王子をめぐるダークファンタジーから水中の超自然的な物語まで、多種多様なストーリーを生み出しました。人間の評価者もこの結果を支持し、「多様性は確かに向上しており、品質も維持されている」との評価がされました。

ただし、評価対象は古いGPT-4oであり、より自然なテキストを生成するGPT-4.5との比較は行われていません。GPT-4.5は性能が高い一方で、利用コストが増すという課題があります。

研究者たちは、「多様性」には2種類あると考えています。1つはセマンティックな多様性(内容やプロットの違い)、もう1つはスタイル的な多様性(異なる作家が書いたように感じられる文章)。それぞれのタイプに特化したモデルも開発されましたが、両方を組み合わせるのが最も効果的だったと報告されています。

この研究では、Redditのr/WritingPromptsから収集した10万件以上のプロンプトとレスポンスのペアが使用されました。実験の結果、各プロンプトにつきわずか4つの異なる応答を用意するだけで、多様性を大きく高めることができるとわかりました。

このシステムは、慎重に選ばれた訓練データや、一定以上の「違い」を持たせる基準を設けることで、品質を保ちながら多様性を確保できるという特徴があります。他の多様性向上手法と比べて柔軟性に優れていると考えられています。

とはいえ、まだいくつかの課題も残っています。この手法が創作以外の分野(技術文書や要約など)にも有効かどうかは未検証であり、大規模モデルが用いるオンライン学習環境でも同様の効果が得られるかは不明です。

さらに、品質評価に使用されたRedditのアップボートには限界があります。文章の技術的な正確性、一貫性、プロフェッショナルな文体といった重要な要素を捉えられない可能性があるため、より包括的な評価基準の必要性も指摘されています。

それでも、この新手法は、現在の言語モデルが陥りがちな反復的な出力パターンからの脱却を促し、創造的な文章生成における可能性を大きく広げるものとして注目されています。研究チームは、今後この手法のコードをGitHubで公開し、他の研究者が応用できるようにする予定です。

Midjourneyカテゴリの最新記事