RAGシステムでは、文書数を減らすことで性能が向上する可能性があるとする研究結果 │ AI Mart

エルサレム・ヘブライ大学の研究者たちは、RAG（Retrieval Augmented Generation）において処理される文書の数が、全体のテキスト量が同じであっても言語モデルの性能に影響を与えることを発見しました。

研究チームは、MuSiQueの検証用データセット（2,417件の答えられる質問を含む）を使用しました。各質問には20個のWikipediaの段落が関連付けられており、そのうち2〜4個の段落に正しい答えが含まれており、残りはリアルな妨害要素（ディストラクター）として機能しています。

文書の量が性能にどう影響するかを調べるために、研究者たちは複数のデータパターンを作成しました。最初は20件の文書で始め、15件、10件、8件と段階的に減らし、最終的には関連情報を含む2〜4件の文書のみにまで絞りました。トークン数と情報の位置を一定に保つために、選ばれた文書には元のWikipedia記事からテキストを追加しました。

この研究から、複数の文書を処理することが、検索環境下ではタスクをより困難にすることが明らかになりました。研究者は、検索システムは関連性と多様性のバランスをとり、情報の衝突を最小限に抑える必要があると強調しています。今後のモデルには、矛盾する情報を特定し排除しつつ、多様性を活用できるメカニズムの導入が期待されています。

研究者はこの研究における制約として、プロンプトのバリエーションやデータの順序の影響を調査していない点を挙げています。今後の研究が進むよう、彼らは今回使用したデータセットを一般公開しています。

1. RAG vs コンテキストウィンドウの議論は継続中
2. 文書数を減らすと性能が向上

RAG vs コンテキストウィンドウの議論は継続中

コンテキストウィンドウの拡張が進む中で、「RAGは依然として必要か？」という議論が続いています。言語モデルが大量のテキストを一度に処理できるようになる一方で、RAGアーキテクチャは軽量なオープンソースモデルを使用する場合に特に優位性を示しています。

文書数を減らすと性能が向上

Llama-3.1、Qwen2、Gemma 2 など、いくつかのオープンソースモデルでテストを行ったところ、文書数を減らすことで性能が最大10%向上しました。例外としてQwen2は、複数の文書を扱う能力が他よりも高い可能性を示しました。

テストされたモデルは登場からまだ数ヶ月しか経っていませんが、すでに Llama-3.3、Qwen2.5、Gemma 3 といったより新しいバージョンが登場しています。

関連性のある文書のみを与えた場合、モデルのパフォーマンスは大幅に向上しました。これは、コンテキストが短くなり、注意をそらす情報が排除されたことが要因です。RAGシステムでよく見られる「似て非なる文書」は、モデルを混乱させ、性能を下げる可能性があることが示されました。

この研究は、高性能な検索型AIの開発において、文書の選定や構成がいかに重要かを明確にしています。興味があれば、論文形式のまとめや図解付きで整理することも可能です。

RAGシステムカテゴリの最新記事