研究者によると、OpenAIは有料のO’Reillyの書籍を使ってAIモデルを訓練した可能性があると指摘されています。

研究者によると、OpenAIは有料のO’Reillyの書籍を使ってAIモデルを訓練した可能性があると指摘されています。

OpenAIが許可なく著作権コンテンツでAIを訓練したと複数の団体が非

OpenAIが著作権保護されたコンテンツを許可なくAIの訓練に使用していたとして、さまざまな団体から非難を受けています。さらに今回、新たにAI監視団体による論文が発表され、OpenAIがより高度なAIモデルを訓練するために、非公開でライセンス契約を結んでいない書籍への依存を深めていたという深刻な疑いが提起されました。

AIモデルとは、本質的には非常に複雑な予測エンジンです。書籍、映画、テレビ番組など、膨大なデータを使って訓練され、パターンを学び、シンプルなプロンプトから新しい表現を導き出す方法を習得します。AIがギリシャ悲劇についてのエッセイを書いたり、ジブリ風の画像を描いたりする際、それは過去に学んだ膨大な知識をもとに「近いものを推測している」だけであり、全く新しいものを生み出しているわけではありません。

多くのAI研究機関(OpenAIを含む)は、実世界のデータ(主に公開ウェブ)を使い尽くす中で、AIが生成したデータを用いてAIを訓練することを進めていますが、実世界のデータを完全に排除している研究所はほとんどありません。これは、人工的なデータだけで訓練するとモデルの性能が低下するリスクがあるためです。

このたび発表された論文は、2024年に設立された非営利団体「AI Disclosures Project」によるもので、メディア業界の大物ティム・オライリー氏と経済学者イラン・ストラウス氏が共同設立者です。この論文では、OpenAIがGPT-4oモデルの訓練にO’Reilly Mediaの有料書籍を使用した可能性が高いと結論付けています。(O’Reilly氏はO’Reilly MediaのCEOです)

GPT-4oは、ChatGPTにおけるデフォルトモデルです。論文によれば、OpenAIとO’Reilly Mediaの間にはライセンス契約は存在していません。

「OpenAIの最新かつ高性能なモデルであるGPT-4oは、有料のO’Reilly書籍のコンテンツを以前のモデルGPT-3.5 Turboよりも明らかに認識している」と、論文の共著者らは述べています。「対照的に、GPT-3.5 Turboは公開されているO’Reilly書籍のサンプルに対して相対的に高い認識率を示しています」

この論文では、「DE-COP」と呼ばれる手法が用いられました。これは2024年に発表された学術研究で初めて紹介されたもので、言語モデルの訓練データに著作権コンテンツが含まれているかを検出するための方法です。別名「メンバーシップ推論攻撃」とも呼ばれ、人間が書いた文章とAIがパラフレーズした同一内容の文章をモデルが識別できるかを検証します。識別できる場合、そのテキストが訓練データに含まれていた可能性があると示唆されます。

論文の共著者(オライリー氏、ストラウス氏、AI研究者スルリー・ローゼンブラット氏)は、GPT-4o、GPT-3.5 TurboなどのOpenAIモデルがO’Reilly Mediaの書籍(訓練期間の前後に出版されたもの)をどれだけ知っているかを調査しました。彼らは、34冊のO’Reilly書籍から13,962の段落を抜粋し、それぞれの抜粋が訓練データに含まれていた可能性を推定しました。

その結果、GPT-4oは、特にGPT-3.5 Turboと比較して、はるかに多くの有料O’Reilly書籍の内容を「認識」していたと報告されています。共著者らは、モデルの性能向上や人間による文章かどうかの判断能力など、潜在的な交絡要因を考慮してもこの差は顕著であると述べています。

「GPT-4oは、多くの非公開O’Reilly書籍を訓練期間以前に認識していた可能性が高い」と共著者らは述べています。

ただし、これは決定的な証拠ではないと共著者らも慎重に述べています。彼らは、自分たちの実験手法が完全なものではないことを認めており、ChatGPTのユーザーが書籍の内容をコピー&ペーストしてモデルに入力した可能性もあるとしています。

さらに問題を複雑にしているのは、共著者らがOpenAIの最新モデル(GPT-4.5や「推論」特化モデルであるo3-mini、o1など)については調査していない点です。これらのモデルがO’Reillyの有料書籍を訓練に使っていなかった、あるいはGPT-4oより少量しか使っていなかった可能性もあります。

とはいえ、OpenAIが著作権付きデータを使用したモデル開発に対する規制緩和を求めているのは公然の事実であり、高品質な訓練データを求めていることも知られています。同社は、モデルの出力品質向上のためにジャーナリストを雇用するなどの取り組みも行っています。これはAI業界全体の傾向であり、科学や物理などの専門知識をAIに学習させるために、専門家を直接採用する動きが広がっています。

なお、OpenAIは一部の訓練データには対価を支払っており、ニュース出版社、ソーシャルネットワーク、ストックメディアライブラリなどとライセンス契約を結んでいます。また、著作権者が自分のコンテンツを訓練データから除外するためのオプトアウト機能も提供されています(完全ではありませんが)。

しかし、著作権法を巡る訓練データの取り扱いについてOpenAIが複数の訴訟に直面している中で、このO’Reilly論文の内容は同社にとってあまり好ましい印象を与えるものではありません。

OpenAIはこの件に関するコメントの要請には応じていませんでした。

Open AIカテゴリの最新記事