AnthropicのCEOであるダリオ・アモデイ氏は木曜日、世界の最先端AIモデルの内部構造について研究者たちがいかに理解していないかを強調するエッセイを発表しました。これに対応するため、アモデイ氏は、Anthropicが2027年までにAIモデルのほとんどの問題を確実に検出できるようにするという野心的な目標を掲げています。
アモデイ氏はこの課題の困難さを認めています。「The Urgency of Interpretability(解釈可能性の緊急性)」というエッセイの中で、Anthropicはモデルがどのように回答を導き出しているかを追跡する初期的なブレイクスルーを得たと述べつつも、より強力なシステムを解読するにはさらに多くの研究が必要だと強調しました。
「これほどまでに自律的な能力を持ち、経済、技術、国家安全保障の中心となるシステムを、解釈不能なまま運用することに、私は強い懸念を抱いています」とアモデイ氏は記しました。「その仕組みを人類が全く理解できていないというのは、基本的に容認できない状態です」。
Anthropicは、AIモデルがなぜそのような意思決定を行うのかを理解しようとする「機械的解釈可能性(mechanistic interpretability)」の先駆的企業の一つです。テクノロジー業界のAIモデルの性能が急速に向上しているにもかかわらず、これらのシステムがどのように意思決定を行っているのか、私たちは依然としてほとんど理解していません。
たとえば、OpenAIは最近、o3やo4-miniといった新たな推論モデルを発表しましたが、これらは一部のタスクでより高性能を示す一方、他のモデルよりも「幻覚」(誤情報)を発生させやすい傾向があります。なぜそうなるのか、OpenAI自身も把握していないのです。
「生成系AIが何かを行うとき、例えば財務書類を要約するような場合でも、それがなぜ特定の単語を選び、なぜ通常は正確でも時にミスをするのかといった具体的な理由を私たちは理解していません」とアモデイ氏は述べています。
このエッセイの中で、Anthropicの共同創業者であるクリス・オラフ氏の「AIモデルは“構築される”というより“育てられる”ものである」という言葉も紹介されています。つまり、研究者たちはAIの知能を高める方法を見出してきましたが、それがなぜ効果をもたらすのかは明確ではないということです。
アモデイ氏は、AGI(汎用人工知能)に到達することが危険である可能性があるとし、「データセンター内に天才たちの国があるような状態」と表現しました。以前のエッセイでは、業界が2026年か2027年にはこのようなマイルストーンに到達すると予想していましたが、AIモデルの完全な理解にはまだまだ時間がかかるとしています。
長期的には、Anthropicは最先端AIモデルに「脳スキャン」や「MRI」のような検査を行えるようにしたいと考えています。これらのチェックにより、AIの虚偽や権力志向などの傾向、あるいはその他の弱点を識別できるようになるとのことです。実現には5年から10年かかる可能性がありますが、将来的なモデルをテスト・運用するにはこうした措置が必要だと述べています。
Anthropicはすでに、AIモデルの動作をより深く理解するためのいくつかの研究的ブレイクスルーを成し遂げています。たとえば、同社は「回路(circuits)」と呼ばれる経路を通じてAIの思考の流れを追跡する手法を発見しました。その中には、AIがアメリカの都市と州の関係を理解するのに使う回路も含まれています。同社はこうした回路をいくつか特定しましたが、AIモデル内部には何百万もの回路が存在すると見積もっています。
また、Anthropicは解釈可能性研究を自ら行っているだけでなく、この分野に取り組むスタートアップへの初の投資も行いました。解釈可能性は現在、安全性の研究領域とみなされていますが、アモデイ氏は、最終的には商業的優位性をもたらす可能性があるとも述べています。
アモデイ氏はこのエッセイで、OpenAIやGoogle DeepMindに対しても、この分野の研究を強化するよう呼びかけています。さらに、政府に対しては、企業に安全・セキュリティ慣行の開示を求めるなど、解釈可能性研究を促す「ソフトな規制」を導入するよう提案しています。また、AI競争が制御不能になるリスクを減らすため、米国が中国へのチップ輸出に規制をかけるべきだとも述べています。
Anthropicは、OpenAIやGoogleとは異なり、安全性に重点を置く姿勢で知られています。他のテック企業がカリフォルニア州のAI安全法案(SB 1047)に反対した一方で、Anthropicはこの法案に対して控えめながらも支持を示し、安全報告の基準に関する提案を行っていました。
今回もまた、AnthropicはAIモデルの能力向上だけでなく、それを「理解する」ことに向けて業界全体での取り組みを促しているようです。