Q*とQ学習とは何ですか?AIの恐怖によってOpenAIは崩壊しかねなかったかもしれない – Decrypt

※本記事はPRを含みます

昨年、AIへの世界的な関心を引き起こしたOpenAIは、CEOのサム・アルトマン氏の突然の解任と最終的な復職という出来事で、注目を浴びることとなりました。アルトマン氏は元のポジションに復帰しましたが、舞台裏で何が起きたのかという疑問の嵐は残っています。それはまるでHBOの「サクセッション」または「ゲーム・オブ・スローンズ」のような戦いと表現されることもありました。

また、アルトマン氏がWorldcoinなどの他の企業に焦点を移したためであるとも噂されました。しかし、最新で最も説得力のある理論は、1つの手紙、「Q」が原因でアルトマン氏が解任されたというものです。匿名の情報筋によれば、OpenAIのCTOであるミラ・ムラティ氏は、「Qスター」または「Q*」と呼ばれる重要な発見がアルトマン氏に対する措置のきっかけとなったと述べたと報道され、この解任はOpenAIの会長であるグレッグ・ブロックマン氏の参加なしで実行され、ブロックマン氏は抗議のためにOpenAIを辞任しました。

では、「Q*」とは一体何であり、なぜ私たちが気にする必要があるのでしょうか?それはAIの開発が今後どのような方向を取るかに関する最もありそうな道筋に関するものです。OpenAIのCTOであるミラ・ムラティ氏が引用した謎めいた「Q*」により、AIコミュニティでは憶測が広まっています。この用語は、2つの異なる理論のどちらかを指す可能性があります:Q学習またはメリーランド反証証明手続きシステム(MRPPS)のQ*アルゴリズムです。

これら2つの違いを理解することは、Q*の潜在的な影響を把握する上で重要です。Q学習は強化学習の一種で、AIが試行錯誤によって意思決定を学ぶ方法です。Q学習では、エージェントはアクションと状態の組み合わせの「品質」を推定することで意思決定を学びます。

このアプローチとOpenAIの現在のアプローチである「人間のフィードバックを通じた強化学習」との違いは、人間との相互作用に依存せず、すべてを自己完結で行うことです。例えば、迷路を進むロボットを想像してみてください。

Q学習では、ロボットは異なる経路を試して、出口への最短経路を見つけるために、デッドエンドにぶつかった場合には負の報酬、出口に近づくと自己の設計によって正の報酬を受けます。時間の経過とともに、試行錯誤によってロボットは迷路内の各位置から最適な行動を示す戦略(「Qテーブル」)を開発します。このプロセスはロボットとその環境との相互作用に依存しており、自律的に行われます。

もしロボットが「人間のフィードバックを通じた強化学習」を使用した場合、ロボットが分岐点に到達した際に人間が介入して、ロボットの選択が賢明であったかどうかを示します。このフィードバックは、直接的な命令(「左に曲がる」)、提案(「光のある道を試してみてください」)、あるいはロボットの選択に対する評価(「良いロボット」または「悪いロボット」)の形式で行われます。Q学習では、Q*はエージェントが時間の経過に伴い、全体的な期待報酬を最大化するために各状態で最適な行動を取ることができる状態を表します。数学的には、それはベルマン方程式を満たすことを意味します。

OpenAIは5月に記事を公開し、「正しい推論の各ステップに報酬を与えることで、数学的問題解決の最新技術を実現するためのモデルを訓練しました」と述べました。もし彼らがこれを実現するためにQ学習または類似の方法を使用した場合、それはChatGPTがネイティブに解決できるようになる新たな問題や状況の系統を解き放つことになるでしょう。Q*アルゴリズムはメリーランド反証証明手続きシステム(MRPPS)の一部です。

これはAIにおける定理証明のための洗練された方法であり、特に質問応答システムにおいて有効です。「Q*アルゴリズムは探索空間でノードを生成し、探索を指示するために意味論的および文法論的な情報を適用します。これにより、パスは中止され、有益なパスが探索されることが許されます」と研究論文には記載されています。

このプロセスを説明する1つの方法は、架空の探偵シャーロック・ホームズが複雑な事件を解決しようとする様子です。彼は手がかり(意味論的な情報)を集め、それらを論理的に結び付け(文法論的な情報)結論に至ります。Q*アルゴリズムはAIにおいても同様に機能し、意味論的および文法論的情報を組み合わせて複雑な問題解決プロセスに対処します。

これは、OpenAIがテキストのプロンプトにとどまらず、その現実をより理解できるモデルに一歩近づいていることを意味します。このため、「Q」はAIの進歩において重要な存在であり、より直感的で効率的で、現在は高度な人間の専門知識が必要なタスクに対応する能力を持つAIシステムに近づける可能性があります。ただし、このような進歩に伴い、AI倫理、安全性、日常生活および社会全般におけるますます強力なAIシステムの影響に関

出典

【最新】仮想通貨をタダでもらう方法
詳細はこちら
【最新】仮想通貨をタダでもらう方法
詳細はこちら
タイトルとURLをコピーしました