ミストラルAI、GPT 3.5に挑むために「Mixture of Experts」モデルを選択 – Decrypt

※本記事はPRを含みます

Mistral は、非常に効率的であるにもかかわらず、いくつかのベンチマークで5位にランクインしました。Mistral は、特にAI分野の変革的な技術セクターへの戦略的投資で知られるベンチャーキャピタル企業であるアンドリーセン・ホロウィッツ(a16z)から、大規模なシリーズA投資を受けました。NvidiaやSalesforceなどの他のテックジャイアンツも、この資金調達ラウンドに参加しました。

アンドリーセン・ホロウィッツは、資金調達の発表で「Mistralは、オープンソースAIを中心とした小さなが情熱的な開発者コミュニティの中心に位置しています。コミュニティで微調整されたモデルは、現在オープンソースのリーダーボードを支配しており(一部のタスクではクローズドソースのモデルをも凌駕しています)」と述べています。

Mistralは、スパース混合専門家(MoE)と呼ばれる技術を使用しており、このモデルは、先代のMistral 7bよりもパワフルで効果的です。さらに、よりパワフルな競合モデルに対しても効果的です。

混合専門家(MoE)は、開発者が複数の仮想エキスパートモデルをトレーニングまたは設定して複雑な問題を解決する機械学習技術です。各エキスパートモデルは特定のトピックや分野でトレーニングされます。問題が提示されると、モデルはエージェントのプールからエキスパートグループを選び、それらのエキスパートは自身のトレーニングを利用して、どの出力が自分の専門知識に合うかを決定します。

MoEは、ディープラーニングモデルの能力、効率性、および精度を向上させることができます。これこそがMixtralを他のモデルとは異なる、700億のパラメータを用いたモデルと競争することができる秘密のソースですが、Mixtralは、合計で46.7Bのパラメータを持ち、1つのトークンあたりにつき12.9Bのパラメータを使用しています」とMistral AIは述べています。「そのため、それは12.9Bのモデルと同じ速度で入力を処理し、出力を生成します。

ミストラルAIは、公式のブログ投稿で「Mixtralは、ほとんどのベンチマークでLlama 2 70Bを上回り、6倍高速な推論を実現し、多くの標準的なベンチマークでGPT 3.5と同等またはそれを凌駕します。」と述べています。

また、Mixtralは許容範囲のあるApache 2.0ライセンスの下で利用できます。これにより、開発者はモデルを自由に調査、実行、変更、さらにはカスタムソリューションを構築することができます。ただし、Mixtralが100%オープンソースかどうかについては議論があります。Mistralは「オープンウェイト」のみを公開したと述べており、コアモデルのライセンスによって、Mistral AIとの競合利用が制限されています。

このスタートアップは、モデルの作成に使用されたトレーニングデータセットやコードも提供していません。これはオープンソースプロジェクトの場合には提供されるべきです。ミストラルAIは、「Mixtralは、英語以外の多くの外国語でも非常に優れた性能を発揮するように微調整されています。”Mixtral 8x7Bは、フランス語、ドイツ語、スペイン語、イタリア語、そして英語を使いこなし、標準的な多言語ベンチマークでも高得点を獲得しています」と述べています。

また、Mixtral 8x7B Instructという指示されたバージョンもリリースされ、MT-Benchベンチマークで8.3の最高得点を達成しました。これにより、現在のベンチマークで最も優れたオープンソースモデルになっています。

Mistralの新モデルは、革新的なスパース混合専門家アーキテクチャ、優れた多言語能力、完全なオープンアクセスを約束しています。そして、これが創設後わずか数か月で起こったことを考えると、オープンソースコミュニティは興味深くも面白い時代を迎えています。

MixtralはHugging Faceを介してダウンロードすることもできますが、オンラインで指示バージョンを使用することもできます。

出典

【最新】仮想通貨をタダでもらう方法
詳細はこちら
【最新】仮想通貨をタダでもらう方法
詳細はこちら
タイトルとURLをコピーしました