アルゴンヌ国立研究所とシカゴ大学の共同研究によって開発された大規模言語モデル「GenSLMs」が注目を集めています。GenSLMsは、COVID-19を引き起こすSARS-CoV-2ウイルスの実世界の変異に非常に近い遺伝子配列を生成する能力を持っているため、複雑な遺伝子パターンに対するAIの高度な理解を示しています。GenSLMsはまた、1億1000万以上のゲノムデータに基づいて訓練されており、ゲノム配列を分類しクラスタリングすることができます。
「AIが最近のCOVID株に存在する遺伝子変異の種類を予測できる能力は、その能力の優れた検証です。」とアルゴンヌのリード研究者であるアルヴィンド・ラマナサンはNvidiaから提供された公式な声明で述べています。この研究においてNvidiaは、ヌクレオチド配列の広範なデータセットを処理する際に重要となるNVIDIA A100 Tensor Core GPUを搭載したスーパーコンピュータを提供しました。
大規模言語モデルの遺伝学への影響
GenSLMs、Ankh、CancerGPTなどの医学に特化した大規模言語モデルは、現代の遺伝学研究における重要な進展を表しています。これらのAIシステムは膨大なテキストデータから学習し、文脈に即した言語パターンを予測・生成します。遺伝学では、これは複雑な遺伝子配列の分析と解釈を可能にし、言語分析と非常に似ています。この革新的なLLMの適用により、遺伝子配列の深い理解が、疾患マーカーの同定や個別化医療の進展につながる重要な成果をもたらしています。
AnkhはバイオテックスタートアップのProteineaと共同開発したミュンヘン大学とコロンビア大学によるもので、タンパク質の言語に取り組んでいます。一方、CancerGPTはテキサス大学とマサチューセッツ大学の共同プロジェクトであり、LLMを使用してがん治療における薬物相互作用を予測します。これらの研究は、大量の遺伝子データからの処理と洞察を見出す方法における大きな変革を示しています。
Nvidiaは、GenSLMsがウイルス変異を予測する能力により、COVID-19などの疾患のワクチン開発や治療戦略に新たな可能性を開くと主張しています。Ankhの薬物開発やCancerGPTのがん治療の理解は、よりターゲットを絞った効果的な医療介入の道を開いています。