BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース HuatuoGPT-o1: AIによる複雑な医療推論の進展

HuatuoGPT-o1: AIによる複雑な医療推論の進展

原文リンク(2025-01-15)

香港中文大学深圳校と深圳ビッグデータ研究所の研究者は、複雑な医療シナリオにおける推論を改善するために設計された医療用大規模言語モデル(LLM) HuatuoGPT-o1を発表した。このモデルは新しい2段階の訓練プロセスを使用して開発され、医療専門家が使用する診断アプローチに似た段階的な分析を通じて応答をリファインすることを目指している。

HuatuoGPT-o1の開発は、モデルの推論プロセスにおいてクリティカルシンキングと反復的なリファインを培うよう設計された、構造化された2段階アプローチに従った。

model

出典:https://arxiv.org/pdf/2412.18925

第一段階では、モデルは医療の質問に人間の専門家のようにアプローチするよう訓練された。問題に対する初期の試みから始め、異なる戦略を通じて推論を反復的にリファインさせた:

  • 新しい道を探る:答にたどり着くために新しいアプローチを試みる。
  • バックトラッキング:より良い解決策を見つけるために以前のアイデアを再検討する。
  • 検証:推論をチェックし、検証する。
  • 修正:論理を批判し、改善する。

このプロセスはモデルが正解に到達するか、試行が尽きるまで繰り返された。成功した推論ステップは、将来同様の問題に取り組む方法をモデルに教えるために、自然でわかりやすいナラティブに変換された。

第2段階では強化学習(RL)が、モデルの推論能力をさらに向上させるために用いられた。専門の検証者が正確でよく考えられた回答に報酬を与え、不正確または不完全な回答には罰を与えることでモデルを導いた。時が経つにつれ、このプロセスはモデルの高品質な推論と回答を生成する能力を向上させた。

このモデルは英語と中国語の両方をサポートするバージョンを含む、70億から720億のパラメータサイズのいくつかの構成 で利用可能である。

HuatuoGPT-o1はさまざまな医療ベンチマークで顕著な性能を示している。80億パラメータのバージョンはベースラインに対して8.5ポイント改善し、70億パラメータのバージョンはMedQAPubMedQAのようなデータセットで医療特化型の主要LLMを上回った。

benchmark

出典:https://arxiv.org/pdf/2412.18925

HuatuoGPT-o1の効率は注目されている。Neurolov AIのCEO Dhruv Panchal氏はこう述べた

このような革新的なトレーニング方法は、より少ないリソースで複雑な医療問題に取り組む方法を再構築する可能性があります。

しかし他のコミュニティメンバーはデータの質や公平性について懸念を示している。AIソリューションビルダー Cyrus S.氏はこうコメントした

限られたトレーニングデータでのHuatuoGPT-o1の効率性は注目に値しますが、データの質とバイアスの重要な役割を忘れてはなりません。私の経験では、最も先進的なモデルでさえ、偏ったデータセットでは効果がなくなるか、さらには有害になることがあります。以前、クレジットスコアリングのAIを開発していたプロジェクトを思い出しましたが、初期の結果は有望でした。しかし多様なデータセットでテストしたところ、特定の人口統計に対する重大なバイアスが見つかりました。この経験から、データの質がモデル自体と同じくらい重要であることを学びました。医療分野ではリスクはさらに高まります。既存の健康格差を悪化させないよう、これらのAIモデルが多様で代表的なデータセットで訓練されていることを確認する必要があります。倫理的および実際的な考慮事項に十分に対処せずに、生死に関わる決定をAIに委ねる準備ができているのでしょうか?公平性と平等性を確保するための安全策は整っているのでしょうか?

HuatuoGPT-o1のコード、モデル、トレーニングデータセットはGitHubHugging Face で公開されており、研究者や開発者はモデルをさらにテストし改良することができる。

作者について

この記事に星をつける

おすすめ度
スタイル

BT