マイクロソフトはモデルビルダーに「Sentence Similarity」シナリオを追加する情報を公開した。このシナリオは文章の類似度モデルのトレーニングを可能にするものだ。このシナリオがモデルビルダーに追加されたことと合わせて、モデルビルダー GPU extensionをインストールする必要がなくなった。さらにマイクロソフトはdeep learning、LightGBM algorithm、AutoMLの分野での開発について、今後数ヶ月の作業について通知している。
数ヶ月前にマイクロソフトはpreview version of the Sentence Similarity APIをリリースした。これはカスタムデータを使って文章の類似性に基づく機械学習モデルを訓練する方法を提供しTorchSharpのNAS-BERT実装をML.NETに統合することで実現されている。これはText Classification APIで使用されているものと同じトランスフォーマーをベースとしたモデルだ。このモデルの事前学習済みバージョンを適用し、文章の類似性APIはカスタムデータを活用してモデルの微調整をする。
このシナリオを使用するにはモデルビルダーをインストールするか、最新のバージョン16.14.4へアップグレードする。文章の類似性シナリオはCPUとGPUの両方でローカルトレーニングをサポートしている。GPUの場合CUDA-compatibleのGPUが必要である。GPUの設定に関する詳細はML.NET GPU guideに記載されている。
モデルビルダーのバージョン16.14.4からGPU extensionのインストールが不要になった。以前のバージョンではGPUをサポートするために、ハードウェアの要件を満たし、適切なドライバをインストールすることに加えてGPU extensionをインストールする必要があった。
このシナリオの追加は、コミュニティから好意的なフィードバックを得た。例えば、Redditのユーザーは、これは以前から取り組んでいるソリューションであり、自分のプロジェクトでこのシナリオを適用する予定だと書いている。
マイクロソフトはさらに、今後数ヶ月間の機械学習ソリューションの開発計画について発表した。まず、deep learningのシナリオを拡張する予定だ。この範囲には、物体検出、質問応答、名前付きエンティティ認識のためのテキスト分類や文章の類似性などのシナリオAPIが含まれる。もう1点は、ML.NETでサポートされるLightGBMのバージョンを更新し、LightGBMモデルをnative formatでロードできるようにして相互運用性を向上させることに関するものである。また、機械学習ワークフローを簡素化するための新しいシナリオやカスタマイズを可能にするため、来年にかけてAutoML APIのさらなる改良が予定されている。
変更点の全リストは、リリースノートに掲載されている。