スイス連邦工科大学ローザンヌ校(EPFL)とテキサス大学オースティン校(UT)の研究者らは、ロボットマニピュレータの動作軌道の修正が可能なブレイン・コンピュータ・インターフェースを開発した。逆強化学習(inverse reinforcement learning、IRL)を使用することにより、5回程度のデモンストレーションでユーザの意思を学習することができる。
NatureのCommunicartions Biologyジャーナルに掲載された論文には、システムと一連の実験に関する説明がある。研究の目標は、BCIを使ってコントロールの可能なアシストロボットを開発して、麻痺患者を支援することだ。研究チームは、ジョイスティックを使ってロボットマニピュレータを操作しているユーザの脳波(EEG)と脳電図(EOG)信号を記録した。ロボットのソフトウエアには、半自律的な障害物回避ルーチンが含まれている。このルーチンのパラメータを、EEGおよびEOG信号からデコードされた信号であるエラー関連電位(error-related potentials)に基づいたIRLを使って更新することにより、ロボットは、ユーザに不快感を与えることなく、壊れやすい障害物に接近できる範囲を学習した。研究リーダのAude Billard氏によれば、
ロボットが[脊髄損傷者に代わって]作業を行うことができれば、失われた手先の動作を取り戻すための支援ができるかも知れません。
BCIデバイスは一般的に、体内のインプラントや、EEG電極のような外部センサを使用して神経活動の計測を行う。このセンサ情報をコンピュータ入力として使用可能な信号に変換して、ユーザが物理的に不可能な作業を行うように、コンピュータやロボットをコントロール可能にすることが目標だ。そのためには、ユーザが物理的な行動の実行をイメージする必要がある。その結果として発生する神経活動をBCIが検知して、コンピュータ入力に変換することが可能になるのだ。
BCIでロボットマニピュレータに直接指示する場合には、ユーザが常にマニピュレータを"コントロール"する必要があるため、時間や疲労を伴う可能性がある。そのため、Billard氏のチームでは、半自律的なロボットマニピュレータを行動をBCIを使用して調整する方法を選択した。具体的には、ユーザのエラー関連電位(ErrP)によって、ロボットの障害物回避アルゴリズムの調整を行う。エラー関連電位とは、ユーザの予想以上にロボットが障害物に接近した場合に検出され、デコードされるEEG信号である。
このような調整を実現するため、研究者らは、IRLトレーニングアルゴリズムを実装した。学習エージェントの行動を報酬関数によって点数付けする一般的なRLアルゴリズムとは異なり、IRLは、一連のデモンストレーションから報酬関数と最適なアクションの両方を学習する。デモンストレーションは、ユーザがロボットマニピュレータに対して、障害物のある作業場所内を右や左に移動するように、ジョイスティックを使って指示することで行われる。マニピュレータが障害物に近づくと、ロボットはその障害物の回避を試みる。そこにユーザが介入して、ロボットが障害物を避けないようにすることで、BCIによって検知されたErrP信号が、報酬関数と障害物回避パラメータの調整に使用されるのだ。
一連の実験から研究者らは、わずか3回のデモンストレーションで、自分たちシステムがユーザの報酬関数を特定できることを確認した。さらに、このアプローチが"ErrPデコーダの持つ自然な変動性やパフォーマンスの準最適性に対して堅牢である"ことも指摘している。EEGセンシングにノイズが多いことを考慮すれば、これは望ましい特性だ。
マシンラーニング技術を用いたBCIデバイスの改良は、活発な研究分野である。InfoQでは2019年に、脳波を使用して音声合成を行う大学研究者らの取り組みや、自分が話している姿をイメージすることで"入力"するFacebook Reality Labのデバイスなどを紹介した。また2021年には、ビデオゲームをコントロールするワイヤレスBCIを取り上げている。
Billard氏のチームが使用したロボット障害回避とIRLのコードは、GitHubで公開されている。