読者の皆様へ: あなたのリクエストに応じて、大切な情報を見逃すことなく、ノイズを減らす機能を開発しました。お気に入りのトピックを選択して、メールとウェブで通知をもらいましょう。
San Francisco QConカンファレンスで、AIの未来に関するパネルディスカッションが行われ、今日のマシンラーニングが直面する課題について話し合われた。話題となったのは5つの領域だ – 現在のAIが直面する重大な問題、テクノロジは人材雇用をいかに変えるか、非技術系企業が現在のテクノロジを活用する方法は、AIに関する人の役割とは、間もなく現れるであろう新たなブレークスルーは何か。
ディスカッションには、Salesforce EinsteinのシニアディレクタであるShubha Nabar氏によるモデレートの下で、マシンラーニングとGoogle CloudのシニアデベロッパアドボケートであるMelanie Warrick氏、Stitch FixでAIチームのマネージャを務めるChris Moody氏、GitHubプロダクトディレクタのMitu Han氏、Salesforce Einsteinの上級データ科学者であるKevin Moore氏、FacebookのエンジニアリングマネージャのReena Philip氏がメンバとして参加した。
AIが直面する重大な問題
Warrick氏にとって大きな問題は、モデル構築時のデータバイアスを排除することにある。このバイアスは、構築したモデルに基づくプロダクトやサービスに影響するからだ。
また、何人かのパネリストは、AIを取り巻く宣伝の誇大さに対して懸念を述べていた。標準的なマシンラーニング技術は、ほとんどの企業にとって十分なものだ、とMoody氏は述べ、関連する2つの記事をStich Fixブログから紹介した。
Han氏は、自動コーディングが明日にでも実現すると考えている投資家と、いまだにそれが実現していない現実との断絶について話した。断絶はマシンラーニングコミュニティとソフトウェア開発者との間にもある。データの構造、データの背景となる標準のあり方、高品質なデータを入手することの難しさ – 特にGitHubが重視するセキュリティに関するユースケースについて、などだ。
Moore氏が指摘したのは、マシンラーニングに詳しくないが、その結果を利用する必要のある人たちに対して、モデルが何をするものかを説明するという非常に難しい問題だ。アルゴリズムに大きな偏りがないことを人々に納得させるのは、その問題のひとつと言える。
氏はさらに、データの民主化(democratization)の皮肉な一面についても触れた。マシンラーニングを使えば、悪意のある者が偽の声色で何かを行なったり、誤った情報を広めることが簡単にできるようになるのだ。マシンラーニングと戦うためのマシンラーニングを展開できないだろうか、というのが氏の意見だ。
ディープラーニング vs 従来型マシンラーニング
ディープラーニングは企業の問題に対するアプローチをどのように変えたのだろう?最先端企業の雇用習慣はディープラーニングによって変わったのだろうか?
Stich Fixでは、ディープラーニングによって獲得した価値はほとんどない、とMoody氏は言う。同社の知見の大部分は、ドメインに対する慎重な理解と単純化とを根源としている。ディープラーニングは、巡回セールスマン問題とは違う(一方通行などの)制約下において、出荷するアイテムをまとめるための最短経路を検索する、というように、別の分野で使用されているのだ。
Warrik氏によると、Pythonが技術的スタックの中心的となっており、大部分のツールはそのプラットフォーム上に構築されている。また、集中講座によるデータサイエンス学位取得者と従来型の開発者が混在している、とも述べていた。
Stich Fixは違う文化を持っている。同社では技術者がETLを書くことはなく、データ科学者のみがモデルの構築、運用へのデプロイ、分析を行なう。技術者はABテストモジュールや運用モデルの監視、デプロイメントプロセスといった、科学者が使用するLEGOブロックの開発を担当する。データ科学者は、すべての操作をエンドツーエンドで実行可能でなければならない。これは勢い、保守運用モデルに単純化の傾向を持たせることになる。ディープラーニングがプロセスを変えているのではないのだ。
Googleではすべてのプロダクトでディープラーニングとマシンラーニングを使用している、とWarrik氏は言う。イメージ分析やマシンラーニング、さらに検索は、ディープラーニングによって大きな影響を受けた。強化学習(Reinforcement learning、ディープマインド)は、データセンタの冷却を40%削減するために使用されている。
Facebookでは、2年間まで マシンラーニングはあまり浸透していなかった、とPhillip氏は言う。現在は各チームに、データから得られる可能性のある洞察を探すデータ科学者と、モデル構築に重点を置くマシンラーニング技術者が参加している。マシンラーニングに関する基礎研究も行っている。ディープラーニングはシステムの安定化に有効だ、とShubha Nabar氏は考えている。従来ならば数多くのシステムを構築する必要があったものを、任意のデータを使って置き換えることが可能になるからだ。
ディープラーニングと企業
最先端に位置しない大企業や中小企業は、マシンラーニングの喧伝にどう対処すればよいのだろう?
中小企業はデータ科学者をスタッフとして雇用していない場合が多い、とMoore氏は指摘する。それにも関わらず、彼らには解決すべき明確な問題や、効率化が望まれる特定のビジネスプラクティス、予測したい問題がある。彼らの抱える問題は、すべてのデータが一ヶ所にまとまっていないことと、そのデータがよくない場合があることだ。外部のコンサルティング会社を雇うか、あるいはGoogle、Amazon、Microsoft、Salesforceなどベンダ製品を活用する必要があるだろう。どのベンダ製品を選択するかは、一般的にデータを保存する場所によって決まる。場合によっては、必要なものに最もよくマッチするベンダ製品を選択することになる。小規模な企業では、必要とは思われないデータを追跡する必要があるかも知れない。マシンラーニングアルゴリズムをトレーニングする際に、ラベルとして有効な場合があるからだ。
Shubha Nabar氏は、可能なものはすべて備えておくように勧めている。
Han氏によると、GitHubはいくつかの点では進んでいるが、そうでない部分もある。同社の関心は、データによってソフトウェア開発プロセスがどのように変わるのかにあるが、投資家の過剰な期待とも戦わなくてはならない。投資家は、自律的プログラミング(autonomous programming)によって、プログラム自身がプログラムを書く時代が今にも来ると信じているが、我々の生きている間にこれが実現する可能性は低い、とHan氏は主張する。反対に、仕事を探している開発者にこの投資家の期待を伝えるならば、彼らは立ち去って他の仕事を探すようになるだろう。
最初のステップは、既存コードに対する提案と最適化を行うことだ。これを実現する上で最大のアドバンテージとなるのは、GitHubがおそらくは世界最大のソフトウェアデータセットである点だ。難しいのは、コードと継続的な統合ログにデータ科学を適用する方法を見出すことで、これには相当な時間を要するだろう。現時点では、ディープラーニングを適用するまでには達していない。
同社では、マシンラーニングチームが構築したモデルに基づいて、まずは潜在的なセキュリティ問題の検出に着手する予定である。その他に有望なのは、コードの意味的な正しさの検証、パフォーマンスに関する推奨、あるいは依存関係の分析によるコード変更時の影響範囲の判断、といった分野だ。マシンラーニング管理のスタートアップの世界が活況を呈しているため、マシンラーニングモデルの導入やテスト、ロールバック、共同作業を可能にするような、ワークフローに統合された優れたツールへの期待が大きい。
人間の関与とモデル構築
人間がマシンラーニングのプロセスの一部でなければならない、とWarrick氏は主張する。バイアスを回避するためには、問題に対するアイデア、観点、考え方の多様性が必要だ。データと解決する問題のタイプ、モデルから何が欠落しているか、などを明確にしなければならない。
Moody氏の説明によれば、Stich Fixでは、スタイリストに体形と好みを伝えるためにモデルを使用している。スコアや、あるいは他のモデルへの情報提供は目的ではない。スタイリストがその結果を使って顧客の言うことを理解できるように、解釈可能なモデルの構築が求められている。スタイリストの置き換えがStich Fixの目標ではないのだ。
GitHubでは、モデルに対するレビュアとして、マシンラーニングのループに人間が介在する必要がある、とHan氏は言う。悪意のあるアクタが存在するかを確認するためなどに必要なのだ。問題なのは、そのようなレビュアには誰もなりたがらないことだ。
学習ループに人が必要なのは根本的な間違いのないことを確認するためだ、とMoore氏は考える。同じように、データからビジネスプラクティスを推測することも困難である。モデルが生み出すものに価値のあることを検証するためには、少なくとも監視のために、人の介在は常に必要になるだろう。
Facebookで問題になっているのは、グループがそれぞれの観点でデータを見て、自分たちのニーズに合わせたラベル付けを行なっていることだ。別のグループが自分たちのニーズでそのデータを使用する時に、これが問題になる。テキストやオーディオ、ビジュアルコンテンツのデータアノテーションの集中化を検討している、とPhillip氏は述べていた。
新たなブレークスルーへの期待
最後にパネリストたちは、将来的に予想される展開について自身の考えを述べた。
Moody氏は、ベイジアンとディープラーニングの融合が、モデルにおける不確実性とバリエーションの一体化を可能にするという考えだ。Warrick氏は、強化学習と発生アルゴリズムによって未知の問題が解けるようになるだろう、と話した。Phiilp氏は、メタデータを介在しない、ビデオとオーディオとテキストの結合モデリングによるバイオレンスの識別に関心を持っている。さらに氏は、大学と民間企業が集まって、より多くのラベル付きデータセットを共有することによって、より多くの共同研究が可能になり、最先端技術の進歩の加速が実現することを希望していた。Moore氏は、強化学習によって、ある程度のレベルのビデオゲームであれば、事前にゲームに関する知識がなくても学習可能である(AlphaGo Zero)ことを指摘した。