BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Prashanth Southekal氏、アプライドマシンラーニングを語る

Prashanth Southekal氏、アプライドマシンラーニングを語る

原文(投稿日:2019/04/15)へのリンク

DBP InstituteのマネージングプリンシパルであるPrashanth Southekal氏は、先月のEnterprise Data World 2019カンファレンスで、アプライドマシンラーニング(applied machine learning)と、さまざまなMLアルゴリズムの利用機会に関するワークショップを開催した。

マシンラーニング(ML)によって、コンピュータは、大量のデータセットを使用して自動学習した結果を適応することが可能になる。Southekal氏はまず、5つの主要な分析タイプと、3つのマシンラーニングのタイプについて話した。さらにディシジョンツリーやサポートベクタマシン(SVM)、ロジスティック回帰線形回帰クラスタリングなどのMLアルゴリズムについても説明した。

InfoQはSouthekal氏に、カンファレンスでの氏のセッションと、アプライドマシンラーニングの分野におけるデータ分析について聞いた。

InfoQ: どのような方法でデータを分類して、それぞれのデータにどのような種類の分析を行なうのでしょうか?

Prashanth Southekal: 一般的にデータ、特にビジネスにおけるデータは、大きく3つのタイプに分類することができます。まずデータの保存と処理の観点から、構造化データと非構造化データに分類できます。次に、データ統合の観点から見れば、ビジネスデータは、工場や地域といったカテゴリを管理する参照データ、ベンダや製品などビジネスエンティティを管理するマスタデータ、発注や請求書といったビジネスイベントを捕捉するトランザクションデータに分けられます。3番目にはデータ分析の観点から、商品説明のようなカテゴリ管理のための名目データ、支払条件や提供優先度などの順序付きデータセットをキャプチャするための順序データ、価格と数量を扱うための連続データに分類できます。

次に、質問の2番目の部分である、各タイプのデータにどのような分析を実行するか、という点ですが、私の考える分析とは、自分が抱えている疑問に基づいてデータを使用することです。従って、自分の持っている疑問が、分析においては非常に重要です。疑問に対する回答はアルゴリズムから得られます。そのアルゴリズムの選択は、データ型に基づいて行われます。たとえば、"出荷品は時間どおりに配達されるだろうか?"という疑問であれば、答はロジスティクス回帰アルゴリズムを使って導き出され、"はい/いいえ"で回答されます。一方で、疑問が"出荷品が配達されるのにどれくらい時間がかかるだろうか?"である場合には、その答は、線形回帰アルゴリズムを使って導き出された数値になるでしょう。

InfoQ: データ品質のディメンションと、それがデータ品質にどのように影響するかについて、少し説明して頂けますか?

Southekal:データ品質(Data Quality)とは、与えられたコンテキストで目的を果たす上での、データ適合性の評価値です。私の見解では、完全性、一貫性、妥当性、濃度(Cardinality)、正確性、適切性、アクセシビリティ、セキュリティ、適時性、冗長性、対象範囲、完全性という、12のデータ品質ディメンションがあります。私の著書"Data for Business Performance"では、これらデータ品質の側面について詳しく説明しています。ただし、データの品質とは、これら12の次元すべてを常に満たす必要がある、という意味ではありません。データ品質ディメンションの選択は、適合性、目的、およびコンテキストによって異なるのです。

InfoQ:MLソリューションを選択する際の考慮事項は何ですか?

Southekal:私の考えでは、4つの重要な基準を満たせば、そのソリューションはMLソリューションであると見なされます。

  1. アウトプットが継続的に改善されること。すなわち、MLアルゴリズムへのデータ取り込みが継続していること。
  2. アウトプットの導出と適用に対して、人の介入(HUMAN INTERVENTION)が最小限(ないしゼロ)であること。
  3. ソリューションが将来の状態(FUTURE STATE)に対処できるために、アウトプットは蓋然的(PROBABILISTIC)であること。
  4. アウトプットは、おもに(エンティティあるいはカテゴリにおける)イベントないしトランザクションに関する疑問に対する答を与えるものであること。

InfoQ: ワークショップで取り上げた4種類のMLアルゴリズム — 回帰(Regression)、分類(Classification)、クラスタリング(Clustering)、関連付け(Association)について、説明をお願いします。

Southekal: MLアルゴリズムは何百もありますが、私がこの4つのMLアルゴリズム、すなわち回帰、分類、クラスタリング、関連付けを選択したのは、これらがビジネスにおいて、ごく一般的に使用されているものだからです。

  1. 回帰アルゴリズムは、独立変数のセットに基づいて従属変数の値を予測する上で有用です。
  2. 分類アルゴリズムは、受け取った入力データから、観測情報(observation)を適切なグループに分類します。
  3. クラスタリングアルゴリズムは、いくつかの類似条件に基づいて、一連の観測情報をクラスタに割り当てるのに役立ちます。
  4. 関連付けMLアルゴリズムは、項目が相互に、どのように関連付けられているかを明確にします。

InfoQ: マシンラーニング技術を学びたいデータベース専門家に対して、何かアドバイスはありますか?

Southekal: 自身と自身の会社にとって、アクセスや獲得が容易な技術を選択してください。例えば、SAP ERPで調達業務を行っている会社で働く調達スペシャリストならば、BI / BOBJLeonardoといったSAPの分析ツールを活用することをお勧めします。分析に必要なデータはすでにSAP環境にありますし、SAPエコシステムにもアクセスできるからです。これからキャリアを始めるのであれば、RPythonを試してみてください。どちらも大規模なコミュニティを持つオープンソースのツールです。いずれの場合においても、問題へのツールの適用方法が重要です。ツール自体を学ぶことが目的ではありません。また、技術スキルと同時に、統計学と線形代数に関する十分なスキルを身に付けるようにしてください。記述的分析(Descriptive Analytics)には統計学が、予測分析(Predictive Analytics)には線形代数と統計学が、それぞれ必要になります。また、インターネット上を探せば、無償の優れた学習教材がたくさんあります。高額なコースに登録する前に、まずはそれを試してみてください。

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT