解説 ビジネスデータアナリティクス (5)

BDAの領域 3: データを分析する

「データを分析する」領域には、データ分析をどのように実行するかを決定することですが、それにはどのモデルや数学的テクニックもしくは統計的テクニックを利用するかを決めなければいけません。「データを分析する」領域では分析用にデータを準備し、 データ分析を実施し、 アナリティクスのソリューションや結果がビジネス課題に答えることに役立っているかを判定します。この領域ではビジネスアナリシス専門職はアナリティクス・モデルの実行を自分で担当するよりも、データサイエンティストの支援に回ることが多いです。つまり、データサイエンティストとビジネスアナリシス専門職の強力なコラボレーションによって、アナリティクス作業が適切なビジネス上のコンテキストに沿って実施されることを確実にします。

「データを分析する」領域でのタスクをは以下の通りです。

  1.  データ分析の計画を立てる
  2.  データを準備する
  3.  データを探索する
  4.  データ分析を実施する
  5.  採用したアナリティクスとシステム・アプローチを評価する

BDA_データを分析する_2021年11月22日

1.データ分析の計画を立てる

データ分析計画を立てる際にアナリストは以下のことを決めます。

  •  データサイエンティストが使用しようとしている数学的テクニックや統計的テクニック
  •  どの統計的モデル、アルゴリズム・モデルを利用するか(回帰、ロジスティック回帰、デシジョン・ツリーまたはランダムフォレスト、サポート・ベクター・マシン、ニューラルネット)。
  •  利用するデータソースは、どのようにデータを関連付けしジョインするか。
  •  データの前処し、クリーニングの方法。

ビジネスアナリシス専門職は計画への洞察を与え、データサイエンティストによるレビュー用の初期計画のドラフトを作成します。データ分析深い技術的専門性を持っているのはデータサイエンティストです。効果的なデータ分析のアプローチが計画できるようにアナリシススキルが適用されます。

典型的なモデルやテクニック。

  • 最少二乗回帰
  • ARIMA (Auto Regressive Integrated Moving Average)自己回帰和分移動平均法
  • デシジョン・ツリー
  • ランダムフォレスト
  • ロジスティック回帰
  • k近傍法
  • ナイーブ・ベイズ
  • SVM(Support Vector Machine:サポート・ベクター・マシン)
  • パーセプトロン

2.データを準備する

いわゆるデータ・クレンジング作業を行います。

主にデータサイエンティストが行うタスクで、データ間に存在する関係性を理解します。二つのテーブルは0対1、1対1、1対多、のどの関係か。データソース間の結合またはリンクの確立、データの正規化、標準化、スケーリング、データの変換もあります。収集したデータがそのままでは使えないためデータを補正したり削除したり、すなわちデータ・クレンジングを行うこともあります。

  • データサイエンティストは、アナリティクス・イニシアチブで使用するデータを準備する際に、強力な技術的スキルと統計学の知識を使用します。
  • アナリストはデータのためのビジネス上のコンテキストを提供します。ファシリテーション、コラボレーションや引き出しのスキルにより情報を補完できます。

3.データを探索する

詳細なデータ分析作業を実行する前に、正しいデータのタイプと品質が得られていることを確認するための品質チェックでデータサイエンティストの責務ですが、ビジネス・ドメインの理解が必要なのでビジネスアナリシス専門職が支援します。

データサイエンティストは、データの品質を評価し、以下のチェック・ポイントを用いて対応の方向性を決定します。

  •  データ完全性:データは構造的に正しいか。
  •  データ妥当性:データは本当に基礎となる構成要素を代表するものか。
  •  データ信頼性:複数回データを収集したときに、同じ結果を得られるか。
  •  データの偏り:データは与えられた状況を正確に描写しているか。

探索的データ分析活動は、データ準備活動よりも複雑な作業で、これによりアナリストやデータサイエンティストは、潜在的なデータのギャップや変数間の相互関係を発見する機会をみつけ、複数の統計的検定を行ってデータが調査課題に適しているかどうかを判断します。

データサイエンティストとビジネスアナリシス実践者との継続的なコラボレーションによって、ビジネスアナリシス実践者が保有する業界やビジネス・ドメインの知識とデータサイエンティストが作成した分析結果を組み合わせて、その結果がビジネス課題への回答に役立っているかどうかを判断します。

4.データ分析を実施する

探索的分析によってデータ品質の問題が解決された後に実行される広範で深い分析です。データ分析の実施には、数学や統計学を応用すること、そしてさまざまなステークホルダーのための調査課題への回答に関連した広範な数学的分析を完了します。

データサイエンティストは広範な数学的スキルを必要とする専門的なテクニックを使用します(たとえば、相関ルール学習、デシジョン・ツリー分析、k平均法など)。 機械学習や人工知能の活用など、データサイエンティストの分析能力を向上させる多くのテクニックがあります。予測や見通しを得るための回帰分析。シミュレーションは、一連の手順や振る舞いを再現するために使用します。

データサイエンティストは業界やビジネス・ドメインの知識を利用しますが、その知識がないときは、ビジネスアナリシス専門職のスキルを活用します。

5.採用したアナリティクスとシステム・アプローチを評価する

アナリティクス・アプローチの評価は、「データを探索する」と「データを分析する」を使って反復的に行います。
使用するデータソースにデータサイエンティストが納得するまで、データ探索とデータ分析のタスクが反復されます。データへの評価は、得られたデータの質と、調査課題に答えることへの価値に基づきます。
ビジネスアナリシスの専門家が必要なものはつぎのとおりです。:

  • 統計学の基本的なスキルと、データサイエンスのツールとテクノロジーの基本的な理解
  • データ分析にコンテキストを提供するためのビジネス感覚
  • データサイエンティストがビジネスに関連して提起する質問に答える。

 

次回は領域4「結果を解釈し報告する」です。