BDAの領域 2: データを入手する
この領域の活動は、与えられた調査課題に必要なデータを決定するトップダウン活動です。組織のデータ・アーキテクチャーに関するテクニカル・スキルを持ち、異なるデータソースから関連するデータを取得、抽出できるスキルを持つ人が実行します。
- データサイエンティスト:データを変数であると見ます
- ビジネスアナリシスの専門家:データ変数の背後にある意味や組織にとってのそのデータの重要性を理解しています。
良い構成のチームは、ビジネスアナリシスとデータサイエンス双方のスキルを提供できる専門家が必要です。
この領域には次の4つのタスクがあります。
- データ収集を計画する
- データセットを決定する
- データを収集する
- データの妥当性を確認する
1.データ収集を計画する
どのデータが一番アナリティクスの問題に関係しているかを見極めます。
- 必要なデータは何か
- そのデータは取得可能か
- その履歴データは必要か
- いつどのようにデータを収集するのか
- 収集後どのようにデータの妥当性を確認するのか
アナリストは必要なデータを特定することで、データ専門家を支援します。
取得するべきデータの分類も重要です。
- 構造化データ:データベースのデータのように、整理され、フォーマット化されているデータ。SQLなどで簡単にアクセスできます。
- 非構造化データ:ワード・プロセッサー型の文書、eメール、ソーシャルメディア、音声やビデオ・ファイルのようなさまざまな形式を取ります。
データ収集の計画が作成されたら、データについて影響のあるステークホルダーがアナリティクス・チームと一緒に計画をレビューします。アナリストはチームを合意に向けてファシリテーションする責任があります。
2.データセットを決定する
データ・タイプ、データ・ディメンジョン、サンプル・サイズ、異なるデータ要素間の関係などの詳細を決定します。
5つのVの評価(volume:量、velocity:速度、variety:多様性、veracity:真実性、 value:価値)は、データセットを決定するのに役に立ちます。
- 量(volume):生成されるデータ量と処理が必要なデータセットの大きさ。
- 速度(velocity):データが生成される速度と、データを収集して処理する頻度。
- 多様性(variety):処理する必要のあるデータソース、フォーマット、およびタイプの多様性。
- 真実性(veracity):データの信頼性と、データの不確実性や不整合を表します。
- 価値(value):真に価値あるビジネス・ゴールの視点で考慮します。
3.データを収集する
いよいよデータを収集します。
データ収集にはおおきくわけてつぎの2つの種類。
・受動的データ収集:
日常のとランズアクションで得られるデータです。POSデータ、インターネット・ブラウザー、ウェブ、モバイルデータなどです。
・能動的データ収集:
特定の目的のためにステークホルダーに情報を求めることです。この種のデータは組織には最初からは存在しないものです。自由回答または選択肢型の質問によるサーベイも一つのやり方です。
4.データの妥当性を確認する
このタスクではではデータの妥当性確認とビジネスの妥当性確認を行います。
データの妥当性を確認:
計画されたデータソースが使用可能で、かつ使用すべきであること、そしてアクセス時には、取得データが期待されるタイプの結果を提供しているかどうかの評価をおこないます。ただし概要レベルです(まだ分析していないため)。
ビジネスの妥当性確認:
ビジネスのステークホルダーにデータソースを承認してもらい、データの正確性を評価するためのパラメーターを定義する受け入れ基準を確立してもらいます。
- 正確性:データは正しく、ソースによって意図されたものを表しています。
- 完全性:データは包括的で、不足しているものはありません。例:必須フィールドにNull値が含まれていないことを確認します。
- 一貫性:データ要素の値がソース間で同じであるとき、データ値は一貫性があります。例:日付フィールドに日付の値のみが表示されているのを確認します。
- 一意性:データが一意であることです。例:データに重複がないことを確認します。
- 適時性:古くなったデータよりも、新鮮で最新のデータの方が価値があります。例:受信されたデータが要求された期間のものであるかどうかを確認します。
データの妥当性確認は、結果を分析するための基礎的コンピテンシーを十分に備えたデータアナリスト、データサイエンティスト、またはビジネスアナリシスの実践者によって行われます。
ビジネスの妥当性確認は、アナリティクス・イニシアチブで使用するデータソースを承認する権限と、アナリストと連携してデータの正確性を評価する知識を持つ主要なステークホルダーによって行われます。
次回は領域「データを分析する」です。