MBAプログラムがデータサイエンス科目として教える５つのこと

MBAで網羅するデータサイエンス関連の科目について、ご紹介したいと思います。

数あるMBAプログラムにおいて、各校がどの程度データサイエンスに力を入れているのかは、学校によって様々です。今回は、MBAプログラムが取り扱うことの多い、データサイエンス関連の科目について触れてみたいと思います。

そもそも、MBAスクールでなぜデータサイエンスを教えるのか？という疑問については、【MBA】なぜビジネスリーダーにデータサイエンスが必要とされるのか？
にてご紹介しておりますので、併せてご覧ください。

データ分析を行うのに、数字を正しく理解できていなければ話になりませんので、統計学の基礎的な知識を授業で網羅します。

「そんな、数字くらい読めるよ～！」という声が返ってきそうですが、意外にも物事を間違って捉えてしまう数字の読み方をする方は多いです。

私が好きで引用する例に、「日本人の”平均”年収」があります。

国税庁の発表している、民間給与実態統計調査結果（令和元年）によれば、１年を通じて勤務した給与所得者の１人あたりの”平均”給与は、約436万円だったそうです。

これを聞いて、「大体そんなものだよね。」と思いましたか？

それとも、「え、意外に高いんだな…」と思いましたか？

いずれにせよ、約436万円という数字を聞いて、以下のようなグラフを思い浮かべた方は、注意が必要です。

このグラフは、給与の平均は約436万円で、なおかつ給与を436万円くらい貰っている人の割合が最も多い、ということを示すグラフです。

しかし、実態は異なります。

厚生労働省の発表した賃金構造基本統計調査から計算すると、１年を通じて勤務した給与所得者の１人あたりの給与の”中央値”は、約370万円になります。

つまり、給与分布の正しいグラフは下のようになります。

最も多く存在するのは、年収436万円の人ではなく、年収370万円の人だということです。

平均値というのは、極端な値（この例で言えば、年収を数千万円貰っている人のデータ）に影響を受けやすいため、平均値が中央値よりも大きくなってしまいます。

平均年収が約436万円と聞いて、「なるほど、じゃあ450万円前後の給与を貰っているのが最も多いんだな。」と解釈したあなたは、数字を読み違えている可能性がある、ということです。

数字が読めるようになるため（分析結果が何を意味するのか、分かるようになるため）に、MBAでは以下のような分野を勉強します。

興味のある方は、調べてみてください。

引用：https://iblnews.org/the-open-edx-platform-prepares-its-upgrade-into-python-3/

数字が読めるようになったら、データを分析してパターンを見出したり、未来を予測します。

それが、統計解析や機械学習になります。

ここで言う構造化データとは、ある定められた形に整形されたデータのことで、例えばExcelシートにまとめられた顧客データ表やPOSデータが当てはまります。

データの格納形式が決められているので、データ分析が容易なのが特徴です。

対する非構造化データとは、特定の目的に合わせて成形されていないデータのことで、メールやSNS上の投稿、写真や画像等がそれにあたります。

MBAでは、まず構造化データに対する統計解析や機械学習を行う演習をします。

（学校によっては、アドバンスドクラス等で非構造化データの解析にも触れるようです。）

以下に、構造化データに対する統計解析や機械学習の例を示しておきます。

回帰分析により、クーポンを使用した顧客はそうでない顧客と比較して、顧客単価がどう変化したかを調べる。
当日の天候や気温によって来場者数が上下するイベントについて、過去の降水確率、気温のばらつき、過去のイベント来場者数と収益のトレンドを示すデータからイベントの収益を予測する。
顧客情報（性別や年齢、年収、クーポンの受け取り有無等）と取引履歴（購入日、購入商品名、購入数等）から学習し、顧客の購買行動に応じて複数のグループに分ける（クラスタリング）。例えば、Aグループ：クーポンへの反応が良い節約家、Bグループ：値下げはあまり気にしない品質重視、等。学習結果を利用して新規顧客の所属するグループを予想し、店舗運営に活用する。

簡単な分析であれば、Excelを用いた統計解析も十分に可能です。

複雑な計算を要する分析は、プログラミング言語（RやPython）を使います。
近年のブームに影響を受けているのか、Pythonを統計解析用言語として教えるプログラムが多いようです。