データ分析とは何かという話

前回の記事では、データ分析をする際にSQLとPythonが如何に扱いやすくかつ有効なスキルか、ということを書いた。より具体的にSQLとPythonの要求水準や学び方に移る前に、私見ではあるが、データ分析とは、という点について述べてみたい。今回はとても短い投稿になるが、少しでもイメージがわけば幸いである。

僕の個人的な経験上、データを分析する、というのはだいたい三つくらいのパターンに分けられる。(1) 仮説検証、(2) 将来予測、そして(3) KPI管理(予実管理)、である。(3)については、(1)の仮説を元に求められた(2)に対して、実際の業績をトラックする、という形になることが多い(というよりそうでないとまずい)。また、今までは(2)の将来予想についてもそれこそエクセルに手入力でドライバーを設定していくことが多かったと思うのだが、これはMachine Learning / Deep LearningなどのよりObjectiveなものに置き換わっていくだろう。人類のトップ1~5%の人が手入力で作った将来予想モデルは、ML/DLで作ったものより優れたパフォーマンスを示すかもしれないが、多くの場合においてML/DLは手作業を凌駕するはずである(僕はML/DL関係の仕事が多いため、多少Biasがかかっているかもしれないが、僕は最早自分の知識をベースにした将来予測の係数は信用できない)。データ分析の肝は(1)の仮説検証、というところに尽きる、というのが私の意見である。

では、仮説検証とは何か。読んで字のごとく、仮説を検証することである。賢明な諸子はお気づきとは思われるが、先ずは仮説を立てる必要がある(個人的に、MBAなどで学ぶフレームワークは、カオスのようなデータを筋道をたてて整理し、仮説を立案するためのものだと思う)。仮説の立案・フレームワークについては、諸先輩方が有難い本を出してくださっているので、そちらに譲るとし、データ分析というとても実務的な観点から、どのような点に注目して仮説立案をするべきか、という点について考えてみたい。

僕が注目することをお勧めするのは、データの外れ値である。外れ値というのは、例えば正規分布を前提にした時に、裾野にあるようなデータポイントだ。そういったセグメントの行動をインタビューなどと組み合わせて分析することで、ビジネスアイデアが生まれてきたりする。個人的な経験では、こういうセグメントは、想定されたのとまったく違うツールの使い方などをしていたりして、新しい機能や製品を送り出すアイデアの元になったりする。また、データをスナップショットで見るのではなく、過去からの連続性を見て、他のコホートと乖離しているトレンドを見せているものに注目するのも有効なアイデアである。明らかに成長性が違うコホートなどがいると思う。

こういった仮説検証をするにあたっては、何度もデータを出し直し、グラフなどにしてトレンドを見る必要がある。従って、SQLとPythonが力を発揮するのだ。特にPythonはmatplotlibというとてつもなく便利なVisualizationのためのLibraryが用意されているので、この点でも威力を発揮する。SQLで大量のデータを引っ張ってきて、Visualizationをしてデータのあたりをつけ、さらに深堀していく、というのは、僕が自分の手でひたすらなんでも分析していた当時の流れだった。

コメント

このブログの人気の投稿

実際にどうやってSQLとPythonを勉強するかという話

Pythonで遊ぼう!英字新聞の難解度検証

グリーンカード狂騒曲