データ分析の面白さや仕事としてやってみて分かったこと




僕は現在新卒入社3年目です。元々、ウェブエンジニアとデータ分析の領域で仕事をしたいと思い、ITエンジニアというざっくりとしたくくりで入社をしました。

これまでデジタルマーケティング(ランディングページの企画とか)、ウェブサービスのUI/UX改修、AWS環境構築など幅広く取り組んできました。どれも面白い仕事ばかりでしたが、ついに一番興味があったデータ分析の仕事を行う機会が出来たのです!

そこで、この記事ではデータ分析の面白さや、実際にやってみて分かったことを紹介したいと思います。

データ分析の面白いところ

そもそも何故僕がデータ分析に強い興味があったのかというと、知らないことを知るのが好きだという気質が昔からあったからです。中学生くらいのときから、未知のものや現象の裏にある原理や作用を解明してみたいという思いがあるのです。サイエンティスト気質と言えるかもしれません。

例えば、友達とランチにいったときに友達が変哲のないカレーを頼んだときでさえ、何故今このタイミングでカレーを頼んだのか自分の中で仮説を立てて、会話の中で探っていくのとかが好きです。相手は何を考えてカレーを頼んだのだろう。

少し辛いものを食べたくなったのかな?それとも、柔らかい食感のものを食べたくなったのかな?といったように様々な可能性を探りながら、自分の中での解へと収束させていくプロセスが好きなのです。とにかく色々なものに興味があり、かつその事象の中に潜む原理・作用・法則を解き明かしたい気持ちが強いのです。

データ分析というのは、データをグラフで可視化したり、さまざまな切り口で傾向をつかむことで裏に潜む法則を発見する営みです。例えば、自社のウェブサイトに3回以上訪れたユーザーは商品を買う確率が80%以上になるといったことを知ることで、じゃあウェブサイトに3回以上訪れさせるにはどうすればいいのかというように施策を考えるベースになります。

また、データ分析に似た領域として最近流行りの機械学習がありますがこちらも面白いです。何が面白いかと言うと、機械学習は大量のデータをコンピューターで統計的に処理させることによって、未来を予測できるという点です。特に機械学習の中の一分野であるディープラーニングに至っては、元になるデータを入れてから予測結果が返ってくるまでの計算ロジックがブラックボックス化しているというのが大変おもしろいのです。

もちろん、ディープラーニングはニューラルネットワークという人間の脳の仕組みを模した仕組みになっており、仕組み自体は分かりやすいのですが、何故それでうまくいくかを明確に説明できるのが難しいのです。どうして上手くいくのかは分からないけれどもうまくいくものを、僕らは魔法と呼びます。

そのうちに潜む原理は分からないけれども、何故かうまい結果が返ってくるというその神秘性に僕は魅力を感じているのです。さらっと触れましたが、データ分析と機械学習は密接に関連しています。では違いは何かと言うと、データ分析はそのデータ通りになる理由を説明することに重きをおくのに対して、機械学習は未来を予測することに重きを置いています。

データ分析をやってみて分かったこと

地味な作業が多い!

よく言われることで僕も覚悟をしていましたが、データ分析は地味な作業がほとんどです。データ分析というと、難しい数式を見ながら、かっこよくコンピューターで数値計算をしているイメージがあります。確かにそれは正しいのですが、作業のほとんどは地味だったりします。

例えば、依頼者から受け取ったデータが虫食い状態(欠損しているデータが有る)だったり、そもそも変な数値が入っていることはよくあることです。そういう場合は、その欠損しているデータが他の場所に存在しないかを確認し、見つかった場合はExcelを開きながら手入力で正しいデータを入力していくのです。

データ分析や機械学習をするには、何よりもデータがすべてを担っています。例えば、何かの間違いで本来よりも50%低い数値のデータを用意してしまったとしましょう。そのデータを利用して完璧な統計モデルをつくった(ありえないけど精度100%)とします。

するとこのモデルは、予測結果として本来の値よりも正確に50%低い数値を吐き出し続けることになるのです。データ分析は、今後の事業方針や施策を決定する大きな要因になるため、駄目なデータで作ったモデルを使うと大きな損失に繋がります。

データ分析と機械学習は何よりもデータが大切なので、必然的にデータ一つ一つを確認し、漏れがあったら他の場所に情報がないか探す。他のデータと明らかにおかしい異常値があったら、発生原因を調べる。そういった地味な作業がデータ分析の仕事の大部分を占めています。(データクレンジングといいます)

データの可視化は楽しい

元のデータをフォーマットに落とし込んでみたら、まずはデータの可視化をします。データの可視化はなかなかおもしろいです。これまで数字や文字しかなかった手元のデータがキレイにビジュアライズされて見れるからです。

滅多にありませんが、手元のデータがキレイな直線に並んでいたり放物線を描いていると感動すらします。まずありえませんけどね。(むしろデータがキレイ過ぎるとヤバイ予感がしてきます)

数字だけでは見えなかったデータの裏に潜む傾向が何となく分かる一瞬はなかなか格別です。あーやっぱり、ウェブサイトの滞在時間が長い人は、コンバージョンしやすいんだーとか、色々と透けてくるからです。

データを可視化するメリットは色々ありますが、一番大事な理由はデータのおかしいところを見つけるというものがあります。それこそ、データ作成時に手入力を間違ってしまうのはよくあること。一桁分入力する数字を大きくしてしまってありえないほど他のデータ集団から飛び出たのがたまに出てきます。

これは、数値だけを見ると見逃してしまう可能性が高いです。数値の羅列を見るのと、ビジュアライズされた図を見るのでは当然図を見たほうが直感的に気が付きます。データをキレイにするためのデータ可視化といっても過言ではないのではないかと思います。

エンジニアリングとデザインの両視点が求められる

データ分析は専門用語がたくさん出てきますが、分析結果を説明する相手が専門家でないことがほとんどです。そういった状況で「決定係数」とか「AIC」などの言葉を使って説明しても中々伝わらないのです。

そこで大切になってくるのが、デザイン的視点です。データをうまくビジュアライズすることで、ひと目で直感的に状況を伝えることが出来ます。実は、データ分析した結果をどのように情報整理して伝えるかというところも求められてくるのです。

研究の世界では、相手の専門家ですから普段どおりの言葉遣いで説明すれば良いのですが、ビジネスの世界はさまざまなバックグラウンドを持った人に説明する機会がほとんどのため、相手に伝えるテクニックが重要になります。

相手に伝える上ではデザイン視点が重要になってきます。どんなに素晴らしい分析結果が出たとしても、発表に使われた図の解像度が低すぎて見にくかったり、文字のフォントやサイズがバラバラだったりすると分析結果の評価が低くなってしまいます。人は直感や感覚を想像以上に評価のポイントに置いているのです。

さまざまなライブラリを駆使しながらプログラミングで分析を行っていくエンジニアリング的なプロセスと、データや分析結果をうまく表現するためのデザイン的なプロセスが同居しているのがデータ分析の面白いところであると思います。

最後に

まだまだ駆け出しのデータアナリストですが、思った以上に地味な仕事が多いこと(覚悟していたけど)はあるものの、「やっぱり面白いな」という感想が大きいです。さまざまなツールを駆使して未来を予測して、実行に移すというプロセスはとてもワクワクします。

プログラミング、統計、機械学習アルゴリズム、デザイン素養・・・様々な力が複合的に試されるからこそ、毎日新しい発見が起きやすくエキサイティングな仕事であると感じています。これからも引き続きコンピューターを使って面白い世の中を作っていくことにチャレンジしていきます。