【機械学習】明日から始めるデータ分析と機械学習〜座学編 Step2〜必要なスキルと利用までの流れ【データ分析】

【機械学習】明日から始めるデータ分析と機械学習〜座学編 Step2〜必要なスキルと利用までの流れ【データ分析】

ここではデータ分析・機械学習に必要なスキルと、実際に機械学習を利用できるようになるまでの流れについて書いていきます。

ここでの機械学習を利用できる≠実装できる なので注意してください。

データ分析・機械学習に必要なスキル

データ分析・機械学習に必要と言われている3つのスキルについて説明します。

3つも必要なんかい。
先は長いな

SE犬
SE犬
ひなた
ひなた

実際には1人で全て賄う必要はないと思うよ?
データ分析・機械学習の構築は一個人が行うものではないからね。大体はチームを組んでやるものじゃないかな?
そのチームの中に必要なスキルを持っている人がいれば問題ないと思うよ。

そらそうか!
適材適所やな!!

SE犬
SE犬
ひなた
ひなた

そういうこと。
ここでは自分の立ち位置がどこなのかを想像しながら読んで貰えると嬉しいな!

ビジネススキル

≒熟練の現場担当者です。

生産・品質・販売 etc… といった現場の業務知識が必要となります。

そもそもデータ分析・機械学習を利用するためには得られる結果(必要な情報)を明確に定義する必要があります。これを決めるためには現場のことをわかっていないと「何がしたいか・何が必要か」を決めることができません。

現場にはどんなデータがあるか?データの意味を把握しているか?いつできるデータか?どうやってできるデータか?実現したい内容は何か?

これらを明確にする必要があり、求められるスキルを有している必要があります。

データサイエンススキル

≒サイエンティストです。

必要とされている情報を作り出すためには様々な手法があり、その手法が正しいかを判断が求められます

手段は様々。統計学・機械学習・数学・画像処理などの専門知識を有している必要があります。

データエンジニアリングスキル

≒ITエンジニアです。

実現したいことが決まった(ビジネススキル)

実現手法も決まった(データサイエンススキル)

では用意されたデータ(数万件〜)を元に、毎回人の手で計算して。。。統計をとって。。。というのは時間がいくらあっても足りません。(頑張ってみてもいいですが)

データ分析・機械学習には検証を行う元となるデータ(Input)と、その結果となるデータ(Output)が存在します。パターン化された数式、アルゴリズムを使用してシステムでデータをInputし、必要な情報にOutputする。

このシステムを構築するためには、ITインフラ(ハード・ソフト・ミドル)、データ加工技術が必要となり、それらの知見を有している必要があります。


こうやってスキルの説明を羅列されると自分になにができるか考えさせられるな〜

SE犬
SE犬
ひなた
ひなた

全てが完璧にできるスーパーマンはそうそういないよ。
時間は有限だしね。
僕はこの中の2つ「データサイエンス」「データエンジニアリング」を勉強してくよ!

機械学習を利用するまでの流れ

大量のデータを用意したからといって直ぐに機械学習が利用できるわけではありません。

きちんと手順を踏んで進めないと、全く意味のないモノが出来上がってしまうかもしれません。そんなことにならないようにする為に、機械学習を利用するまでの基本的な流れを確認しておきましょう。

CPISPーDMモデル

というモデルがあります。

CRISP-DM(CRoss-Industry Standard Process for Data Mining)は、データ分析プロジェクトのプロセスモデルとなります。

データ分析・機械学習は事前に決めた流れを踏襲すればうまくいくというモノではありません。各フェーズ毎に問題がないか立ち戻り、反復して正しい結果が得られるかを確認していく必要があります。

ビジネス(課題・背景理解)

スタート地点であり、ゴール地点でもあります。

売上や利益が低下したとします。勝手にそんなことはなりません。現場で働いている方々は「運が悪かったね。」で済ませたりしないはずです。必ず発生した要因が存在し把握・改善に動いているはずです。

このプロセスは発生した課題(売上・利益の低下)、課題に対する要因、改善案、これらの把握を行う必要があります。

ここで把握した情報を元に次に行動すべき内容や必要な情報についても同時に考えるべきでしょう。

データ理解

どういったデータが用意できるのかを把握するプロセスとなります。

ここでは上記で述べた課題と課題に対する要因たり得る根拠を示すデータが存在することを前提とします。「課題=契約顧客の離反」なら、過去の契約顧客の離反記録、購入頻度、最終購入日付、顧客情報などでしょうか。

用意されたデータに含まれている期間は?項目の単位は?数値?金額?単位は千円、万円?性別や年齢が含まれている?契約してからの期間は年、月、日?

足りない情報があれば補完する必要がありますし、その場合のコストを考えることも重要です。足りない情報を採取する場合、どれくらいの期間がかかるかも考慮の必要があるでしょう。

こういったデータ理解を経て、どのような手法を用いて分析することが適しているかを判断します。

データの準備(特徴量設計)

続いてデータの準備です。このプロセスでは次のモデル作成に適した形にデータを加工していきます(=前処理)。

契約顧客の離反を予測するのに、用意されたデータの契約顧客離反日付が一部欠損(入力漏れや誤り)していては使用できないデータとなってしまいます。そういったデータは削除するなり、影響のない日付を仮入力したりします。

例えば年齢層が18歳〜60歳だったとします。

例えば購入金額の幅が¥10,000〜¥30,000だったとします。

人が見た場合は年齢・年収持つ数値の幅の意味を即座に理解できます。では機械学習をするコンピュータの場合はどうでしょう?年齢は60-18=42、年収は30,000-10,000=20,000という結果でしか計測することができません。

年齢の差、42歳は人から見れば「大」、コンピュータから見れば「小」

購入金額の差、20,000は人から見れば「小」、コンピュータから見れば「大」

となってしまいます。

これでは機械学習の結果に影響を与えてしまいます。そこでデータを加工し、各値を0〜1の比率としてスケーリングを行う。

こういった作業を本プロセスで行ったりします。データ分析・機械学習の作業の大半はこのプロセスとなります。

モデル作成

データ分析・機械学習と言えばココ!花形です!

ここでは最初に定めた課題の解決するのに十分な精度が得られるか、という観点で考えることになります。

取り込むデータに対して結果が得られるルール=「モデル」と認識してください。モデルを生み出す手法=機械学習アルゴリズムです。

機械学習アルゴリズムには様々な種類が存在し、それぞれメリット・デメリットが存在します。本プロセスでは機械学習アルゴリズムの特徴を把握しモデルを作成して得られる結果を評価していくことになります。

モデル評価

モデルを作成したは「はい、終わり」ではありません。得られた結果を元に実際に行動を起こす必要があります。そこで初めて、データ分析・機械学習が出力した情報が正しかったのかを判断することができます。

共有・展開

モデル評価で信頼のある結果が得られたのであれば、同じ傾向にある現場へ情報を共有・展開をすることで更なる改善・効果が期待できるでしょう。

次回は

機械学習の種類について触れていきます

機械学習カテゴリの最新記事