1. まとめトップ

この記事は私がまとめました

kani_kohさん

データサイエンティスト+ビッグデータ=ビジネス価値を高める

こんな状況を想像してみてください。
あなたは生き残るために、物凄い価値のある黄金の塊を見つけなければなりません。

問題なのは、それがゴミの山の奥深くに埋められていることです。
あなたを助けられる人は、暗闇や誰も足を踏み入れない恐ろしい場所に隠された財宝を見つけ出す、卓越した技術を持った勇敢な探検家だけです。

現実世界に置き換えてみましょう。
あなたは、マーケティング・エグゼクティブです。ステイクホルダーのためにビジネス価値を高める、というクリティカルなミッション、すなわち、デジタルマーケティングの激しい荒波の中であなたの会社が生き残るためのミッションを課されています。

すなわち、目的達成のために、あなたはBig Dataと呼ばれるゴミの山を綺麗にしなければならないのです。
お助けが必要ですか? ご心配なく。データサイエンティストチーム(もしくはデータ探索チームといってもいいでしょう)があなたを助けてくれます。

データサイエンティスト

Facebookのアカウントにはユーザーの貴重な情報がつまっていることや、Googleが個人についてのあらゆる情報を把握したいと意図していることは知られていますが、昨今では小規模なスタートアップ起業であっても事業戦略に転用するために、さまざまなデータを収集しています。

しかし、多くの場合、企業が収集している生データは非常に乱雑なものです。不完全で整理されておらず、ちぐはぐに分類されていたり明らかに間違ったものが紛れ込んでいることも多いのです。それでも、そこには多くの貴重な情報があります。

データサイエンティストの仕事は、統計学、コンピュータサイエンス、データ分析を駆使して、膨大なデータを構造化しながら整理して、起業がデータを活用したアクションを起こすために必要な情報となるように、解析結果を導き出すというものです。

データマイニングで使われる10のアルゴリズム

2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」

This paper presents the top 10 data mining algorithms identified by the IEEE International Conference on Data Mining (ICDM) in December 2006: C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. These top 10 algorithms are among the most influential data mining algorithms in the research community.

With each algorithm, we provide a description of the algorithm, discuss the impact of the algorithm, and review current and further research on the algorithm. These 10 algorithms cover classification, clustering, statistical learning, association analysis, and link mining, which are all among the most important topics in data mining research and development.

1. C4.5

C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。

・CARTは2分岐しかできないがC4.5は3分岐以上もできる
・CARTはジニ係数を分割の指標にするがC4.5は情報ベースの基準を使っている
・CARTは木の剪定をクロスバリデーションによって行うため時間がかかるがC4.5は二項信頼限界を使うため一方行でできる

C4.5は1997年に商用のSee5/C5.0に改善され、以下のような変更点がありました。
・ブースティングを組み込むことで精度が格段に上がった
・スケーラビリティが向上しているのでマルチコアCPUで有用

2. k-meansアルゴリズム

この画像の例では、2次元に分布しているデータを5つのクラスターに分けています。手法としては、次の2ステップを反復して計算します。

 Step 1. データの割り振り(一番近い中心に割りつける)

 Step 2. 平均値の計算(クラスター毎の平均値を計算する)

実用的には、「いくつのクラスターに分類するか」というkを事前に決定する必要があります。データから最適なkを推定する方法もいくつか提案されています(GAP推定量など)。

3. サポートベクターマシン(SVM)

簡単に言ってしまうと次のようなもの。

・データ群を2つのグループに分類するために使用される手法。
・2つのグループの境界(2次元なら境界線、3次元なら境界面)を決定して、個々のデータがどちらのグループに属するかを決定する。
・正解のわかっているデータを参考にして、境界を決める(学習する)。

4. アプリオリアルゴリズム

1 2