Y's note

Web技術・プロダクトマネジメント・そして経営について

本ブログの更新を停止しており、今後は下記Noteに記載していきます。
https://note.com/yutakikuchi/

データサイエンティスト養成読本

データサイエンティスト養成読本 R活用編【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)

データサイエンティスト養成読本 R活用編【ビジネスデータ分析の現場で役立つ知識が満載! 】 (Software Design plus)

作者: 酒巻隆治,里洋平,市川太祐,福島真太朗,安部晃生,和田計也,久本空海,西薗良太
出版社/メーカー: 技術評論社
発売日: 2014/12/12
メディア: 大型本
この商品を含むブログ (1件) を見る

データサイエンス

参加したイベントで頂いた「データサイエンティスト養成読本 R活用編」の冒頭を中心に読んでみました。前に出ていた同等の養成本よりデータサイエンティスト養成の問題と本書の位置づけがはっきりしていて読みやすかったと思います。21世紀で最もセクシーな職業という噂のデータサイエンティストについて、本の中で重要だと思った内容の意訳をメモしておきます。(あまりデータサイエンティストの話はまとめてなく、結局は統計の話ばかりメモしてしまっています。すみません。)

アカデミック領域と異なるビジネス領域でのノウハウの少なさ。

データの前処理のような泥臭い話は書籍やWebには出てこない。

使用するツールに拘りを持たず、効率を重視して使い分けが必要。

ビジネスへの意思決定にも携わるため、新卒からいきなり経験させてもらえない。

3つのキャリアタイプがあり、組織の上では各キャリアタイプの人材の協力が必要。

ビジネス寄りのタイプ(ユーザーの気持ち理解)

統計理論に強いタイプ(統計解析)

エンジニアリングに強いタイプ(データ処理のコードを書く)

R言語はメモリに載り切らないデータ量、リアルタイム処理には不向き。

統計学の全体像

記述統計学

真ん中 => 平均、中央値。

構成 => 比率。

ばらつき => 分散、標準偏差。

推測統計学

全体の真ん中が同じ確率 => t検定。

全体の構成が同じ確率 => χ二乗検定。

全体のばらつきが同じ確率 => F検定。

関係から全体分け => コレスポンデンス分析、主成分分析、因子分析、クラスタ分析。

関係から全体を当てる => 重回帰分析、判別分析。

標準偏差は分散の平方根。

検定と一部のデータを利用してもデータ感に差があると言えるかを確認する手法。差がない確率が一定未満の場合は差があると判定。

クラスタリングには階層的、非階層的がある。非階層的な例としてk-meansがある。

アソシエーション分析を行って、有益なルールを探す。

決定木はツリー構造で可視化できるのでわかりやすい、CARTが有名。CARTはジニ係数でデータを分割。ジニ係数は0〜1の値、0だと平等、1だと不平等。

機械学習は目的変数が離散型か連続値かによってクラス分類、数値予測に分けられる。

クラス分類ではデータ数が少ない時に精度が最も高いとされるSVMが有名。

ランダムフォレストはアンサンブル学習(集団学習)により分類/回帰を行う。アンサンブル学習は弱学習機をたくさん作って結果の多数決を取る。ランダムフォレストは数値予測にも利用可能。

線形回帰は目的変数を直線的な関係で予測。評価指標にはRMSE(平均2乗誤差)、決定係数などを利用する。

以上が第一、二章の要約でした。個人的にもデータサイエンティストは何でも出来る人として見られる事が多く、データの分析からビジネスの未来を考えられる人と思われる事が多いように感じていますが、データサイエンティスト側としてはそれは要求レベルが高過ぎることで、決して一人ではできるような内容ではないと言えます。エンジニアにもネットワークエンジニア、Webアプリケーションエンジニア(サーバーサイドエンジニア、フロントエンジニア)、スマートフォンアプリエンジニアなど細かく定義できるようにデータサイエンティストにも当然得意不得意な領域があって、誰しもがコンサルタントやマーケッターなどの領域をカバーできないという世間一般の認識を少し変えていきたいですね。