【これから】社会人のための統計学 まとめ【データサイエンス】

このエントリーをはてなブックマークに追加


世はビックデータ時代!!

 

f:id:taithon:20150205224828j:plain

 

既に有名な言葉ではありますが、

Googleのチーフエコノミスト ハル・ヴァリアン博士は

 

I keep saying that the sexy job in the next 10 years will be statisticians. And I’m not kidding.

今後 10 年間で最もセクシーな仕事は、統計学者であると常にみんなに広めている。冗談抜きでね…

 

という言葉を世に放ちました。

彼は元々経済学者で、広告・オークション等のシステムについて

Googleに多大な貢献をしています。

 

日本では

 

統計学が最強の学問である

統計学が最強の学問である

 
統計学が最強の学問である[実践編]---データ分析のための思想と方法

統計学が最強の学問である[実践編]---データ分析のための思想と方法

 

 

 上記の本が売れに売れて、一気に「ビックデータ」が人気になりました。

これから「統計学について学びたい!」「実務にいかしたい!」

と思っているけど流行にのり損ねちゃった社会人の皆さんや新社会人の皆が対象

 

統計学・データサイエンス・ビックデータ

興味はあっても苦手意識を持ってる人は山ほどいるようです

しかしぼくが相談に乗る学生さんたちもやってみると必ず

面白い!

といってくれます

①データの見方が分かった

②新聞を読む時とかに簡単に信じずしっかり自分で考えるクセがつくようになった。

③分析が捗る。


等々

やってないと本当に損です。

数学が苦手な人は教科書を開いた瞬間に


Oh...

ってなるかもしれませんが。

なんとかがんばってほしい><

 

 

ビックデータ  is 何?

ビッグデータの正体 情報の産業革命が世界のすべてを変える

ビッグデータの正体 情報の産業革命が世界のすべてを変える

 

 

そもそもビッグデータの定義は曖昧です。

しかしながらイメージとしては

「企業が内部に大量に蓄えている独自のデータ」

「社会一般的な調査などで大規模な信頼にたるデータ」

 

ようは「データが大きい」ってことです。

基本ではありますが、何か物事を調べたい時に「情報はあればあるほどいい」

よって「企業が独自のルートで手に入れている大量のデータ」はその企業にとって

「生かしたい武器」

ですし、もともと「現場のカン」に任せっきりだった意思決定を

「ビックデータからより皆に納得しやすい数字という形で議論したい」

というのがビックデータ活用方法の主眼です。

 

ここで重要なのは

「使えるデータを集めること」

です。データがなければそもそも分析ができませんし、無理矢理なこじつけがおきます。

世の中に情報が腐るほどある今、

欲しい情報をPick upしてくるのがデータサイエンティスとの最初の仕事となるのです

 

知ってほしい!統計学者とデータサイエンティスとの違い!

 

データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)

データサイエンティスト養成読本 [ビッグデータ時代のビジネスを支えるデータ分析力が身につく! ] (Software Design plus)

 

 

統計学者とデータサイエンティスとは明確に違います。

 

統計学

・新しい統計の理論を作る

・より精度のいい指標を考える

 

データサイエンティスト

・既存の手法を使って現実のデータを解釈する

・自分の興味のあるこたえに対しての答えを求めていく

 

前者が学問的な者であるのに対して、後者は非常にビジネスライクですね。

特に昨今コンサルティング会社がデータサイエンスを取り入れていたり

逆にデータサイエンティスとがコンサルティングをしたりと

「重要な問に対しての答えを数字によって得る」

ことがデータサイエンティスとの仕事であることが分かるでしょう。

 

よって最も重要なのは

何の問題を解きたくて、その答えをとにかく統計手法を使ってだすこと

なのです。

 

データサイエンティスとになるには?

データサイエンティストに複雑な理論や数式を勉強する必要があるのでしょうか?

答えはNoです

社会人は忙しい。統計学にばかり時間を割けません。

最小の努力の最大限のリターンを求めるのであれば

最初からデータを加工するところからはじめるのがいい!

のです。

 

もっとも簡単な統計解析ソフトはExcelです。下記の本は初心者向けですね

 

1億人のための統計解析 エクセルを最強の武器にする

1億人のための統計解析 エクセルを最強の武器にする

 

 

また、若干本格的な分析をしたいという人にはRがおすすめです。

Rはフリーソフトなのに非常に強力な統計解析ソフトです。

 

Rによるデータサイエンス-データ解析の基礎から最新手法まで

Rによるデータサイエンス-データ解析の基礎から最新手法まで

 

 

覚えていただきたいのは

データサイエンスはLearning by doing (分析しながら学ぶ)である!

ということです。

 

とはいっても何からはじめたらええのん?

 

マンガでわかる統計学

マンガでわかる統計学

 

 上記は漫画だからといってバカにできない本です

上の内容とかよく知ってる人は

①回帰分析

正規分布

③student's T test

④F検定

などからやってもいいでしょう。

基礎的な内容ですが、全てイメージで理解すればいいです。

数式は使うだけでいきましょう。

特に回帰分析のベータの意味について考える事は大事です。


数学苦手な人は「仮定」という言葉に引っかかるものがあるかもしれませんが

「じゃぁ仮定が成り立たない場合はどうなるの?」

とかんがえると上記の内容が少しは入ると思います。

 

実際にデータを使うときは視覚化、つまり図をさく背するだけでも十分力になりますので

回帰分析

因子分析

その他の多変量解析

をはじめる前にしっかりplotについて学びましょう。

非常に初歩的な内容ですが、

これをマスターするだけで実務のプレゼン資料が一気に説得力が増すでしょう。