いまや多くのテクノロジーで使われている技術ですね。たとえば、スパムを見つける方法とか、ノイズを修正する仕組みとか、検索エンジンの自動翻訳システムでも使われている学問です。データが少なくても推測でき、データが多くなればなるほど正確になり、入ってくる情報に応じて自動的に推測をアップデートできるという学習機能がベイズ統計の強みです。本書にも書かれていましたが、「今世紀のビジネスに従事をする上で、使いこなせれば最強になれる」今旬の学問ということで学んでみました。まだまだ初心者ですが、数式などは最後の最後でしか出てこず、最初のとっかかりとしては非常にわかりやすい入門書でした！

看守に尋ねるだけで自分の助かる確率が上がる「３囚人の問題」

本書の中でも圧倒的に面白かったのが、「３囚人の問題」 というパラドクスに関する解説です。自分を含む３人の囚人のうち２人は処刑されて、１人は助かるという状況だと、自分が助かる確率は１/３ですよね。しかし、看守に、３人のうち２人は処刑されるんだから、自分以外の２人のうちどちらは処刑されるはずだ。それを聞いても自分の処遇は変わらないから教えてくれとたずねた際、看守が１人の名前を答えた。その瞬間に自分が助かる確率は、１/３から、１/２に上がるという話です。この話、すごく興味深くないですか？どこかに矛盾があるの？とか考えてしまいますよね。

2017-06-11

Rによる統計分析をする第一歩として初心者の私が始めたこと

R 統計学

環境セットアップ

書籍の中では、環境準備としてWindows環境へのセットアップ手順が紹介されています。私はMac OS上へインストールしました。下記サイトから自分のOSバージョンにあったファイルをダウンロードしてクリックして進めるだけです。

https://cran.r-project.org/bin/macosx/

楽しいR ビジネスに役立つデータの扱い方・読み解き方を知りたい人のためのR統計分析入門

posted with ヨメレバ

豊澤栄治翔泳社 2015-02-10

起動

本書にはRがどんなものかを体感できるようにサンプルデータが用意されています。まずはターミナルからRを起動してみます。

f:id:otosan22:20170611005625p:plain

サンプルデータのロード

下記リンクからサンプルデータをダウンロードします。

楽しいR ビジネスに役立つデータの扱い方・読み解き方を知りたい人のためのR統計分析入門ダウンロード｜翔泳社の本

ダウンロードしたファイルを、Rの作業用ディレクトリに配置して実行します。

> sample<-read.table("sample.txt",header=T)

実際に読み込んだデータを表示してみます。

> sample
DATE Jyunkou Listing CV_Jyunkou CV_Listing
1 2014/1/6 122067 373 11 15
2 2014/1/7 114137 364 17 13
3 2014/1/8 128640 357 16 13
4 2014/1/9 113522 352 15 15

こんな感じで出力されます。

データに異常値がないかを確認する

ここからは本格的に統計学を学びながらRを使っていきたいと思います。

データに異常値がないかどうかを確認するには、平均や中央値を使う、あるいはヒストグラムを作成するというのが有効ですね。Rを使ってやってみます。

先ほどロードしたサンプルデータのうち、例えば2列目の変数を出力する場合には次のように実行すれば良いようです。

> sample[,2:2]

sample[,2:3]とすれば2列目と3列目を表示できます。そして平均を出したければ、meanという関数が使えます。

> mean(sample[,2:2])

[1] 80358.31

もっとまとめて、最大値、最小値や、平均、中央値をまとめて出力してくれるsummaryという関数もあるようです。

> summary( sample[,2:2])
Min. 1st Qu. Median Mean 3rd Qu. Max.
48510 69610 76630 80360 91460 128600

ヒストグラムを出力してみます。

hist(sample[,2:2])

f:id:otosan22:20170611203844p:plain

なにやら110000から120000あたりに山が来ているのがわかりますね。

時系列データはデータが揃っていることが絶対

日付データに曜日データを追加する

> sample$DATE
[1] 2014/1/6 2014/1/7 2014/1/8 2014/1/9 2014/1/10 2014/1/11 2014/1/12 2014/1/13 2014/1/14

(省略)

> as.Date(sample$DATE)
[1] "2014-01-06" "2014-01-07" "2014-01-08" "2014-01-09" "2014-01-10" "2014-01-11" "2014-01-12"
[8] "2014-01-13" "2014-01-14" "2014-01-15" "2014-01-16" "2014-01-17" "2014-01-18" "2014-01-19"

(省略)

> weekdays(as.Date(sample$DATE))
[1] "月曜日" "火曜日" "水曜日" "木曜日" "金曜日" "土曜日" "日曜日" "月曜日" "火曜日" "水曜日"

この weekdays(as.Date(sample$DATE)) という列を追加するということをすれば良いようですね。追加するには次の通り。youbiという列に値を追加しています。

> sample2<-transform(sample,youbi=weekdays(as.Date(sample$DATE)))

確認してみます。

> sample2
DATE Jyunkou Listing CV_Jyunkou CV_Listing youbi
1 2014/1/6 122067 373 11 15 月曜日
2 2014/1/7 114137 364 17 13 火曜日
3 2014/1/8 128640 357 16 13 水曜日
4 2014/1/9 113522 352 15 15 木曜日
5 2014/1/10 100794 308 8 7 金曜日
6 2014/1/11 88473 303 7 15 土曜日
7 2014/1/12 87768 312 8 7 日曜日
8 2014/1/13 98202 346 7 17 月曜日
9 2014/1/14 112450 378 8 11 火曜日
10 2014/1/15 110696 374 11 12 水曜日

2017-06-11

jupyter notebook 起動時にブラウザが起動しない

python

発生した事象

jupyter notebook起動時にブラウザが自動起動しません。URLをブラウザにコピペすれば良いのですが、なんとも面倒臭い。

$ jupyter notebook
[I 23:10:34.677 NotebookApp] Serving notebooks from local directory: /Users/xxxxxx
[I 23:10:34.677 NotebookApp] 0 active kernels
[I 23:10:34.677 NotebookApp] The Jupyter Notebook is running at: http://localhost:8888/?token=8e86b5c64450be83201c907a6d804851efd31782242137d2
[I 23:10:34.677 NotebookApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).
[C 23:10:34.678 NotebookApp]

Copy/paste this URL into your browser when you connect for the first time,
to login with a token:
http://localhost:8888/?token=8e86b5c64450be83201c907a6d804851efd31782242137d2
0:97: execution error: "http://localhost:8888/tree?token=bac8117483e4ba991b7c04f0a46c8c6e7e171171e95e8dc2"は“open location”メッセージを認識できません。 (-1708)