Pandasを使って大阪名物たこやきのタコの大きさについて調査しました
mipsparcさんお疲れ様です
昨日は部活をPythonで立て直す | mipsparcのメモ帳でした。
そしてそして、この記事はPython Advent Calendar 2013の19日目の記事です
ところで皆さん!!
解析してますか??
私は最近、実験してデータを取ることに集中しているため解析をする方が後回しになっています。
普段はエクセルを用いて、おとなしく統計をとっています。しかし、PythonにはPandasという統計モジュールが存在するということで、それを試しに使ってみようと考えた次第です。
その前に、昨日の朝にはてブで面白い記事を見つけたので添付しておきます
生化夜話 第47回 美しすぎる相関性が生んだ思い込み - 乳酸と筋肉疲労
それでは本題に進みます。
まずはインストールから
$pip install pandas
で一発で大丈夫
バージョンの確認を
$python >>import pandas as pd >>pd.__version__ #=>'0.12.0'
pythonのバージョンは3.3.2を使用しています。またpandasのバージョンは0.12.0です。
インストールは完了しました。
それではタコ焼きを買いに行きますよ〜
普段は、それほどたこ焼き屋を意識していないので、たくさんあると思い込んでいたんですが、実際に探してみると少ないです...
というわけで3つほど駅を回り周辺を探してみました。
.
.
.
.
.
特に面白いこともなく、ただひたすらたこ焼き屋を探して徘徊する俺...いったいなんなんだろうかとか思いつつ一軒目を発見
(写真はナシ)
見つかりだすと続々と見つかるものですね
たこ焼き屋は、競争相手がいる所にわざわざ店を出すのでしょうか??
まあとりあえず4つのお店から300円で買える分だけたこ焼きを購入しました。
この美味しそうなたこ焼きから、タコを抜き取ります!!
ドンッ!!!!!!!!!!!!
時間がなかったので、とりあえずサイズを測りました
そうそう、それから店を選んだ基準なんですが、どの店も大ダコ入りと看板が出ている店を選びました。
サイズは縦、横と二種類測りました。
(*縦横は適当に決めました。けど、一応自分ルールはありましたが)
測り終えて整列したタコ達です
その結果がこちらです(見難いですね)
A,B,C,Dは店舗の違い
.1と入っているものは横のサイズです。
A | A.1 | B | B.1 | C | C.1 | D | D.1 |
---|---|---|---|---|---|---|---|
60 | 10 | 20 | 13 | 10 | 10 | 25 | 7 |
10 | 7 | 18 | 15 | 35 | 17 | 22 | 9 |
14 | 9 | 20 | 16 | 12 | 12 | 22 | 7 |
15 | 10 | 24 | 13 | 14 | 10 | 22 | 9 |
25 | 15 | 21 | 12 | 24 | 8 | 26 | 9 |
15 | 10 | 18 | 15 | 20 | 12 | 26 | 7 |
NaN | NaN | 23 | 15 | NaN | NaN | 26 | 7 |
NaN | NaN | 25 | 20 | NaN | NaN | 24 | 7 |
NaN | NaN | 22 | 17 | NaN | NaN | 22 | 7 |
NaN | NaN | NaN | NaN | NaN | NaN | 22 | 7 |
NaN | NaN | NaN | NaN | NaN | NaN | 20 | 8 |
NaN | NaN | NaN | NaN | NaN | NaN | 20 | 6 |
NaN | NaN | NaN | NaN | NaN | NaN | 15 | 15 |
このデータをpandasで解析します!!
import pandas as pd data = read_csv('たこ焼きのタコ.csv') data.describe()
解析終了ですwww
A | A.1 | B | B.1 | C | C.1 | D | D.1 | |
---|---|---|---|---|---|---|---|---|
count | 6.00 | 6.00 | 9.00 | 9.00 | 6.00 | 6.00 | 13.00 | 13.00 |
mean | 23.17 | 10.17 | 21.22 | 15.11 | 19.17 | 11.50 | 22.47 | 8.08 |
std | 18.71 | 2.64 | 2.49 | 2.42 | 9.35 | 3.08 | 3.10 | 2.29 |
min | 10.00 | 7.00 | 18.00 | 12.00 | 10.00 | 8.00 | 15.00 | 6.00 |
25% | 14.25 | 9.25 | 20.00 | 13.00 | 12.50 | 10.00 | 22.00 | 7.00 |
50% | 15.00 | 10.00 | 21.00 | 15.00 | 17.00 | 11.00 | 22.00 | 7.00 |
75% | 22.50 | 10.00 | 23.00 | 16.00 | 23.00 | 12.00 | 25.00 | 9.00 |
max | 60.00 | 15.00 | 25.00 | 20.00 | 35.00 | 17.00 | 26.00 | 15.00 |
楽ですね
今回のプロジェクト中で解析をしている時間はほぼ0ですよ
結果としては...
たこ焼きはタコがないと美味しくない
ですね
pandasもう少しちゃんと使えるようにしますm(-_-)m
明日(というか今日)はaki_n1waさんです!!
結果としては今回も、実験に集中してしまったということですね笑
それと広報なんですけど、
私は今、perlのAcme、rubyのpebblesに継ぐpythonのジョークモジュールの名前空間を決めたいと思っています。
そこで
Freak
というのにしたいと思っているので、ぜひジョークモジュールを作成する際はFreak-*****などとして頂けると嬉しいです!!
Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理
- 作者: Wes McKinney,小林儀匡,鈴木宏尚,瀬戸山雅人,滝口開資,野上大介
- 出版社/メーカー: オライリージャパン
- 発売日: 2013/12/26
- メディア: 大型本
- この商品を含むブログ (5件) を見る