読者です 読者をやめる 読者になる 読者になる

うにの貝焼き

ただしうには食えない

Python+Seleniumでnetkeibaから過去の中央競馬レース情報をスクレイピングしてxls形式にするやつ

Python

残り2時間切った2016年の年末、皆様如何お過ごしですか。
私は先程、C91からやっと帰還しました。

はじめに

stockedge.hatenablog.com

競馬を予測をPythonでやりたいなと思ってとりあえずスクレイピングするところから始めてる。
上のブログだとScalaでやってるっぽい感じだけどうちの環境だとちょっと上手くいかないことがあったので、何とか作ってみることにした。

コード

クソコードなので許してください。実行にはSeleniumとbeautifulsoup、pandas、japandas、xlwtが必要。

最初の方にログイン処理入れてるけど、IDとPASSWORDが空欄でもスクレイピングはできる(但しタイム指数が会員専用なので必要な場合は会員登録の必要あり)。あと、レースの天候とかもスクレイピングはしてるけどxlsファイルには出力されないようになってる。

今回は2010年以降の「中山金杯」のレース結果をすべて出力するようにしてある。

実行結果

これが元のデータ

db.netkeiba.com

出力はこんな感じ(一部データは省いてる f:id:Unicore32:20161231024037p:plainf:id:Unicore32:20161231024041p:plain

最後に

今回はxls形式で出せるようにしたけど、sqliteに出力してそこから過去何レースの勝率とかも出力できるようにはしないといけない。解析するのに下準備がかなり掛かりそうだけどまあ仕方ないですね。
あと、馬券の購入は20歳になってからだぞ!!!絶対だぞ!!!!