ランダムおすすめ記事

ホームページ作りました

SIGNATEの 【練習問題】Jリーグの観客動員数予測をやってみたい!!③

SIGNATEの 【練習問題】Jリーグの観客動員数予測をやってみたい!!③!! 前回は重回帰分析でHomeチームのデータだけを取り上げましたが今回はいろいろなデータを付け加えてみましょう。

重回帰分析②

別に分けられていたcondition.csvから関連の深そうな3つのデータを取り出しました。
weather temperature humidity
本当は天気と降水量が一番良いと思うけど降水量はデータにありませんでした。
屋内でも豪雨ならば普通に観客動員に影響ありますしね。
スタジアムの収容人数も加えようとしましたが読み込みが上手くいかなかったので保留。



testデータはidを見比べてweather temperature humidity
の3つのデータを追加。(pandasやpythonがもっとわかっていればキーで自動で追加できるらしいが今の僕には分かりませんでした。
trainはゼルビアとガイナーレのホームゲームを抜かなくてはいけません。
trainデータにidをつけたconditionデータを貼り付けてidがずれていたらconditionのデータだけ一行ずらすマクロを作ろうかと思いましたが(昔似たようなものを作ったことがある)
Excelマクロを忘れ気味なのと、txt(カンマ区切り)という保存方法が無かったことと、よく見たらconditionデータにもホームゲームの記載があったので
conditionデータもゼルビアとガイナーレを削除してからidでソートすることにしました。

ではやっていきましょう!

pd.get_dummies(train[["home","away","stadium","weather"]])


質的データで使おうと思ったのはこの4つ。
ダミー変数化します。

特徴量というものがありまして、新しいカラムに追加出来るのですが

train["year"] = train["datetime"].apply(lambda x :x.split("-")[0])

曜日を取り出そうと思ったのですが資料ではsplit出来るような書き方ではなかったんで断念。
本番ではデータを取る時に工夫をしましょう。<br> 特徴量は予測値と実測値の差を測ってみてそこからなぜずれるのか分析し、そこに特徴があればそれを新しいカラムにしてtrainXに追加するということを講座で習いました。

今回は特徴量は作らずいきます。


と思ったのですがここでawayチームにもゼルビアなどのチームがあるためカラム数がずれて分析できないという結果に・・・。

う~~ん。とりあえず僕が作りたいものってベルマーレの観客動員の予測だからデータの収集の仕方次第でここら辺はクリアできるんだよね。
だからいったんそれを作って公開した後に違う資料を使ってさらに分析の勉強したほうがいい気がする。

というわけでJリーグの観客動員数の予測はいったんここで中断。
いつか理解が進んだらもう一回挑戦するかも!