Xtra etc

日記系雑記ブログ: 農業、データサイエンス、自然

【スポンサーリンク】

Kaggle で MLB Player Digital Engagement Forecasting を勉強。農業にどう活かすか?: 2023 年 3 月 26 日

朝から小雨気味。

仕事は午前で終わり。午後からデータサイエンスの勉強会。

【目次】

Kaggle の勉強

テーマは前回に引き続き、Kaggle × 農業。と言っても、そもそも Kaggle についてちゃんと勉強しないといけないので、まずは Kaggle 入門。教科書は、

今回勉強したのは、「MLB Player Digital Engagement Forecasting」。

MLB Player Digital Engagement Forecasting の概要

MLB = アメリカ野球メジャーリーグの選手の人気度を、ネット上の口コミから予測するというもの。

目的変数は 4 つ。ただ、この目的変数については「人気度」くらいのだいたいの説明しかなく、詳細は不明。Twitterfacebook など、ソーシャルメディア上のバズり具合だと思われます。

説明変数は選手の名前や出身地、ポジション、日付けなど。

このデータから予想しないといけないのは、ある野球選手の未来の人気度。要するに、昨日・一昨日まではこれくらいの人気度があったけど、明日はどれくらい人気があるのかな? という予想をせよ、というものですね。

予想の対象になる選手は1000人で、過去 3 年間の日別データを参考にするので、1000人 × 365日 × 3 年で、それだけでデータを1,000,000 越え。さらにそこに、各選手の出身地やらポジションやら誕生日やらメジャーリーグ所属日やら、なんやかんやとたくさん説明変数が追加されるわけです。

LightGBM × 時系列データ

勉強する中で印象的だったのは、データセットは時系列なのですが、教科書では時系列に特徴的なデータ解析をするわけではなく、あくまで LightGBM を時系列データ解析風にアレンジして解析していた、ということですね。

Kaggle での勉強を農業へどう活かすか?

勉強会の大きなテーマは、農業 × データサイエンスなので、今回の学びを農業はどのように応用できるのかという視点は忘れてはいけないのですが、今回目的変数が 4 つということで、複数種類の農作物を生産している農家さんの、生産についての予想なんかに応用できるのかな、と思いました。

データ「サイエンス」の「サイエンス」の意味

データサイエンスをテーマにした勉強会を主催しておいてなんですが、今回の勉強会でようやく、データサイエンスがなぜサイエンスなのかがわかった気がしますね。

サイエンスて地道な作業なんですよね。とにかくデータを集めて、その中から法則性を見つけるのですが、データを集めるためにたくさん葉っぱを切り刻んだり、超高速でボール同士を何回もぶつけたり、などなど、そういう地道な作業が必要なのですが、今回、「MLB 〜」データセットは 8 GB もあり、これをもとに将来を予想するのですが、この 8 GB をどう解析するのか、その方法はいわゆる「人力」で、地道な作業なんですね。

生物学の実験で、数え切れないくらいの葉っぱを切り刻むように (実際は数えないといけないんですが)、データサイエンスで有用な結果を得るためには、たくさんパターンを考えてデータを切り刻まないといけない。そしてその切り刻み方を考えるのは人間なのだ、というのが分かりました。

運動

勉強会の後、夕方から運動。筋トレとランニング。筋トレは腹筋中心。アブローラー 5 〜 10 回を 5 セット、など。

ランニングは桂浜コース、5 km。

ながおか温泉

運動後、温泉。久しぶり。

温泉後、美味館で夕食。団体客がとてもにぎやかでしたね。

買い物

それから、蔦屋書店で中小企業診断士 資格試験の参考書を購入。TAC から出ているキーワードまとめ集で、いわゆる「赤い透明シート」をページにかざすと、重要語句が消える、というもの。

【スポンサーリンク】