データサイエンスの勉強会
午後からデータサイエンスの勉強会、「高知アグリ・データサイエンス・ラボ定例会」。
今回のテーマは Kaggle。Kaggle にはけっこう農業系のデータもあって、それに取り組んでみよう、という内容。
ただ、私含め勉強会メンバーは Kaggle 未経験なので、とりあえず Kaggle の基本的な使い方を覚えたりとか、代表的なコンペティション (Titanic) を参考にするなどしてみました。
教科書は、
Notebook が便利
Kaggle は Kaggle のサイト内で Python を動かすことができて、それが Notebook。Notebook はコンペティションに参加しなくても使用できるし、何だったらコンペティションに参加しなくても自前のデータを分析できます。
また、Python だけでなく R も動きますね。
Notebook 機能がとにかく便利だという印象を受けました。
しかも無料です。
Titanic の内容
Titanic コンペは、タイタニック号に乗船していた名簿とその属性、から、犠牲になったか否かを予測するという内容です。
教科書に使用した『Kaggle で磨く機械学習の実践力』では、Titanic コンペを例にとって、Kaggle の使い方を覚えます。
交差検証法とホールドアウト検証法の説明がしっかりされている一方、実際の分析アルゴリズムである例えば「LightBMG」の説明なんかはかなりあっさりしていて、初学者には著者が重きを置きたい内容がよく分からないところもありましたが、サンプルコードを読み解きながら (ときに読み解くことができないながら)、なんとか、理解することができました。
初手、LightBMG。これが大事というわけです。
『Kaggle で磨く機械学習の実践力』の内容は?
まだ全て読んでいるわけではないですが、けっこうがっつり、「そこ大事じゃないんですか?」といったところについても Python コードの説明が省略されているので、ある程度の前提知識が必要ですね。
Kaggle に取り組んでみようという人で Python 全然知らないという人はいないとは思いますが...
というわけでしばらく、勉強会では Kaggle について勉強する予定です。