Kaggle

Kaggle titanicの次に取り組むコンペの探し方

機械学習を少し勉強して、「Kaggleのtitanicコンペ」には一旦submitしてみた。 さて、次は何をすればいいんだろうか・・・まだ全然機械学習のことわからないな・・・。

こう思っている方は多いのではないでしょうか。私も全く同じ気持ちを持っていました。

この記事をお読みいただくと、下記が分かります。

①Kaggleのtitanicの次に取り組むべきコンペの探し方が分かる
②Kaggle以外のお勧めのコンペサイトを知ることができる
③今どんなコンペが開催されているのか、情報収集の仕方が分かる

本記事の結論は以下の通りです。

①初学者は、自分が興味を持てるコンペに参加すべし

②Kaggleでぴんとくるコンペがなければ、日本語の別のコンペサイトに取り組むのも◎

③新しいコンペ開催の情報は「Twitter」「kaggler-ja」から得よう

 

①初学者は、自分が興味を持てるコンペに参加すべし

当然と言えば当然なのですが、案外意識しづらいです。

ここでいう「興味を持てる」とは、

コンペで扱っている内容自体に興味を持てるかどうか」

もしくは

「コンペの題材が自分が学習したいテーマにあてはまるかどうか」です。

前者の例でいうと、2020年10月1日現在、とあるコンペサイトでスプラトゥーンを題材にしたコンペが開催されていますが、あなた自身がゲームもしくはスプラトゥーンに興味を持っているか?がポイントです。

 

後者の例でいうと、Kaggleは2020年10月1日現在、比較的画像系のコンペが多いです。コンペの内容自体にそこまで興味がなかったとしても、「自分はどうしても画像解析の勉強をしたい」と思っているなら、後者には当てはまる、というイメージです。

 

後者の「コンペの題材が自分が学習したいテーマにあてはまるかどうか」は納得度が高いと思うので、

 

前者の「コンペで扱っている内容自体に興味を持てるかどうか」がなぜ重要だと思うかについて解説していきます。

 

Twitterや、後から紹介しますがslackのkaggler-jaというコミュニティでは新しいコンペが出るたびに

 

「こんなコンペが始まった!」
という投稿や、

 

「今●●のコンペやってるけど楽しすぎ」
という投稿をよく目にします。

 

人気ががあるコンペに参加すること自体は全く悪いことではないですし、特にKaggleのようなkernelを共有する文化があるコンペサイトでは得られる知識・経験が非常に多いと思います。

ただ、私が「自分が興味を持てるコンペに参加した方がいい」と思う理由は、

「興味を持てる内容じゃないと、勉強し続けることが辛くなり、挫折しやすいため」です。

実際に、私がそうでした。ここでは私の失敗談と成功談を紹介します。

■失敗談

2020年の春ごろ、Kaggleに「ウォルマートコンペ」が登場し、相当な人数が参加していました。

当然、Twitterやコミュニティではウォルマートコンペの話題がかなり多かったです。

そこで私も「よし、皆も参加しているし私もやってみよう」と思い、
ウォルマートコンペに参加しました。

ところが全く内容に興味を持てず、かつ難易度が高かったこともあり、

「え、これ皆submitできてるの・・?」
「Twitterでむずいと言いつつずっと取り組む人は偉いなあ・・。」
「なんかこのコンペ、私は楽しくないなあ。」


と、次第にコンペに取り組むこと自体を苦痛に感じるようになってしまいました。

このように、「皆がやっているから」という理由で苦痛な状態のまま続けてしまうと挫折もしやすくなるため、あまりお勧めしません。

とはいえやってみないとわからない部分もあるので、まずは始めて見て、

 

「これは興味がなさそうだ」「続けるのが苦痛かもしれない」と思ったら、

 

違うコンペにフットワーク軽く転換するのが良いと思います。

 

ここで伝えたいことは、”皆がやっているから”という理由だけで、苦痛なのに無理をして続けないでください、挫折しやすいですよ。ということです。

■成功談

ウォルマートコンペをストップした後、どんなコンペに参加すればいいかあらためて考えました。

そこで出会ったのが、ProbSpaceというコンペサイトの「Youtube視聴回数予測」コンペです。

 

このコンペサイト自体この時初めて知ったのですが、私は普段Youtubeをすごくよく観ています。
なので、いわゆるドメイン知識が多少なりともある+何よりYoutubeが好きだったので、データ分析をしていてとにかく楽しかったです。

 

Hawaii
・Youtubeのgoodとbadの数が与えられているけど、必ずしもbadが多いからといって視聴回数が少ないわけじゃないよね
・概要欄の説明文も与えられているけど、あれを読んでから視聴する人は少ないから、あんまり視聴回数と関係ないかも

 

このように楽しめたからこそ、約1か月毎日取り組めましたし、結果的に学びが多いコンペになったと感じます。

 

もちろん、参加回数を重ねていくと、興味があるコンペばかりではなくなってくると思います。
ただ初心者のうちは、「続けること」を一番大切にするために、「興味があるコンペ」を選択することが私は重要だと感じます

 

②Kaggleでぴんとくるコンペがなければ、別のコンペサイトに取り組むのも◎

うーん、興味があるコンペを探したけど、今のKaggleのコンペだと良さそうなのがないなあ・・・

こう思うことも多いと思います。

メリット・デメリット両方ありますが、Kaggleにぴんとくるコンペがなければ、Kaggle以外のコンペに参加することをお勧めします。

下記に、主なコンペサイトを紹介します。オススメ度をつけている3つのサイトは、私も実際にコンペに参加経験があります。

Kaggle:オススメ度★★★(結局Kaggleが規模の観点で一番オススメ)
ProbSpace:オススメ度★★(おもしろいコンペが多く、終了後の解法共有も勉強になる)
Quevico AI Competitions:オススメ度★(おもしろいコンペが多いが、議論する場や終了後の解法共有も2020年10月1日現在なし)
SIGNATE(参加経験がないためオススメ度判定はないが、比較的規模も大きく、議論も活発な傾向)

これらは基本的に日本語でのコンペなので、Kaggleで「英語が厳しい」という方は、よりオススメです。

但し、人により意見は異なりますが、これらのサイトに初心者の段階で参加する場合は「終了済みのコンペ」の中から興味がありそうなコンペを選ぶ方が外れはないと思います。

理由は下記です。

 

・Kaggleに比べると他のコンペサイトはまだまだ参加人数が少ないので、コンペ開催中の議論や、Kaggleでいうkernel共有がほとんどないケースがある。
自分が行き詰った時にどうしていいのかヒントを得にくい

 

例えばProbSpaceだとコンペ終了後に解法コードの共有があったりするので、そういった「模範解答」のようなものがある状態で取り組む方が、初心者にとっては取り組みやすいと思います。

※Quevicoはそもそも議論をしたりする場所すらないため、私は「エンジニアの年収予測」コンペに参加しましたが、

途中で行き詰ってしまいました。

これが理由でオススメ度は★です。扱っている題材が面白い内容なだけに、少し残念です。

 

もちろん、これはサイトやコンペによって状況は変わるので、まずは開催中/終了済みに関わらず興味がありそうなコンペの議論やkernelの共有状態をチェックしてみるといいと思います。

 

③新しいコンペ開催の情報は「Twitter」「kaggler-ja」から得よう

新しいコンペが開催されたことを、皆どうやって感知してるんだろう、と思っていました。

結論、下記2つのやり方が良いと思います。特に後者は私も参加していますが、情報収集の観点で確実だと思います。

「Twitterでコンペに取り組んでいる人を探してフォローしておく(”kaggle”で検索するとヒットしやすいと思います)」

「slackのコミュニティのkaggler-ja」に参加して新コンペの情報を得る

 

④まとめ

①初学者は、「挫折しない」ことを最優先に、自分が興味を持てるコンペに参加すべし

②Kaggleでぴんとくるコンペがなければ、日本語の別のコンペサイトに取り組むのも◎
但し規模がまだ小さいので、参考になる議論や解法共有が少ないケースも。場合によっては終了済みコンペに取り組む方がベター。

③新しいコンペ開催の情報は「Twitter」「kaggler-ja」から得よう

 

Kaggleをはじめとした、データサイエンスのコンペは学びになることが非常に多いです。
是非今回の記事を参考に、titanicの次に取り組むコンペを探してみてください!

 

-Kaggle

© 2023 データサイエンス はじめの一歩 Powered by AFFINGER5