データサイエンスの実践力を磨く—「AI競馬予想マスターズ 学生大会」参加者インタビュー

先日、電気通信大学データ教育センター協賛の「AI競馬予想マスターズ 学生大会」が初開催された。本プログラムは、公営競技データという斬新な題材を用いた実践的なデータサイエンス教育の場として企画されたものだ。単なる予測精度の競争ではなく、「予測結果を戦略的に活用する」「問題を自ら設定する」「システムとして実装・運用する」といった、現実社会のデータサイエンス業務で求められる総合的な力を鍛えることを目的としている。

参加者プロフィール

倉知 祥太朗さん
1位:倉知 祥太朗さん
北海道大学大学院情報科学院修士課程1年。
言語メディア学研究室に所属し、大規模言語モデル(LLM)にペルソナを付与するキャラクターAIの研究を行う。機械学習の基礎を学び始めたのは今年の夏から。
宮下 翔伍さん
2位:宮下 翔伍さん
電気通信大学大学院修士課程1年。
学部4年時にはパドック映像から馬の特徴を分析する研究を行い、現在は馬の映像から3Dモデルを推定する研究に従事。データ分析の実践的な応用に強い関心を持つ。
田中 敦貴さん
3位:田中 敦貴さん
東京科学大学生命理工学院生命理工学系4年。
細胞を対象とした画像解析を研究テーマとする。競走馬の血統分析に興味を持ち、趣味でボートレースの機械学習にも取り組んでいる。
Hさん
東京大学大学院理学系研究科物理学専攻博士課程2年。
光学技術開発の研究に従事。Kaggle Grandmasterの称号を持ち、強化学習に興味を持つ。

実践的なデータサイエンス教育の場として

倉知さんは、X(旧twitter)で情報を知り、学部時代から興味を持っていたデータサイエンスの実践が実現するきっかけとなった。
「学部の時に、予測モデルを実際のデータで検証する機会があればと思っていました。ちょうど修士になってポストが流れてきて、いいタイミングだったので、これを機に実践的なスキルを身につけられたら面白そうだなと思いました」

宮下さんは電通大生として特別な思いがあった。
「大学生が参加できるAIコンテストというだけでも嬉しかったんですけど、電通大のデータ教育センターが協賛しているということで、そういうことをやってくれるんだなと嬉しかったです。データ分析を学ぶ学生の一人として、これは参加するしかないなと思いました」

田中さんは機械学習好きの先輩からの紹介で本プログラムを知った。もともとボートレースの機械学習を趣味で行っていた田中さんにとって、このプログラムは実践的なデータサイエンスを学ぶ「ぴったり」の機会だったという。

Hさんは、このプログラムを知った際の印象をこう語る。
「アプリを作るハッカソンは多いですが、機械学習の学生向けコンペは少ない。そういったものがあるのはすごく嬉しかったです」

大学では学べない実践的な学び

参加者全員が、このプログラムが大学教育では得られない学びを提供したと評価している。

宮下さんは実践的な経験を得た。
「研究でAIを使っていなかったので、実際のデータを使ったAIの知識、練習というのはすごくためになりました。リアルのデータを使うっていうのはすごい貴重な経験です」

田中さんはAPIを使ったリアルタイム運用やテーマの独自性を挙げた。
「APIがあったりというのは、あまり大学ではないと思いました。このようなリアルタイムデータを扱う機会は大学ではあまりないので、そういう意味でも貴重な経験でした」

Hさんは実データを扱う経験の価値を強調する。
「大学の講義だと、あまり実データをいじるというところまではいかないので、実データの扱いの難しさ、精度を出しにくいといった難しさを味わえたのは良い経験でした」

Kaggleとの違い—継続可能な学び

Kaggle GrandmasterであるHさんは、このプログラムとKaggleの違いについて、以下のように話してくれた。

「Kaggleよりも比較的身近なデータだと思いました。Kaggleのデータは自分たちで集めるのが不可能なデータを企業からもらって解析する形ですが、今回は自分たちでもスクレイピングとかAPIを使えば拾えるデータでした。作ったモデルが無駄にならない、今後も自分のプロジェクトで使えるというテーマだったのが良かった」

この「継続可能性」は、学生にとって重要な要素だ。実際、宮下さんと倉知さんは、配布データに加えてTARGET frontierJV(JRA-VAN)から補正タイムや調教師、競走馬の母父などの追加データを取得し、分析に活用していた。この主体的なデータ収集と活用の経験は、実務的なデータサイエンススキルの向上に直結する。

データサイエンス教育における題材選択の意義

公営競技という斬新な題材選択には、データサイエンス教育の観点から複数の利点がある。一般的なデータサイエンスコンペでは、企業が提供する過去のデータセットで予測モデルを作成するが、本プログラムではリアルタイムで更新される実データを扱い、即座にフィードバックを得られる点が特徴的だ。

倉知さんはランダム性という観点からデータサイエンスの本質的な課題を語る。
「生き物を扱う題材ということもあって、ランダム的な要素がかなり大きい。不確実性が高い状況でAIを使って予測するというのは、実社会の課題に近く、いい題材だと思います」

宮下さんは発展途上の領域であることの教育的価値を挙げた。
「この分野の予測モデルはまだ発展途上で、他の題材だともう一定の成果が出ていてモデルを真似できちゃうんですけど、今回はそういうのがないので、色々試行錯誤する必要がある。自分で考えて実装するという経験が得られるのが良かったです」

田中さんは、予測を超えた最適化の重要性を指摘した。
「予測で終わらないというのがすごくいいなと思って。予測した後の意思決定、どうそのデータを使うかで競うというのは、他の予測コンペではあまりない。実際にリアルタイムでフィードバックを得られるのは、非常に価値があります」

戦略的思考の重要性

Hさんが特に感じたのは、評価指標の多様性だった。
「人によって評価指標を使い分けられるのが面白かったです。Kaggleだと評価指標は一つですが、今回は期待値を最大化したいのか、最大利益を狙うのか、安定性を重視するのかによって取るべき戦略が変わってくる。そういった戦略的思考があるのが、実務的なデータサイエンスの学習として価値があった」

一方で、田中さんは率直に語る。
「手応えは、正直、自分はあまりなくて。とにかく要件をクリアすることだけを目的にしてしまっていました。他の上位の方は戦略もこだわっているなと思ったので、ちょっと悔しい気持ちがあります。次回はもっと戦略的に取り組みたいです」

システム実装・運用の実践経験

実際にシステムを稼働させる経験は、参加者にとって大きな挑戦となった。

倉知さんは「APIは結構苦戦しましたね。1日中、いつまでやってもNG出されるなあって思いながらやって、最終的にはできましたけど苦戦しました。実際には1日中動くプログラムはできなくて、APIの形に合わせて手動で動かすしかできませんでした」と振り返る。

宮下さんも「自動化はできたんですけど、APIで馬体重が取得できなかったので、最初作ったモデルが使えませんでした。15分おきにデータを取得する必要があり、結局はその特徴量なしでやることになりました」と語った。
こうした実装上の困難も、実務的なシステム開発スキルを磨く貴重な機会となった。

今後のデータサイエンス教育への期待

参加者からは、今後のプログラムへの建設的な要望が寄せられた。

倉知さんは準備期間と参加者層の多様化を提案する。
「もっと事前の準備期間があれば、準備モデルを作ったり試す期間が増えたと思います。今回は修士の方が知識もあるので学部生より有利だと感じたので、参加者が増えたら学年別など、もっと細かく区分を設けたら、学部3年生でも自信を持って参加できるかなと思いました」

宮下さんと田中さんは規模の拡大を期待する。
宮下さんは「参加者がもっと増えてくれると盛り上がっていいし、期間が長ければいい。みんなが知っているような大会になってくれれば、入賞したというのはもっと価値あるものになると思います」と語る。
田中さんも「期間が長くなるとのことで、すごく楽しみです。規模がもっと大きくなって、iいろいろな大学の人と関われるようになると、もっといい。チームでの参加もいいかなと思います」と期待を述べた。

Hさんは評価の公平性を重視する。
「個人的には、運要素が少ない評価指標であればあるほど嬉しいですね。一発逆転があると、戦略を考えるのが困ってしまうので」

両名とも、来年の開催があれば「ぜひ参加したい」と力強く語ってくれた。

まとめ

初開催となった「AI競馬予想マスターズ 学生大会」は、参加者たちに実践的なデータサイエンス教育の機会を提供し、高い評価を得た。予測だけでなく「予測結果をどう戦略的に活用するか」、リアルタイムでのシステム実装・運用、継続可能な学びという点で、従来のコンペとは一線を画す教育プログラムとなった。

物理学、生命科学、自然言語処理、コンピュータビジョンと、多様なバックグラウンドを持つ学生たちが集まり、Kaggle Grandmasterから機械学習初学者まで、幅広いレベルの参加者が実践的なスキルを獲得できた点も大きな成果だと言える。