Generated with sparks and insights from 7 sources

img6

img7

img8

img9

img10

img11

Introduction

  • 競馬予測AIは、過去のレースデータや競走馬の情報を基に、機械学習やディープラーニングを用いてレース結果を予測する技術です。

  • 多くの競馬予測AIは、データの収集、前処理、モデルの構築、学習、評価、予測のステップを経て開発されます。

  • 代表的なモデルには、LightGBMやXGBoost、ニューラルネットワーク(CNNなど)があります。

  • データの収集には、スクレイピング技術を用いて競馬情報サイトからデータを取得する方法が一般的です。

  • 前処理では、カテゴリ変数のエンコーディングや欠損値の処理が重要です。

  • 評価方法としては、的中率や回収率が用いられます。

  • 競馬予測AIの実例として、Skyleyのディープラーニングモデルや、LightGBMを用いたモデルが挙げられます。

採用モデルの例 [1]

  • LightGBM: 高速で軽量な勾配ブースティングフレームワーク。多くの競馬予測AIで使用されています。

  • XGBoost: 勾配ブースティングの一種で、特に大規模データセットに適しています。

  • ニューラルネットワーク: 特にCNN(畳み込みニューラルネットワーク)が画像データの処理に使用されます。

  • DL4J: Java向けのディープラーニングフレームワーク。教育用としても優れています。

  • Keras: Pythonで使用される高レベルのニューラルネットワークAPI。

  • Prediction One: Google Colaboratoryを利用したモデル構築。

  • AdaBoost: 弱い学習器を組み合わせて強力な予測モデルを作成する手法。

  • Random Forest: 多数の決定木を用いたアンサンブル学習手法。

データの収集と前処理 [1]

  • データの収集: 競馬情報サイト(例: netkeiba.com)からスクレイピング技術を用いてデータを取得。

  • スクレイピングツール: Jsoupなどのライブラリを使用。

  • 前処理: カテゴリ変数のエンコーディング、欠損値の処理、データの正規化。

  • エンコーディング: 性別や馬名などのカテゴリ変数を数値に変換。

  • 欠損値処理: 仮想のレースデータを用いて欠損値を補完。

  • データのマージ: 各要素をマージして一つのテーブル形式に変換。

  • データの範囲: 過去5年間のレースデータを使用。

  • データの保存: CSV形式で保存し、後のモデル学習に使用。

img6

img7

モデルの構築と学習 [1]

  • モデルの構築: KerasやDL4Jなどのライブラリを使用してディープラーニングモデルを構築。

  • ハイパーパラメータの選択: num_leaves、min_child_samples、max_depthなどのパラメータを調整。

  • 学習方法: 正則化やドロップアウトなどのテクニックを使用して過学習を防ぐ。

  • 学習データ: 2018-2022年の過去5年間のレース結果を使用。

  • テストデータ: 2023年1~4月のレース結果を使用。

  • 評価指標: 正解率、適合率、再現率、F1スコアなど。

  • 学習環境: Google ColaboratoryやローカルPCを使用。

  • モデルの保存: 学習済みモデルを保存し、後の予測に使用。

img6

評価方法 [1]

  • 的中率: 的中レース数/購入レース数。

  • 回収率: 各レース単勝100円1点買いをしたとして、払い戻し金額/購入金額。

  • 評価データ: 2023年1~4月のレース結果を使用。

  • 評価指標: 正解率、適合率、再現率、F1スコアなど。

  • 混同行列: モデルの予測結果と実際の結果を比較。

  • 評価結果: LightGBMの的中率は26.6%、回収率は76.8%。

  • ニューラルネットの評価: 的中率は17%、回収率は69.3%。

  • 改善点: エンコーディングや前処理の見直しが必要。

img6

実際の事例 [1]

  • Skyleyのディープラーニングモデル: 競馬予測プログラムの開発過程を記録。

  • LightGBMを用いたモデル: 高速で高精度な予測を実現。

  • DL4Jを用いたモデル: Java環境でのディープラーニングモデル構築。

  • Prediction One: Google Colaboratoryを利用したモデル構築。

  • データ収集: netkeiba.comからのスクレイピング。

  • 前処理: カテゴリ変数のエンコーディングや欠損値の処理。

  • 評価結果: LightGBMの的中率は26.6%、回収率は76.8%。

  • 改善点: エンコーディングや前処理の見直しが必要。

img6

img7

Related Videos

<br><br>

<div class="-md-ext-youtube-widget"> { "title": "\u3010\u30ea\u30e1\u30a4\u30af\u7248#11\u3011\u7684\u4e2d\u7387\u30fb\u56de\u53ce\u7387\u306e\u30b7\u30df\u30e5\u30ec\u30fc\u30b7\u30e7\u30f3\u3092\u4f5c\u6210\u3059\u308b\u3010\u7af6\u99ac ...", "link": "https://www.youtube.com/watch?v=EYspuJy780c", "channel": { "name": ""}, "published_date": "1 month ago", "length": "" }</div>

<div class="-md-ext-youtube-widget"> { "title": "\u3010\u30ea\u30e1\u30a4\u30af\u7248#9\u3011\u7af6\u99ac\u4e88\u60f3AI\u304c\u3064\u3044\u306b\u5b8c\u6210\uff01\u5b9f\u969b\u306e\u4e88\u6e2c\u6642\u306e\u30b3\u30fc\u30c9 ...", "link": "https://www.youtube.com/watch?v=FhQSNUfb-Ak", "channel": { "name": ""}, "published_date": "Jun 15, 2024", "length": "" }</div>

<div class="-md-ext-youtube-widget"> { "title": "chatGPT\u3067\u7af6\u99ac\u4e88\u60f3\u3057\u3001\u99ac\u5238\u3092\u8cb7\u3063\u3066\u307f\u305f\u7d50\u679c\u3002AI\u3067\u7a3c\u3052\u308b\u306e\u304b\uff1f", "link": "https://www.youtube.com/watch?v=3zKpP5jgE1k", "channel": { "name": ""}, "published_date": "Mar 12, 2023", "length": "" }</div>