分類問題(分類アルゴリズム)

今回は分類問題のうち「二値分類」をやります。二値分類とは「データを2つの分類先に分けること」です。

データの用意

練習として新しいサンプルデータを使います。

元データはこちら

[タイムS、上がり3F、-3Fタイム](単位:秒)

タイムS=「上がり3F」+「-3Fタイム」

となっています。

今回は「データを2種類に分ける」のが目的なので、どういうふうに分けるかを決めないといけません。そこで各競走馬の走るペースによって「前半型」と「後半型」に分けることにします。

そこでレースのタイムを前後半に分けて、前半のタイム(-3Fタイム)が早い方を「前半型」後半のタイム(上がり3F)が早い方を「後半型」と呼ぶこととします。

(便宜上、前後半のタイムが同値のときは「前半型」としています。)

 

そして以後「タイムS」は使わないので削除。それと「前半型」を「1」、「後半型」を「-1」という項目を追加します。

実際に使うデータはこうなりました。

 

グラフの描画

プロットしてみます。

 

 

結果

(前半型「x」後半型「o」)

 

こうなりました。

(赤矢印が1着馬:3F「33.9」、-3F「34.4」)

 

まとめ

今回はここまで。

分類問題に入っていきたいところでしたが、参考にしている本のサンプルデータに競馬のデータを入れて試す作業がどうもうまくいかないため(理解不足?)次回からは先に理論から入って、実践をあとにしようと思います。特に数式の意味を説明できないのでどの記号にどの数値を入れるのかが一番のつまづきポイント。次回は理論に入っていきたいと思います。