データセットとは・AI関連用語集

データセットとは、意味や概念を詳しく解説

menu

×AI

AI用語事典

データセット

data set

データセットとは、プログラムで処理されるデータの集合体のこと。元々はIBMのメインフレームコンピューターで扱われるファイルのことをこう呼んでおり、ファイルと同じ意味で使うこともある。

データセットデータセットは、機械学習においては最も重要な存在とされている。機械学習では一般的に以下の3種類のデータセットを使用するが、より大きなデータの集合体(ビッグデータ等)から無作為に引き抜かれたものでなければならない。

・トレーニングセット
最初に使用され、かつ最も規模が大きいデータセット。機械学習アルゴリズムに与えることで、開発モデルのトレーニングに使用する。

・バリデーションセット
トレーニングセットで訓練を行ったのち、分類器のハイパーパラメーター(機械学習アルゴリズムの動きを制御するパラメーター)をチューニングするために用いられるデータセット。様々なハイパーパラメーターを同様のトレーニングセットによって訓練したのち、バリデーションセットを使いパフォーマンスを見て最も優れたものを採用する。

・テストセット
最終段階にのみ使われる、モデルの精度を確認するためのデータセット。バリエーションセットと混同されることもあるが、パフォーマンスをテストするため「だけ」に用いられるという点で違いがある。

なぜバリデーションセットとテストセットを分けるのか?というと、既に使用したバリデーションセットを用いてしまうと精度が高まるのは明らかなので、あえて未使用のデータセットを用いた方が有益な結果が得られると考えられているからである。

このように、機械学習を行うためには目的が異なるいくつかのデータセットを使用する必要がある。そもそものデータが少ないということもあるが、そういう場合にはやや暫定的な結果を出すためのアルゴリズムを使用するといった工夫ができるだろう。

データ収集は手間がかかる作業ではあるものの、データの質がレベルの高い機械学習の実現に大きく影響するため、出来る限りの労力を費やすべきである。

AI用語解説:×AI編集部監修

AI用語を調べる

アイウエオ索引

アルファベット索引

AI用語事典TOPに戻る