手書き数字・データセット
プレゼン用に訓練データ・質問データを図示できる画像を作ろうかと思い,手書きの数字データセットを探していたらこんなのを発見.
http://yann.lecun.com/exdb/mnist/
手書き数字のデータベースだった.
Matlab用にmatファイルかなにかに書き換えて使いたいところ.と,思ったらすでにMatlab用にmatファイル化してくれている人がいた.ありがたい.
http://cs.nyu.edu/~roweis/data.html
mnist_all.matの中にはtrain*とtest*(*には0〜9の数字が入る)という変数がある.これは各数字ごとの訓練データと質問データにあたる.1つの手書き数字は28x28の画像で,これが784次元の行ベクトルで表現されている.つまり訓練・質問データは行列であり,データの数x784という行列になっている.
ためしに画像化するにはこんなコード.
mnist = load('./mnist_all.mat'); test_img = mnist.train2(1,:); test_img = reshape(test_img,28,28)'; image(test_img),colormap(gray);
こんな感じの手書き文字がはいっとった.
:
:
今は顔画像しかやってないしなぁ.テキストデータとか音声データに対してもなんかやってみたい気もする.どれも高次元ベクトルで表現されるなんらかのパターンだから,たぶんそんなに結果に差がでるとも思えないけれど・・・.