大規模データセットの憂鬱

大規模機械学習でかつる、とか言っても結局学習・評価用データセットがなければどうにもならないわけで、一般に公開されている有名データセットを使おうにも、製品開発の際はデータセットの商用利用になるせいでライセンスに引っ掛かる。というわけで、ImageNetとか使えないんですよね。。。GxxglxとMSに勝てないのはデータセットとマシンスペックの部分じゃよ。会社にも博士号持ちいっぱいいるしね・・・

と思ったらCreative Common下で公開されているデータがあった。

Gxxglxじゃん・・・。