大規模データセットの憂鬱
大規模機械学習でかつる、とか言っても結局学習・評価用データセットがなければどうにもならないわけで、一般に公開されている有名データセットを使おうにも、製品開発の際はデータセットの商用利用になるせいでライセンスに引っ掛かる。というわけで、ImageNetとか使えないんですよね。。。GxxglxとMSに勝てないのはデータセットとマシンスペックの部分じゃよ。会社にも博士号持ちいっぱいいるしね・・・
と思ったらCreative Common下で公開されているデータがあった。
- Open Image Dataset https://research.googleblog.com/2016/09/introducing-open-images-dataset.html
- openimages/dataset https://github.com/openimages/dataset
- Creative Common 4.0 https://creativecommons.org/licenses/by/4.0/
Gxxglxじゃん・・・。