読者です 読者をやめる 読者になる 読者になる

pixyzehn blog

iPhone App, Mac App, Programming, Web service, Tool, Evernote, etc

機械学習とかに使えそうなデータセット

Tips

http://www.flickr.com/photos/22019171@N00/3317748176
photo by Régis Gaidot


データセットとかの知見を集めました。


いいデータセットないかと調べる機会があったので、得た知見をまとめてみました。


これについてはすでに良い情報がすでにあったのでそのリンクも紹介します。


奥 健太 - 情報推薦研究ツールボックス


grouplensのデータセットは、論文などにも利用されているのを見かけました。


注意点としては


・EachMovieなどは利用できない
・MovieLensやDelicious、Last.fmはdat形式のファイル
・WikiLensはdumpして使うようにされている
・Book-Crossingはcsvとsql
・jesterはExcelファイル


ということです。


それ以外だと


ようこそ - the Datahub


情報学研究データリポジトリ データセット一覧


livedoor グルメの研究用データセットです。 2011年4月22日時点でのデータ
https://github.com/livedoor/datasets


hanzomemo: 情報推薦の研究に使えるデータセット


Yahoo! Labs、Flickrで研究用のデータセットとして1億件の画像等をCCライセンスで公開 | カレントアウェアネス・ポータル


上記のに加えてAPIとかであれば


日本の全エンジニアに捧ぐ!現在公開されているAPI一覧【2013年版】 | Find Job ! Startup


が参考になるのかなと思います。


申請が必要なのもありますが、海外のほうがデータに対してもオープンで日本とは違った印象をかなり受けました。