実験等に使うWikipediaのデータセットを調べていたら、データを自由に使えるWikipedia系サービスをいくつか発見したので、簡単に紹介します。
Wikipediaのデータベースについて
Wikipedia系サービスの文書等は主にクリエイティブ・コモンズライセンスでライセンスされていて、そのデータを一定の制約のもと、自由に使うことができます。例えばWikipediaの文書は、クリエイティブ・コモンズ 表示-継承の元ライセンスされているので、表示・継承という条件を守れば二次的著作物等を作成することができます。
そしてそのデータベースの集め方ですが、クローリング等は絶対にダメです。その代わり、SQLファイルやXMLファイルなどが公式に提供されていて、ダウンロードすることができます。
Wikimedia DownloadsのDatabase backup dumpsから、ダウンロードできます。大抵のファイルはSQLファイルで提供されているので、SQLiteやMySQLなどに、リストアした状態で使うと良いと思います。
ということで、Wikipedia系サービスの紹介です。
Wikipedia
言わずと知れたウィキペディアです。百科事典です。
Wikimedia Commons
画像や動画など、「メディア」に特化したものです。ウィキペディアにある画像は、こちらのものが使われています。「コモンズ(commons)」という言われ方もします。
Wiktionary
辞書です。翻訳関係とか、無料オフライン辞書アプリとか作れそうです。
Wikisource
いろんな「原文」を公開しているWikiです。わかりやすい例で言うと、条文や聖書などが載っています。
ウィキニュース
ニュースについてのWikiです。最新のニュースが一ヶ月前だったりするので、あまり流行っていません。英語版は1日1記事程度と、もう少し多いです。
Wikiquote
著名人などの、名言などを引用してまとめたWikiです。きゃりーぱみゅぱみゅなんかのページもあります。
Twitterのbotなんかにできそうですね。HMMとかで適当に名言圧縮したら面白そうです()
Wikibooks
オープンなオンライン教科書、オンライン参考書についてのものです。しかし、あまり充実している印象は受けません。
ウィキバーシティ
こちらは、Wikibooks+学習ポータル、という感じです。残念ですが、こちらもあまり充実している印象を受けません。これらのサービスは、「講義の情報を公開してもいいよ」みたいな教員や教授からの提供があれば、ぐっと広まるのでしょう、とは思います。自分のドメインで公開している教授は、よりオープンな場で公開されてもいいのではないかなあ、という感想です。
Wikispecies
生物の、分類学的な情報が載っています。ちゃんとHomo sapiens - Wikispeciesもあるのですが、髪巻き巻きのおっさんというのが納得いかないです。
Wikidata
どういう意図があるのかあまりわからないのですが、言語間リンク等のデータの構造化を目指しているようです(?)
Wikivoyage – Free travel information around the globe
こちらは日本語版はありませんが、オープンな旅行ガイドです。ちなみにNew York City – Travel guides at Wikivoyageでは、「公営の美術館は寄付で入場できる」という小ネタなどが書いてありました(1ドルとかで入れる、ということです)。
Wikijunior
利用できるデータセットが見つからなかったのですが、子供向けの百科事典です。