病みつきエンジニアブログ

機械学習、Python、Scala、JavaScript、などなど

データを自由に使えるWikipedia系サービス調べてみたよ

実験等に使うWikipediaのデータセットを調べていたら、データを自由に使えるWikipedia系サービスをいくつか発見したので、簡単に紹介します。

Wikipediaのデータベースについて

photo by PeterThoeny

Wikipedia系サービスの文書等は主にクリエイティブ・コモンズライセンスでライセンスされていて、そのデータを一定の制約のもと、自由に使うことができます。例えばWikipediaの文書は、クリエイティブ・コモンズ 表示-継承の元ライセンスされているので、表示・継承という条件を守れば二次的著作物等を作成することができます。

そしてそのデータベースの集め方ですが、クローリング等は絶対にダメです。その代わり、SQLファイルやXMLファイルなどが公式に提供されていて、ダウンロードすることができます。

Wikimedia DownloadsDatabase backup dumpsから、ダウンロードできます。大抵のファイルはSQLファイルで提供されているので、SQLiteMySQLなどに、リストアした状態で使うと良いと思います。

ということで、Wikipedia系サービスの紹介です。

Wikipedia

言わずと知れたウィキペディアです。百科事典です。

Wikimedia Commons

画像や動画など、「メディア」に特化したものです。ウィキペディアにある画像は、こちらのものが使われています。「コモンズ(commons)」という言われ方もします。

Wiktionary

辞書です。翻訳関係とか、無料オフライン辞書アプリとか作れそうです。

Wikisource

いろんな「原文」を公開しているWikiです。わかりやすい例で言うと、条文や聖書などが載っています。

ウィキニュース

ニュースについてのWikiです。最新のニュースが一ヶ月前だったりするので、あまり流行っていません。英語版は1日1記事程度と、もう少し多いです。

Wikiquote

著名人などの、名言などを引用してまとめたWikiです。きゃりーぱみゅぱみゅなんかのページもあります。

Twitterbotなんかにできそうですね。HMMとかで適当に名言圧縮したら面白そうです()

Wikibooks

オープンなオンライン教科書、オンライン参考書についてのものです。しかし、あまり充実している印象は受けません。

ウィキバーシティ

こちらは、Wikibooks+学習ポータル、という感じです。残念ですが、こちらもあまり充実している印象を受けません。これらのサービスは、「講義の情報を公開してもいいよ」みたいな教員や教授からの提供があれば、ぐっと広まるのでしょう、とは思います。自分のドメインで公開している教授は、よりオープンな場で公開されてもいいのではないかなあ、という感想です。

Wikispecies

生物の、分類学的な情報が載っています。ちゃんとHomo sapiens - Wikispeciesもあるのですが、髪巻き巻きのおっさんというのが納得いかないです。

Wikidata

どういう意図があるのかあまりわからないのですが、言語間リンク等のデータの構造化を目指しているようです(?)

Wikivoyage – Free travel information around the globe

こちらは日本語版はありませんが、オープンな旅行ガイドです。ちなみにNew York City – Travel guides at Wikivoyageでは、「公営の美術館は寄付で入場できる」という小ネタなどが書いてありました(1ドルとかで入れる、ということです)。

Wikijunior

利用できるデータセットが見つからなかったのですが、子供向けの百科事典です。