国立国会図書館デジタルコレクションの書誌メタデータを刈り取ってみた

先日、国立国会図書館サーチ(以下、NDLサーチ)が提供するOAI-PMH(ハーベスト用API)を利用して国立国会図書館デジタルコレクション(以下、国デコ)のメタデータ(書誌情報)を取得してみた。

ごく一部の方([twitter:@uakira2]さんや[twitter:@yuta1984]さん)の参考になることもあるかもしれないので、メモ。

問:近デジ図書資料の内訳(PD/非PD)は?

今年4月、インプレスR&D×Amazonの『NDL所蔵古書POD』に関するプレスリリースに、「現在、近代デジタルライブラリーには、約35万点のパブリックドメイン古書が登録されています」との記述があった。

しかし、近デジで公開されている約35万点の図書には、著作権保護期間満了のほかに、著作権者の許諾や文化庁長官の裁定を受けたものも含まれるため、「約35万点のパブリックドメイン」は正しくない。

では、約35万点のうち、パブリックドメインなものは何点あるのか。NDLのサイトにはその数字が見当たらないため、メタデータを取得して集計してみることにした。

メタデータの取得

5月下旬、OAI-PMHを用いて、2014年1月1日以降にNDLサーチに登録・更新された国デコのメタデータをリクエストしたところ、2,352,245件のメタデータ(約12.3GB)が得られた。

その時点での国デコ公開資料数は、2,373,498件であった(うち、インターネット公開資料は483,565件)。取得できたメタデータの件数とは約2万件の差があるが、ほぼカバーしている*1。今年1月21日から図書館送信が始まった関係で、多くのメタデータが更新されたのであろうか。

国デコのインターネット公開資料と近デジ

同じ時点で、国デコのインターネット公開分(一部資料群)と近デジでの公開分を比較すると、古典籍資料(貴重書等)の数は違うが、図書・雑誌の数は同じであることが分かる。

デジタル化資料 国デコのインターネット公開分 近デジ
図書 350155 350155
雑誌 5156 5156
古典籍資料(貴重書等) 73216 2155

以下、国デコを対象として取得したメタデータのうち、インターネット公開分の図書について、近デジ図書資料と同じ集合であるものと考えて集計する。

基礎集計

著作権に関する情報 (dcterms:rights)

取得したメタデータには「著作権に関する情報」(dcterms:rights)という項目がある。これがまたカオス。括弧が半角だったり全角だったり……。

件数 著作権に関する情報 (dcterms:rights)
5 インターネット公開(許諾)
24652 インターネット公開(許諾)
1 インターネット公開(裁定)
13 インターネット公開(裁定)67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27
3 インターネット公開(裁定)67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2012/03/01
1 インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27
32 インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2009/12/18; 2010/12/27
174 インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2009/12/18
1 インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/26
29 インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27; 2012/03/01
50472 インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27
33851 インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2012/03/01
90207 インターネット公開(保護期間満了)
2 インターネット公開(保護期間満了)
274540 インターネット公開(保護期間満了)
649 インターネット公開
518227 館内公開
1309886 国立国会図書館/図書館送信参加館内公開
1 国立国会図書館/歴史的音源配信参加館内限定公開
6 著作権者許諾(※転載については、著作権者(石巻日日新聞社)の許諾が必要です。)
1090 保護期間満了
アクセス制限 (dcterms:accessRights)

アクセス制限 (dcterms:accessRights)は、以下のような値を取っているが、内容の詳細は分からない*2。一つの資料に複数設定されているものもある。

件数 アクセス制限 (dcterms:accessRights)
2351501 S01P99U99
1875756 S02P01U99
1309835 S02P06U06
1309835 S02P07U07
47642 S02P08U08
475745 S02P99U99
1828173 S03P01U99
1309835 S03P07U07
474580 S03P99U99
資料種別 (dcndl:materialType)

どの資料種別 (dcndl:materialType)のものが、近デジでの「図書」区分に相当するかは、良く確認しなければならない。

例えば、資料種別は「政府刊行物」「国立国会図書館刊行物」に設定されていて「図書」には設定されていないが、近デジでは図書に区分されているものもある。

件数 資料種別 (dcndl:materialType)
1119671 雑誌
916764 図書
140904 博士論文
85537 和古書
48732 録音資料
32122 静止画資料
24736 政府刊行物
20950 官公庁刊行物
3786 国立国会図書館刊行物
553 立法情報
102 映像資料
16 視覚障害者向け資料
16 点字
6 新聞

集計

著作権に関する情報の件数を合計すると、2,303,842件。取得したメタデータのうち、約4.8万件には著作権に関する情報の記載がないことが分かる*3

著作権に関する情報に「インターネット公開」を含むものの合計は474,632件。先に挙げた、国デコのインターネット公開資料数とほぼ一致する。

「インターネット公開」を含み、資料種別が「図書」であるものは349,969件。先に挙げた、近デジの図書数350,155点とほぼ一致する。

どの資料種別のものを近デジ図書として集計するかは良く確認しなければならないが、単純に『資料種別が「図書」であるもの』としてもほぼ一致していたので、以下ではこの条件で集計する。

なお、「保護期間満了」とだけ設定されているものは全て「録音資料」であり、「インターネット公開」とだけ設定のある資料は「静止画資料」のみであった。

答:近デジ図書資料の内訳(PD/非PD)は?

資料種別が「図書」であるものについて、著作権に関する情報を集計してみる。

件数 著作権に関する情報 (dcterms:rights)
6717 インターネット公開(許諾)
1 インターネット公開(裁定)67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27
3 インターネット公開(裁定)67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2012/03/01
1 インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27
32 インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2009/12/18; 2010/12/27
174 インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2009/12/18
1 インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/26
29 インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27; 2012/03/01
50470 インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27
33851 インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2012/03/01
1977 インターネット公開(保護期間満了)
2 インターネット公開(保護期間満了)
256711 インターネット公開(保護期間満了)

以上のざっくりした集計から、パブリックドメイン図書(著作権保護期間満了)は約26万点と言えそう。

権利状態 点数
著作権保護期間満了 258,690点
著作権者の許諾 6,717点
文化庁長官裁定 84,562点

風呂敷

以前からNDLサーチAPIにはお世話になっていたが、その検索用APIでは、not条件等が指定できない、500件を超える結果が取得できないなどの歯がゆい点もあった。

今回のように(ほぼ)全メタデータを取得することで、そうした制約にとらわれず、自由な切り口で集計したり検索したりすることができるようになった(それも、NDLサーチでハーベスト用APIを一般提供してくれているおかげ)。

こうした検索のできるシステムを公開したら嬉しい方も(ごく一部)いるのではないかと思うが、以下の疑問が解けない。

二次利用の促進のための府省のデータ公開に関する基本的考え方(ガイドライン)」には、以下の記載がある。

単なる事実や数値データは、それ自体としては著作物とはならず、著作権の保護対象にはならない。編集著作物やデータベースの著作物と認められる場合も、素材・数値データが著作物でない場合は、素材・数値データそのものを利用することは著作権法の観点からは制限されない。

http://www.kantei.go.jp/jp/singi/it2/densi/kettei/gl_honbun.pdf

一方で、「国立国会図書館ウェブサイトからのコンテンツの転載について」を見ても、書誌情報を自由に二次利用して良いかは判断できない(どちらかというと転載申請が必要に見える)。

NDL LabSearch Client をオープンソースとして公開しました」という記事では、「ユーザがHackできるディスカバリ・インターフェースの実現」というコンセプトが掲げられている。

書誌情報を自由に二次利用して良ければ、「プログラミングができる利用者が直接オルタナティブを開発することで解決するという方法」(前掲記事)が取れるのだけど!

*1:この差についてざっと見たところ、雑誌の「全号まとめ」等が含まれているか否か等の違いがあるようだ。国デコで表示される資料の中には、リポジトリ番号(dcndl:bibRecordCategory)がR100000002 (NDL-OPAC)になっていて、R100000039(国立国会図書館デジタルコレクション)にはなっていないものがある。それらの資料については、データプロバイダに国デコを指定してメタデータを取得した場合には結果に含まれない。例えば、官報における「全号まとめ」(書誌)と各巻号書誌)、日本占領関係資料におけるこれ書誌)とこれ書誌)、『オヂュッセーア』における「全号まとめ」(書誌)と各巻号書誌)などでは、それぞれの前者は取得したメタデータに含まれず、後者は含まれている。

*2:橋本さんによると、「S02P99U99」がインターネット公開資料を指すとのこと。

*3:例えば、歴音のこれ書誌)など、アクセス制限 (dcterms:accessRights)の記載はあるが、著作権に関する情報 (dcterms:rights)は記載がない。