国立国会図書館の「LODチャレンジ2014用データセット」公開

先日、国立国会図書館の「LODチャレンジ2014用データセット」が公開された。

月刊「国デコ書誌メタデータ友の会」第4号(このブログのシリーズ記事)で取り上げようと思ったが、記事が長くなったので前もって「増刊号」として取り上げることにする。

前回の記事では、当該データセットが公開予定であることに触れ、「思い切った判断に驚いた」と述べた。というのも、このブログのシリーズ記事で見ているように、著作権保護期間満了として公開されていた資料が人知れず引っ込められていることは、しばしば発生しており、ある時点で国立国会図書館著作権保護期間満了として扱っていた図書のリストをまとまった形で公開するとは、保護期間満了ではないと判明した資料の著作権者への対応等を含め、「思い切った判断」と感じた次第であった。そうしたデータが予告どおり公開されたことに感謝したい。

公開された内容を見てみる。

当初(9月1日)の国立国会図書館のアナウンスでは、

(1) 近代デジタルライブラリーメタデータ(約25万件)(9月下旬頃掲載予定)
国立国会図書館がデジタル化した資料(近代デジタルライブラリー)のうち、著作権保護期間満了の資料に対応する書誌データ(RDF/XML形式)のセットです。
(2) ISBNとNDLBibID(国立国会図書館書誌ID)とNDLJP(国立国会図書館が付与する永続的識別子)の対応一覧(9月下旬頃掲載予定)
ISBNに対応する書誌IDとデジタル化資料の識別子が分かるファイルです。対応関係は多対多です。

http://www.ndl.go.jp/jp/aboutus/standards/lod_download.html#lod_download04

とされていたが、9月28日時点で公開された内容は以下のようになった。

(1) 近代デジタルライブラリーの原資料のメタデータ(約16万件)
国立国会図書館がデジタル化した資料(近代デジタルライブラリー)のうち、著作権保護期間満了の図書に対応する(原資料の)書誌データ(RDF/XML形式)のセットです(2014年8月31日時点)。
(2) ISBNとNDLBibID(国立国会図書館の書誌ID)、JPNO(全国書誌番号)、NDLJP(国立国会図書館が付与する永続的識別子)の対応一覧
ISBNに対応する各種IDが分かるファイル(TSV形式)です。官庁出版物や雑誌など、ISBNがない資料も含まれています(2013年12月17日時点)。

http://www.ndl.go.jp/jp/aboutus/standards/lod_download.html#lod_download04

メタデータ(約25万件)」から「原資料のメタデータ(約16万件)」への変更

(1)の近デジ関係書誌メタデータについては、提供内容が「メタデータ(約25万件)」から「原資料のメタデータ(約16万件)」に変化している。

件数だけ見ると減少しているように見えるが、全件公開ではなくなったのだろうか、詳しく見てみる。

上記の「近代デジタルライブラリーの原資料のメタデータ」に同梱された説明ファイル(about_kindai.txt)によると、このメタデータ国立国会図書館デジタルコレクション(以下、NDLデジコレ)由来のメタデータではなく、その原資料のNDL-OPAC由来のメタデータであり、データの粒度は「国立国会図書館の書誌ID(NDLBibID)」の単位であることが分かる。

また、(2)の「ISBNとNDLBibID、JPNO、NDLJPの対応一覧」に同梱された説明ファイル(about_ids.txt)によれば、デジタル化資料に対して「国立国会図書館で付与した永続的識別子(NDLJP)」について、「NDLBibIDとNDLJPは、1対0(デジタル化資料が存在しない場合)、1対1または1対多(多巻物などで、書誌データは1件だが対応するデジタル化資料が複数存在する場合)で対応」すると説明されている。

そこで、さっそく(2)の各種ID対応一覧が役に立ち、(1)のデータセット(約16万件のNDLBibID)に対応するデジタル化資料数(NDLJPの件数)を調べることができる。(今回公開されたデータセットのなかでもっともありがたいものは、実は(2)の各種ID対応一覧かもしれない。)

その前に、(1)のデータセットの正確な件数を確認しておくと、各XMLファイルに「166810」とあり、166,810件のレコード数があるように見えるが、実際には「339」となるべきレコードが欠けているため、166,809件のレコードとなっている*1

それら166,809件のNDLBibIDについて、(2)の各種ID対応一覧を用いて、対応するNDLJPの件数を調べると、252,465件と分かる。

これは当初アナウンスされていた「メタデータ(約25万件)」に相当する件数となっている。

これらから、当初のアナウンスよりも公開件数が減少したのは、おそらく当初はデータ粒度をNDLJPで考えてカウントしていたものが、NDLBibIDの単位で公開するよう変更されたためであろうと推測できる。

NDLデジコレのメタデータとの比較

(1)のデータセット(以下、「NDL-OPAC由来メタデータ」という)に大規模な省略はなさそうだと分かったところで、これまでこのブログで扱ってきたNDLデジコレのメタデータと比較してみる。

NDLデジコレのメタデータ*2のうち、2014年8月31日時点で「資料種別」*3が「図書」であって「著作権に関する情報」*4が「インターネット公開(保護期間満了)」であるものは、258,680件であった(以下、「NDLデジコレ由来メタデータ」という)。

さらに、そのうち「原資料の識別子(国立国会図書館書誌ID)」*5の値を持つものは、255,446件であり、それらから重複するNDLBibIDを除くと、ユニークなNDLBibIDは、167,975件であった。

データセット NDLBibID NDLJP
NDL-OPAC由来メタデータ 166,809件 252,465件
NDLデジコレ由来メタデータ
(NDLBibIDの値を持つもの)
167,975件 255,446件

NDL-OPAC由来メタデータと、NDLBibIDの値を持つNDLデジコレ由来メタデータの件数は、おおむね近い値を取っているが、一致はしていない。

それぞれに含まれるNDLBibIDの比較を行う前に、NDLデジコレ由来メタデータのうちNDLBibIDの値を持たないものが3,234件あるとはどういうことか調べておく。

NDLBibIDの値を持たないNDLデジコレ由来メタデータ

NDLBibIDの値を持たないNDLデジコレ由来メタデータには大きく分けて、(a) NDLBibIDの値を設定漏れしていると思われるもの、(b) 支部図書館由来で大規模デジタル化されたものでNDLBibIDが割り振られていないと思われるものの2種類があるようだ。

前者(a)について、具体的に挙げる。

暁斎絵日記』(他1軸3冊)は、NDLデジコレのメタデータを見ると、NDLBibIDの値が設定されていない。しかし、この資料は、NDL-OPACでの検索結果にあるように、NDLBibID(書誌ID)024015234であり、国立国会図書館サーチ(以下、NDLサーチ)でもそのNDLBibIDに基づいたURLで書誌情報が表示される。NDLデジコレメタデータでのNDLBibID値の設定漏れではないだろうか。

草木写生』(他1軸)も同様。

紀伊国名所図会』(他5冊)も同様だが、この資料については、さらに問題があって、NDLデジコレのメタデータではNDLJPが「info:ndljp/pid/765534」となっており、「http://dl.ndl.go.jp/info:ndljp/pid/765534」で閲覧できるように記されているが、実際にはこのURLを訪れると「書誌が見つかりません。」と表示される。

次に、後者(b)のケースだが、数が多いので、少しだけ例に挙げる。

提供者 (provider)が「大規模デジタル化(国立国会図書館支部法務図書館)」である『埃及国裁判改正書類』は、NDLデジコレのメタデータを見ると、NDLBibIDの値が設定されていない。

提供者が「大規模デジタル化(国立国会図書館支部最高裁図書館)」である『大審院民事判例要旨類集追録 自明治三十五年至同三十八年』や、提供者が「大規模デジタル化(国立国会図書館支部国交省図書館)」である『建築工事仕様及積算法 續篇 實例之部 圖面』なども同様である。

(b)はNDLデジコレや近デジで閲覧できるが、NDL-OPACではヒットしない(NDLサーチではヒットする)。これらの資料には、NDLBibIDが割り振られていないものと思われる。

このため、(b)の資料は、近デジで閲覧できるものの、そのメタデータは(1)のNDL-OPAC由来メタデータには含まれていない。

NDLBibIDベースでの比較

NDL-OPAC由来メタデータとNDLデジコレ由来メタデータ(NDLBibIDの値を持つもの)のNDLBibID件数を比較すると、前者の方が1,166件少ない。

より詳しく見ると、前者のみにリストアップされているNDLBibIDが28件存在し、後者のみにリストアップされているNDLBibIDが1,194件存在している。この違いは何によって生じているのだろうか。

資料種別の設定値の違い

一つには、デジタル化資料とその原資料とで、資料種別の設定値が異なっているものがある。このため、資料種別が図書であるものを抽出した際に、含まれる資料に相違が生じる。

例えば、NDL-OPAC由来メタデータのみにリストアップされている『文化日本記念地理展覧会陳列品目録 : 地図と模型』などは、原資料メタデータでは資料種別が「図書」「国立国会図書館刊行物」と設定されているが、デジタル化資料メタデータでは資料種別が「政府刊行物」「国立国会図書館刊行物」とのみ設定されていて「図書」の設定がない。

類似のケースに、「Official gazette」(英文官報)がある。これは、原資料メタデータでも、デジタル化資料メタデータでも、資料種別に「図書」の設定はなされていないが、(1)のNDL-OPAC由来メタデータには含まれている。

メタデータ登録時期の違い

もう一つには、2014年8月31日時点ではNDLデジコレにはメタデータが登録されていなかった資料であって、NDL-OPAC由来メタデータにはリストアップされているものが存在する。

例えば、NDL-OPAC由来メタデータのみにリストアップされている『De la transaction.』などは、2014年9月15日付でNDLデジコレのメタデータが登録されている。

NDLデジコレでのNDLBibID設定漏れ

また、先ほど見た『暁斎絵日記』や『草木写生』のように、NDLデジコレのメタデータでNDLBibIDの値に設定漏れがあると思われるものもあり、これらはNDL-OPAC由来メタデータのみにリストアップされている。

多巻物などの一部が非「インターネット公開(保護期間満了)」状態

NDL-OPAC由来メタデータにはリストアップされていない資料のなかには、多巻物などで一部がインターネット公開(保護期間満了)状態にないためと思われるものが存在する。

例えば、『哲学館資本部・新築部報告 明治33,34年度』は、NDL-OPAC由来メタデータにはリストアップされていない。

この資料は、『哲学館資本部・新築部報告 明治33,34年度』のうち、『哲学館資本部・新築部報告 明治34年度』は「インターネット公開(保護期間満了)」状態だが、『哲学館資本部・新築部報告 明治33年度』は「国立国会図書館/図書館送信参加館内公開」状態になっている。

このようなケースでは、原資料のNDLBibIDベースとしては、(1)のリストアップ対象から外れると判断したものと思われる。

その他

上に挙げたもので、件数が異なる理由を網羅している保証はなく、また先述(b)のような資料も存在するので、LODチャレンジ2014に参加される方は、「近代デジタルライブラリーの原資料のメタデータ」としてダウンロードできるデータが、必ずしも近デジで閲覧可能な著作権保護期間満了図書のリストと等しくはないことを頭の片隅に置いて利用されると良いと思う。

「消えた書誌情報」再び

ところで、(1)のNDL-OPAC由来メタデータに記載されたNDLBibIDから、(2)の各種ID対応一覧を用いて対応するNDLJPを検索した際に、対応するNDLJPが存在しない資料が1件存在する。

この資料、『日本庶民教育史』(乙竹岩造 著)は、以前の記事で「消えた書誌情報」として触れた資料であり、以前は、NDLサーチ()で書誌情報が表示され、NDLデジコレ()で資料が閲覧できたはずだが*6、現在は表示されなくなっている*7

近デジでは、別著者(石川謙)の同名資料はヒットするが、乙竹岩造によるものはヒットしない。また、NDLデジコレでも、国立国会図書館内限定まで含めて検索しても当該資料はヒットしない。

このようにデジタル化資料が公開されていない図書の情報が(1)のNDL-OPAC由来メタデータに記載されているのはなぜなのだろうか(もしくはどのような経緯で非公開になったのだろうか)。

NDL-OPACとNDLデジコレのゲタ

NDLデジコレのメタデータに含まれる〓(ゲタ)については、このブログで何度か取り上げてきた。今回の、データプロバイダがNDL-OPACであるメタデータでは、どうだろうか。

例えば、『台湾総督府例規類抄』は、データプロバイダがNDL-OPACであるメタデータでは、目次項目に「外出〓禁止」というゲタがある。これは、NDLデジコレのメタデータでは「外出ノ禁止」となっており、書籍画像を見てもゲタの部分は「ノ」で差し支えないものと思われる。

また、『海軍制度沿革』シリーズは、データプロバイダがNDL-OPACであるメタデータでは、目次に含まれる約物の蛇の目(書籍画像)が「〓皇室典範」のようにゲタになっている。一方、NDLデジコレのメタデータでは蛇の目は無視されている。

このように見ると、データプロバイダがNDL-OPACであるメタデータの方がノイジーに思われるが、NDLデジコレのメタデータにも問題があることに気づいた。

例えば、NDL-OPACでは『小野〓謔字尽』とされている資料が、NDLデジコレでは『小野謔字尽』とされている。

一見、NDLデジコレの方がゲタが少なく、クリーンなデータとなっているイメージだが、このように単にゲタを潰しただけで、そこに本来は文字があるという情報が失われてしまっているのは、困ったことになりはしないだろうか。

*1:いずれファイルの差し替えがあるかもしれないが、9月30日現在公開中のファイルは166,809件のレコードとなっている。

*2:国立国会図書館サーチが提供するOAI-PMHを利用した。

*3:dcndl:materialType

*4:dcterms:rights

*5:dcndl:sourceIdentifier xsi:type="dcndl:NDLBibID"

*6:遅くとも2014年3月20日付のメタデータが存在していた。(2)の各種ID対応一覧は2013年12月17日時点のデータとあるが、その時点でのメタデータの状況は不明である。

*7:2014年6月30日付でメタデータが削除されている。