国立国会図書館デジタルコレクションの公開範囲変動(2014年8月)

月刊「国デコ書誌メタデータ友の会(ウォッチャー)」と内田さん([twitter:@uakira2])に命名された、このシリーズ記事。三日坊主ならぬ第三号までは出そうということで、今月も国立国会図書館デジタルコレクション(以下、国デコ)公開範囲の変動を追ってみた。

国立国会図書館デジタルコレクション書誌メタデータ 2014年8月の変動

国デコのメタデータについて、2014年8月1日から2014年8月31日までに変更のあったレコードは50,221件であった*1

今年7月末時点のデータにおいては、「資料種別」*2が「図書」であるもののうち、「著作権に関する情報」*3に「インターネット公開」を含むものは349,914件であったが、8月31日までの更新を適用したデータにおいては350,030件となっており、116件増加するとともに、メタデータ上もインターネット公開図書が35万件の大台を突破していることが分かる。

資料種別が「図書」であるものについて、資料数内訳は以下の通りであった。

著作権に関する情報 (dcterms:rights) 7月末 8月末
インターネット公開(許諾) 6717 6813 +96
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2009/12/18; 2010/12/27 32 32 0
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2009/12/18 173 173 0
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27; 2012/03/01 29 29 0
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27 50453 50452 -1
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2012/03/01 33851 33851 0
インターネット公開(保護期間満了) 258659 258680 +21
国立国会図書館/図書館送信参加館内公開 502951 502821 -130
館内公開 63902 63916 +14
(未設定) 1 1 0
(総計) 916768 916768 0
(内、インターネット公開分合計) 349914 350030 +116

さらに「著作権に関する情報」変動の内訳を見てみる。

著作権に関する情報 (dcterms:rights)の変動 (7月末 → 8月末) 件数
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27 → 館内公開 1 *4
インターネット公開(保護期間満了) → 館内公開 11 *5
国立国会図書館/図書館送信参加館内公開 → インターネット公開(許諾) 96 (後述)
国立国会図書館/図書館送信参加館内公開 → インターネット公開(保護期間満了) 31 (後述)
国立国会図書館/図書館送信参加館内公開 → 館内公開 2 *6
国立国会図書館/図書館送信参加館内公開 → 書誌情報削除 1 *7
新規 インターネット公開(保護期間満了) 1 *8
新規インターネット公開

上で見たように、国立国会図書館/図書館送信参加館内公開からインターネット公開に変更されたものが127件あった(うち、許諾96件、保護期間満了31件)。

これらは、国デコの「2014年8月のお知らせ」でアナウンスされた新規公開資料リストに挙げられている図書126件を含んでいる。

メタデータの方が1件多いのは、上記のアナウンスの後、8月18日付けで『[明治文芸家原稿料請取書]』の1件が国立国会図書館/図書館送信参加館内公開からインターネット公開(保護期間満了)に変更されたためである(これはこれで面白い資料だ……)。

国会図書館の新規公開資料リストだけからは、どのような条件でインターネット公開になったかは読み取れないが、こうして内訳を見てみると、保護期間満了と判明した理由によるものだけではなく、許諾を受けて公開に至った件数が多いことに興味を引かれる。

余談だが、国立国会図書館/図書館送信参加館内公開からインターネット公開(保護期間満了)に変更された図書のなかには、『近代美しき粧ひ』(メイ・ウシヤマ 著)、『近代美容法』(メイ・牛山 著)というものがある。

この人って著作権切れてたっけ?と思いながら、『近代美しき粧ひ』の奥付を見ると「著者 牛山春子」とある。そこから調べていくと、この著者は「初代メイ牛山」(牛山春子)さんで、2007年に亡くなった牛山メイ(牛山マサコ)さんは2代目なのだそうだ。

Web NDL Authoritiesで「牛山メイ」を検索すると、初代と2代目の二人が区別されてヒットする。典拠データに初代牛山メイの没年は記載されていないが、2代目のインタビュー記事や初代のお弟子さん筋の話から、おそらく昭和13年没ではないかと個人的には推測している(『新聞集成昭和編年史. 昭和13年度版 2』の4月29日の記事を確認してみたいが、手近になく未確認)。

著書を著作権保護期間満了としてインターネット公開したからには、典拠データに著者の没年を記載しても良さそうなものだが、そのうち追記されるのだろうか。

ゲタやゲタ以外のノイズの一部解消

7月の記事で、次のような状況を見た。

メタデータでは、ゲタや「@」「◇」で置き換えられているものの他にも、『薬品製造試験成績報告』などの目次データのように、「<!--◆U70AD◆-->」等とUnicodeコードポイントがテキストで記載されているものや、『現代日本文学全集. 第1篇』などの部編名*9に現れる「(0x8FF5B3)」等のように16進数のテキストで記載されているもの(JAPAN/MARC 2009までの追加文字からの変換が上手くいかなかったものと考えられる)、『綱鑑易知録. 巻19-25』の目次のように「�」(U+FFFD)になっている上に一部のテキストが脱落しているものなど、実際にはさまざまな記述がある。

http://d.hatena.ne.jp/npn2sc1815j/20140722/1406032207

上記の1番目のケース(図書102件)について、8月11日付けのメタデータ更新により、「〓<!--◆U543F◆-->」等と〓(ゲタ)の後ろにUnicodeコードポイントが記載されていたものについては、ゲタと併せて当該コードポイントの文字(先の例では「吿」)に置き換えられ、ゲタ以外の文字の後ろにメモ的にコードポイントが記載されていたものについては、当該コメント部分が削除された。

さらに、上記の2番目のケース(図書209件)についても、8月25日付けのメタデータ更新により、「(0x8FF5B3)」等のように16進数のテキストで記載されていた箇所は当該文字(先の例では「弴」)に置き換えられた。

これらにより、上記の1番目と2番目の記載については、現在ではすべて解消されている(素晴らしい! 修正に感謝)。

メタデータの目次*10にゲタを含む図書資料は、6月末時点では28,060件であったのに対し、8月末時点では、1番目のケースの修正により26件減少して*11、28,034件となった。

なお、内田さんをして「また詰まらぬものを斬ってしまった」と言わしめたタイプのゲタについては、頻度トップ10(ただしゲタの連続は除く)まで確認した限り、出現数に変化はなかった。

国立国会図書館のLinked Open Data

昨日、国立国会図書館のLinked Open Dataに関する取り組みを紹介するページが公開された。

いずれのページも、整理され、その領域に詳しくない人にも分かりやすく紹介されている。

書誌データ

当ブログ記事で扱っている書誌データの取得元である「国立国会図書館サーチ」(NDLサーチ)についても、もちろん紹介されている。

6月の記事で、「アクセス制限 (dcterms:accessRights)は、以下のような値を取っているが、内容の詳細は分からない」としていた項目について、紹介ページに解説があったので引用しておく。

※デジタル化資料のdcterms:accessRightsタグの値は、「S02P99U99」(インターネットで閲覧可能)、「S03P99U99」(印刷可能)、「S03P01U99」(印刷不可能)などがあります。

http://www.ndl.go.jp/jp/aboutus/standards/lod.html

また、「LODチャレンジ2014用データセット」として、近代デジタルライブラリーメタデータ(約25万件*12)などをダウンロードできるようにするそうだ。思い切った判断に驚いた。

典拠データ

典拠データを提供している「Web NDL Authorities」(国立国会図書館典拠データ検索・提供サービス)に関しては、個人情報の関係で難しいのかもしれないが、一括ダウンロード用ファイルに個人名・団体名等の典拠データが含まれていないのがやや残念。

例えば、もし著作権保護期間が延長され、かつ遡及適用がなされたとしたら、近デジでインターネット公開(保護期間満了)されている図書のうち、どの程度の資料が影響を受けるのか調べてみたいとする。

上記でツイートしたように、書誌メタデータの著者項目に没年の表記があるものは保護期間満了図書全体の約3割で、残りの資料について書誌メタデータの著者項目と典拠データを結びつけようとしても、一括ダウンロード用ファイルには個人名・団体名等の典拠データは含まれていないため、ローカルでは完結できない*13。さりとて、残りの約18万件の資料について、APIでアクセスを繰り返すのは、Librahackの一件が想起され、躊躇される。

例えば、NDLサーチの「APIのご利用について」には、「大量アクセスに関するご注意」という記載があるが、どの程度の頻度であれば問題ないのかの目安は書かれていない。具体的に書いてしまうと、それはそれで差し障りがあるようにも思えるが、利活用を目指すのであれば、何らかの目安が記載されていると、APIを使わせてもらう側としては安心して利用できるのだけど。

*1:国立国会図書館サーチが提供するOAI-PMHを利用した。

*2:dcndl:materialType

*3:dcterms:rights

*4:お国自慢

*5:講演集や論文集、記念誌などの集合著作物。「著者」(dc:creator)項目は団体名義で採られているが、各部分の著作権状態を確認するため、館内公開に変更したものか。

*6:観世流節の精解』と『鵜飼

*7:止舟斎詩鈔』。別のidentifierを持つ書誌データ『止舟斎詩鈔』に統合されたか。

*8:教輸凡道案内』。資料種別が「和古書」から「和古書」「図書」に変更され、集計対象に含まれるようになったことによる増加。公開自体は、7月末時点で既に「和古書」として「インターネット公開(保護期間満了)」されており、今回の「新規公開」ではない。

*9:dcndl:volumeTitle

*10:dcterms:tableOfContents

*11:1番目のケースに該当する102件の資料の中には、Unicodeコードポイントがテキストで記載されていた箇所とは別にゲタを含むものがあるため、目次から完全にゲタが消えた資料は102件のうち26件に留まっている。

*12:近デジの著作権保護期間満了資料が現在約25万件であることを公式に言明したのは始めて見た。

*13:バーチャル国際典拠ファイル(VIAF)の方でもデータセットダウンロードできる。しかし、データサイズが大きく、上記のツイートの時点では取得を断念してしまった。このため、そちらにNDL由来の個人名等のデータが含まれているのかは未確認である。