国立国会図書館デジタルコレクションの公開範囲変動(2014年11月)

この月刊シリーズ記事も今回で半年目。今月も国立国会図書館デジタルコレクション(以下、NDLデジコレ)公開範囲の変動を追ってみた。

国立国会図書館デジタルコレクション書誌メタデータ 2014年11月の変動

NDLデジコレのメタデータについて、2014年11月1日から2014年11月30日までに変更のあったレコードは24,783件であった*1

今年10月末時点のデータにおいては、「資料種別」*2が「図書」であるもののうち、「著作権に関する情報」*3に「インターネット公開」を含むものは349,778件であったが、11月30日までの更新を適用したデータにおいては349,771件となっており、7件減少している。

資料種別が「図書」であるものについて、資料数内訳は以下の通りであった。

著作権に関する情報 (dcterms:rights) 10月末 11月末
インターネット公開(許諾) 6813 6813 0
インターネット公開(裁定) 著作権法第67条第1項により文化庁長官裁定を受けて公開 裁定年月日: 2009/12/18 1 1 0
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2009/12/18 173 173 0
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2009/12/18; 2010/12/27 32 32 0
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27 50452 50452 0
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27; 2012/03/01 29 29 0
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2012/03/01 33850 33850 0
インターネット公開(保護期間満了) 258428 258421 -7
国立国会図書館/図書館送信参加館内公開 502985 502984 -1
館内公開 63955 63959 +4
(未設定) 1 1*4 0
(総計) 916719 916715 -4
(内、インターネット公開分合計) 349778 349771 -7

さらに「著作権に関する情報」変動の内訳を見てみる。

著作権に関する情報 (dcterms:rights)の変動 (10月末 → 11月末) 件数
インターネット公開(保護期間満了) → 館内公開 4 *5
インターネット公開(保護期間満了) → 書誌情報削除 4 (後述)
国立国会図書館/図書館送信参加館内公開 → インターネット公開(保護期間満了) 1 *6
消えた書誌情報

今月も、以前は「インターネット公開(保護期間満了)」であったものの、現在は「館内公開」ですらなく、書誌情報が削除されている資料があった(4件)。

1件は『新約全書』。これは、今月、国立国会図書館/図書館送信参加館内公開からインターネット公開に変更された『新約全書』と同じ書誌情報を持っていたので、同じ資料を重複してデジタル化してしまい、片方の書誌情報を削除したのかもしれない。

残りの3件は『北海道庁布令全書』の一部で、原資料は議会官庁資料室に所蔵されている*7が、デジタル化されたデータとしては書誌情報ごと削除され、閲覧できなくなっている。

国立国会図書館が所蔵している他の期間の資料(請求記号:CZ-1113-11-08)については、現在もNDLデジコレで閲覧可能なのだが、なぜ上記の3件のみ閲覧不可となったのかは分からない。個人情報関係でなにか差し障りがあったのだろうか。

なお、『北海道庁布令全書 明治二十二年児一月至十二月』の書誌情報はタイトルに誤記がある(誤:児→正:自)。

ゲタ以外のノイズの一部解消と文字化けの残存

7月の記事で、次のような状況を見た。

メタデータでは、ゲタや「@」「◇」で置き換えられているものの他にも、『薬品製造試験成績報告』などの目次データのように、「<!--◆U70AD◆-->」等とUnicodeコードポイントがテキストで記載されているものや、『現代日本文学全集. 第1篇』などの部編名*8に現れる「(0x8FF5B3)」等のように16進数のテキストで記載されているもの(JAPAN/MARC 2009までの追加文字からの変換が上手くいかなかったものと考えられる)、『綱鑑易知録. 巻19-25』の目次のように「�」(U+FFFD)になっている上に一部のテキストが脱落しているものなど、実際にはさまざまな記述がある。

http://d.hatena.ne.jp/npn2sc1815j/20140722/1406032207

上記の1番目のケース(Unicodeコードポイントがテキストで記載されているもの)と2番目のケース(「(0x8FF5B3)」等のように16進数のテキストで記載されているもの)については、8月のメタデータ更新によりすべて解消されたことを過去の記事で取り上げた。

今回は、3番目のケース(「�」になっているもの)が大幅に修正された。

ここで「�」(U+FFFD REPLACEMENT CHARACTER)とは、Unicodeへ変換する際に、変換しようとしている文字がUnicodeには存在しない、またはUnicodeでは表現できない場合に用いられる特殊な記号であり*9、文字化けとともに見られることも多い。

メタデータに「�」が現れていた図書資料数は、10月末時点で1,091件であった。これらについて、11月3日付けのメタデータ更新により1,081件、11月10日付けで2件、11月17日付けで5件の資料の情報が修正され、メタデータに「�」が残っているものは3件のみとなった(『日本語文典』、『抒情文鑑 : 作文資料*10、『熱史鉄血国事犯』)。

しかし、「�」を含む箇所が修正された資料であっても、当該資料の別項目にある文字化けの修正は完了していないようだ。

例えば、7月の記事で例に挙げた『綱鑑易知録. 巻19-25』の目次について言えば、「巻�〓A至六十 唐紀」との記載が「巻四十二至六十 唐紀」に修正された*11

しかし、依然として、次の誤記(文字化け)が目次に残っている*12

巻之二、之オ 〓I 巻之二、之七 周紀
巻二オ、至二九 後漢 巻二七、至二九 後漢
巻二九、至マ一 晋紀 巻二九、至三一 晋紀
巻六二、六マ 後〓I 巻六二、六三 後周紀

このように、以前「�」を含んでいた資料では、「三」が「マ」や「マ」に、「七」が「オ」や「オ」に化けているものが複数見られる。

おそらく、「三」や「七」が最初は半角の「マ」や「オ」に化け、その後、データの更新や変換を行う過程で全角の「マ」や「オ」になっていったのだろう。

例えば、『平家物語図会』の目次においても、「�」は修正されたが、文字化けは盛大に残っており、「小松マ位中将維盛」や「伊勢マ郎」になってしまっている。

このような半角カナが登場する箇所を拾っていくと、例えば「七」が「オ」に、「室」が「コ」に、「薩」が「ニ」に、「三」が「マ」に、「山」が「メ」に化けていることが分かる。

どうやら、シフトJISで符号化された漢字(0x8E00-8EFFの範囲のもの)をEUC-JPで符号化されたデータとして扱って半角カナに化けたもののようだ(ただし、0x8E00-8E7Fの場合は0x80オフセット)。

7月の記事で見たように、以前の書誌メタデータに見られた「(0x8FF5B3)」等のような記載は、JAPAN/MARC 2009までの追加文字をeucJP-msのユーザ定義文字領域に割り当てたことに由来するものと考えられる。ある時点で書誌情報をEUC-JPに変換したのではないかと思われるが、「JAPAN/MARC マニュアル 単行・逐次刊行資料編 第3版(2009フォーマット)」の付録E-2「文字セット/コード(漢字コード表)」を見ると、JAPAN/MARC 2009までの漢字はJISコード(ISO-2022-JP)で符号化されていたようだ(文字集合は、JIS X 0208-1990)。どの時点で「シフトJISで符号化された漢字」が入ったのだろうか。

文字化けが起きた経緯はともかく、メタデータに「�」が含まれている場合は、一見して「何かおかしそうだ」と視認しやすいし、機械的なスクリーニングもしやすい。半角カナが含まれている場合も同様だ。

しかし、「�」が修正され、全角カナへの文字化けやvalidな文字への文字化けのみが残った状態は、一見、化けていることに気付きにくく、また、最新のメタデータしか持っていない場合、該当する文字化けメタデータをピックアップするのが難しくなったとも言える。

そうした信頼性の低いメタデータは、上で挙げた資料の他にも多数残っているため、注意が必要だ。

*1:国立国会図書館サーチが提供するOAI-PMHを利用した。

*2:dcndl:materialType

*3:dcterms:rights

*4:帝国図書館雑誌新聞目録』、注記に「図書館送信テスト」とあり。

*5:童謡・民謡に関する集合著作物が1件。「著者」(dc:creator)項目は団体名義で採られているが、内容の一部に著作権保護期間が満了していない詩人によるものを含んでいた。残りの3件も、日本史や日本地誌に関する集合著作物。

*6:新約全書

*7:北海道庁布令全書 明治20年10月〜12月』、『北海道庁布令全書 明治21年4〜6月分』、『北海道庁布令全書 明治21年10月〜12月

*8:dcndl:volumeTitle

*9:Unicodeコードチャート「Specials」では、U+FFFDに「used to replace an incoming character whose value is unknown or unrepresentable in Unicode」とのコメントがある。詳細は、Unicodeコア仕様の第3章第5章を参照のこと。

*10:抒情文鑑 : 作文資料』の目次情報は、ほぼ同じ内容が繰り返し登録されているように見えるが、国立国会図書館/図書館送信参加館内公開の資料なので、どのような状況か確認できない。

*11:ただし、『綱鑑易知録. 序・目録』を見る限り、「巻四二至六十 唐紀」とした方がより適切な気がする。

*12:目次から「五代 梁・唐・晋・漢・周」の脱落も見られる。