国立国会図書館デジタルコレクションの公開範囲変動(2015年11月)

「月刊NDLデジコレメタデータWatch」第18号。今月も国立国会図書館デジタルコレクション(以下、NDLデジコレ)の変動を追ってみた。

国立国会図書館デジタルコレクション書誌メタデータ 2015年11月の変動

NDLデジコレのメタデータについて、2015年11月1日から2015年11月30日までに変更のあったレコードは22,859件であった*1

10月末時点のデータにおいては、「資料種別」*2が「図書」であるもののうち、「著作権に関する情報」*3に「インターネット公開」を含むものは350,515件であったが、11月30日までの更新を適用したデータにおいては350,487件となっており、28件減少している。

資料種別が「図書」であるものについて、資料数内訳は以下の通りであった。

著作権に関する情報 (dcterms:rights) 10月末 11月末
インターネット公開(許諾) 7953 7952 -1
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27 48904 48903 -1
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27; 2012/03/01 42 42 0
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27; 2015/02/09 3 3 0
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2012/03/01 34896 34894 -2
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2015/02/09 23 23 0
インターネット公開(保護期間満了) 258694 258670 -24
国立国会図書館/図書館送信参加館内公開 503148 503141 -7
館内公開 65941 65976 +35
(総計) 919604 919604 0
(内、インターネット公開分合計) 350515 350487 -28

さらに「著作権に関する情報」変動の内訳を見てみる(表示スペースの都合により、「著作権に関する情報」の設定値を略記した)。

11月末 総計
保護期間満了 館内公開
10月末 許諾 1*4 1
裁定
2010/12/27
1*5 1
裁定
2012/03/01
2*6 2
保護期間満了 44*7 44
図書館送信 7*8 7
館内公開 12*9 12
総計 20 47 67

この表は、例えば、10月末時点では館内公開であった図書で、11月末にはインターネット公開(保護期間満了)になっているものが12件あると読んでほしい。

館内公開から保護期間満了へ

館内公開から保護期間満了へと変更された図書には、活字史・印刷史好きにとっての大物が含まれていた。

浮世形六枚屏風 : 2巻』(“Wandschirme in Gestalten der vergänglichen Welt”)、「ウィーン版『浮世形六枚屏風』」と言えばピンとくる人も多いだろう。

1847年にウィーン王立印刷局が刊行した図書で、1821年に永寿堂(西村屋與八)が出版した柳亭種彦『浮世形六枚屏風』を、同印刷局が製作した連綿体活字を用いて翻刻したものである*10 *11

浮世形六枚屏風 : 2巻
浮世形六枚屏風 : 2巻
Source: 国立国会図書館デジタルコレクション

この翻刻の底本となった、永寿堂版『浮世形六枚屏風』も、NDLデジコレで閲覧できる。

浮世形六枚屏風 6巻
浮世形六枚屏風 6巻
Source: 国立国会図書館デジタルコレクション

両者を見比べてみると面白いだろう。

また、先々月の記事では、いわゆるプティジャン版の一つ『胡无血利佐無能畧』が保護期間満了に変更されたことを取り上げたが、今月も明治初期の日本におけるキリスト教関連資料が公開された。

一つは『夢醒真論』。こちらの解説によると、著者の帰正痴士(阿部真造)はプティジャン版の版下を書く仕事に従事していた人物とのこと。

もう一つは『明治元年御定書』で、五榜の掲示のうちの定三札(第三札で切支丹邪宗門の禁止)を挙げ、解説を付している。どのような来歴の資料なのだろう。

図書館送信から保護期間満了へ

図書館送信から保護期間満了へと変更された図書には、名取春仙の役者絵版画集3件が含まれていた。

『春仙似顔畫集』の一枚は、今月の「国立国会図書館月報 656号(2015年12月)」の表紙に使われている。

春仙似顔畫集
春仙似顔畫集
Source: 国立国会図書館デジタルコレクション

古典籍資料の公開範囲変更

資料種別が「和古書」であるものについて、今月も公開範囲に変動があったか調べてみた。

著作権に関する情報 (dcterms:rights) 10月末 11月末
インターネット公開(許諾) 48 48 0
インターネット公開(裁定)著作権法第67条第1項により文化庁長官裁定を受けて公開裁定年月日: 2010/12/27 13 13 0
インターネット公開(保護期間満了) 69247 69332 +85
国立国会図書館/図書館送信参加館内公開 17665 17663 -2
館内公開 248 165 -83
(総計) 87221 87221 0
(内、インターネット公開分合計) 69308 69393 +85

さらに「著作権に関する情報」変動の内訳を見てみる。

著作権に関する情報」の変動 (10月末 → 11月末) 件数
国立国会図書館/図書館送信参加館内公開 → インターネット公開(保護期間満了) 2 *12
館内公開 → インターネット公開(保護期間満了) 83 *13

1月22日付けで図書館送信から館内限定に変更されていた『明史藁310巻目録3巻』80件、『文廟丁祭譜1卷』1件、『捕蝗要訣 : 附除[ナン]八要』1件、『明治元戊辰九月二十日東京御行幸畧圖』1件が、11月9日付けでインターネット公開(保護期間満了)として返ってきている。

国立国会図書館のオープンデータセット・書誌IDリストの謎

11月17日、国立国会図書館のオープンデータセットの一つとして、書誌IDリストが公開された。

同様のリストは、2014年9月にも「LODチャレンジ2014用データセット」の一部として公開されており(詳しくは以前の特集記事を参照)、今回は久々の更新と言える。

データの利用条件は、前回のリストでは「LODチャレンジ2014で利用する範囲においては、申請なしでご利用になれます」とされていたが、今回のリストでは「営利・非営利の目的を問わず、利用手続なしで自由にご利用になれます」とされており、よりオープンになっている。

前回のリスト(2013年12月13日時点の内容)と今回のリスト(2015年9月8日時点の内容)について、国立国会図書館の書誌ID(NDLBibID)の件数を比較してみる。

すると、前回は約1,127万件、今回は約1,158万件で、両者に共通するNDLBibIDは約1,110万件であった*14。前回にあって今回にないもの約17万件は、どう考えれば良いのだろうか。

国立国会図書館が提供する各種サービスにおいて、NDLBibIDは固定URLの一部として使われている。前回のリストにはあったNDLBibID(例えば000000078601)について、NDL-OPACの書誌情報URL http://id.ndl.go.jp/bib/000000078601 やNDLサーチの固定URL http://iss.ndl.go.jp/books/R100000002-I000000078601-00 にアクセスすると、現在はデータが見つからず、別のNDLBibIDに変更もしくは統合されたのかも追うことができない。

NDLサーチから取得するNDLデジコレのメタデータでも、ときおり書誌情報が削除されることがあり、古典籍資料等へのDOI付与が行われた際に次の疑問を持った。

毎月、メタデータの変動を追っていると、書誌情報が消滅し、これまでの永続的識別子ではアクセスできなくなる資料もあることに気付く。その中には、別のidentifierを持つ書誌データに統合されたかと思われるものもあったが、そのような場合、DOIの登録も更新してくれるのだろうか。

http://d.hatena.ne.jp/npn2sc1815j/20150202/1422824421

その後、書誌情報が削除された古典籍資料について確認したところ、DOIの登録は更新されず、DOI経由でも“Not Found”になっていた*15

このように、NDLBibIDに基づいたNDL-OPACの書誌情報URLやNDLサーチの固定URLは永続的ではなく、国立国会図書館で付与した永続的識別子(NDLJP)に基づいたNDLデジコレ固定URLも永続的ではなく、DOIによるアクセスですら永続的でない。

このようなケースでは、URLのリダイレクト処理が行われるとありがたいが、システム的に難しいだろうか。少なくとも古典籍資料については、DOI付与の主旨からしても、DOIの登録更新が行われると良いのではないだろうか。

消えたNDLBibIDの行方捜し

無い物ねだりはさておき、消えたNDLBibIDがどのような資料のものだったのかを調べてみる。

書誌IDリストは、NDLBibIDと全国書誌番号(JPNO)や国際標準図書番号(ISBN)等との対応一覧であるから、JPNOやISBNを手がかりとして追いかけてみよう。

前回はあって今回はない約17万件のNDLBibIDに対して、前回のリストにISBNが記載されていたものは約7千件、ISBNとJPNOの両方が記載されていたものは46件あった。

その一部について、ISBNをもとに国立国会図書館以外のデータベースから取得したタイトルと併せて、以下に挙げる。

NDLBibID JPNO ISBN タイトル
000002024900 90018847 9784653019961 帝國議會衆議院委員會議録 (マイクロフィルム版) Reel 1-12 : 全12リールセット
000002024901 90018848 9784653019985 帝國議會衆議院委員會議録 (マイクロフィルム版) Reel 13-24 : 全12リールセット
000002055073 90049020 9784653019992 帝國議會衆議院委員會議録 (マイクロフィルム版) Reel 25-36 : 全12リールセット
000002064118 90058065 9784653020011 帝國議會衆議院委員會議録 (マイクロフィルム版) Reel 37-47 : 全11リールセット
000010895978 21788601 9784433500603 問答式 源泉所得税の実務〈平成22年版〉
023748399 22134327 9784433500627 問答式 源泉所得税の実務〈平成24年版〉
024613230 22273615 9784433500634 問答式 源泉所得税の実務〈平成25年版〉
000002665593 98063475 9784889480016 内線規程 JEAC8001-1995 電気技術規程使用設備編 (第9版)
000003027412 20212414 9784889480313 内線規程 JEAC8001-2000 電気技術規程使用設備編 東京電力 (第10版)
000003043954 20221909 9784889480337 内線規程 JEAC8001-2000 電気技術規程使用設備編 関西電力 (第10版)
000008180345 21041850 9784889481235 内線規程 JEAC8001-2005 電気技術規程使用設備編 東京電力 (第11版)
p000004247452 22012069 9784260013475 多職種連携を高める チームマネジメントの知識とスキル

『帝國議會衆議院委員會議録 (マイクロフィルム版)』については、こちらの「注記」によると、「各リールには単品のISBNと全12又は11リールセットのISBNが表記されている」とのことで、消えたNDLBibIDはリールセットのものだった。すると、各リールだけでなくリールセットとしてもNDLBibIDを割り振ってしまったのだろうか。ならば、各リールのISBNもしくはタイトルでNDL-OPACを検索するとヒットするか。これがしないのである。謎。

『源泉所得税の実務』は、タイトルでNDL-OPACを検索すると、NDLBibID: 000000048115の雑誌としてヒットする。そして、このNDLBibIDは前回のリストにも今回のリストにも存在する。逐次刊行物としてのNDLBibIDが割り振り済みであるのに、各年の発行物にもNDLBibIDやJPNOを振ってしまったのだろうか。このケースでは、NDLBibIDとISBNが1対多で対応していることになるが、どちらのリストでもこのNDLBibIDに対してはISBNの記載がない。つまり、各年の発行物のISBNからNDLBibIDを得ることは、この書誌IDリストではできない。また、各号のISBNが分かっていても、NDL-OPACでは(所蔵しているのに)ヒットしない。

『内線規程』も、同じようなケースだろうか。ところが、こちらはタイトルでNDL-OPACを検索すると、先ほどのように全体で一つのNDLBibIDとはなっておらず、第9版はNDLBibID: 026616906、第10版はNDLBibID: 026616990、第11版はNDLBibID: 026617295になっていることが分かる。これらは、NDLBibIDが変更されたと考えて良いのだろうか。しかし、今回のリストで、それらの新しいNDLBibIDのレコードを探すと、第9版についてISBNが記載されている以外、前回のリストにあったJPNOやISBNは抜け落ちている。

深い沼に入ってきた気がするが、分かりやすかったケースを最後に一つ。

『多職種連携を高める』は、NDLBibIDがp000004247452から023112852に変更されており、今回のリストで新しいNDLBibIDのレコードを探すと、JPNOやISBNが引き継がれている。

一つの資料に複数のNDLBibID?

そもそも、NDLBibIDはどのような性格を持ち、どのように振られているのだろうか。

今回の書誌IDリストのNDLBibIDカラムには、9桁または12桁の数字のものに加え、aやocm、ocnで始まるものが含まれている*16

例えば、a0000000001やocm50637688、ocn857890574について、NDL-OPACにアクセスしてみると、ややこしいことが分かる。

アクセスするURL 表示ページ記載の
URL
表示ページ記載の
書誌ID
http://id.ndl.go.jp/bib/a0000000001 http://id.ndl.go.jp/bib/a0000000001 a0000000001
http://id.ndl.go.jp/bib/ocm50637688 http://id.ndl.go.jp/bib/a1000091753 a1000091753
ocm50637688
http://id.ndl.go.jp/bib/ocn857890574 http://id.ndl.go.jp/bib/025818884 025818884
ocn857890574

どうやら、複数の書誌IDを持つ資料があるようだ*17

今回の書誌IDリストで確認すると、確かに、ocm50637688のレコードに加え、a1000091753のレコードも存在しており、どちらも同じISBNになっている。

つまり、ISBNが重複している(違う資料に同じISBNが付いている)ケース以外にも、NDLBibIDとISBNが多対1で対応しているケースがあるということだ。

ここで、ocmやocnの接頭辞を持つものは、OCLCの書誌ID(OCLC Control Number)だそうだ*18

NDL-OPACで見ると「他MARC番号」にOCLC番号の記載がある資料は多数あるが、なぜ一部の資料でのみ、このような扱いになっているのだろうか。

MARCタグ形式出力にみる仕様違反状態

先ほどの、ocm50637688について、NDL-OPACからMARCタグ形式で表示し、一部を抜粋すると、以下のようになっている。

001 	  	a1000091753
001 	  	ocm50637688
003 	  	JTNDL
003 	  	OCoLC
035 	  	|a (OCoLC)50637688

また、ocn857890574については、NDL-OPACからMARCタグ形式で表示し、一部を抜粋すると、以下のようになっている。

001 	  	025818884
001 	  	ocn857890574
003 	  	OCoLC
035 	  	|a (OCoLC)852743875
035 	  	|a (OCoLC)857890574

JAPAN/MARC MARC21フォーマットマニュアル単行・逐次刊行資料編」p.65によれば、「001 レコード管理番号」は「フィールド繰り返し不可」となっているが、上記の資料の出力においてはフィールド001(レコード管理番号)が2回現れている。

では、本家、米国議会図書館のMARC 21フォーマットではどのように規定されているか。フィールド001の仕様を見ると、やはり“NR”(non-repeatable; 繰り返し不可)となっている。

同仕様では、レコードを受け取る機関は、入ってくるフィールド001のレコード管理番号(とフィールド003のレコード管理番号識別子)をフィールド035(他MARC番号等)または010、016の適切なものに移動して、自システムで発行するレコード管理番号をフィールド001(とそのレコード管理番号識別子をフィールド003)に置いてもよい(may)とされている。ここで、「してもよい(may)」となっているのは、自システムで新たにレコード管理番号を割り当てることをせず、受け取ったフィールド001のレコード管理番号をそのまま利用してもよいためだろう。

上で挙げたMARCタグ形式表示を見ると、フィールド001とフィールド003の内容をフィールド035に設定し、自システムのレコード管理番号を含むフィールド001を追加した上で、元のフィールド001を消し損ねてしまったかのように思える。

過程の推測はさておき、やはりフィールド001の繰り返しが含まれるMARCタグ形式出力は、JAPAN/MARC MARC21やMARC 21の仕様に反しているのではないだろうか*19

DC-NDL(RDF)出力にみる仕様違反状態

ocm50637688について、今度はNDLサーチから書誌情報をDC-NDL(RDF)出力し、一部を抜粋すると、以下のようになっている。

<dcterms:identifier rdf:datatype="http://ndl.go.jp/dcndl/terms/NDLBibID">a1000091753</dcterms:identifier>
<dcterms:identifier rdf:datatype="http://ndl.go.jp/dcndl/terms/NDLBibID">ocm50637688</dcterms:identifier>

DC-NDL(RDF)フォーマット仕様 ver.1.3上は最大出現回数が1である「<dcterms:identifier rdf:datatype="http://ndl.go.jp/dcndl/terms/NDLBibID">値</dcterms:identifier>」が複数回出現しており、やはり仕様に反した状態になっている。

NDLBibIDの仕様説明を

NDL-OPACからMARCタグ形式で出力する部分やNDLサーチにデータを受け渡す際の出力部分に問題があるのか、そのような出力になるデータベース内部状態に問題があるのかは分からない。何か歴史的経緯や理由があってこうなっているのか、何かのエラーでこうなってしまったのか、どちらなのだろうか。

国立国会図書館は、積極的に仕様や情報の公開を進めているが、NDLBibIDについては詳しい説明を見つけることができなかった。詳しい方からすると初歩的なことかもしれないが、オープンデータの利活用を促進しようとしている今、そうした情報についても公開していただければと願う。

*1:国立国会図書館サーチが提供するOAI-PMHを利用した。

*2:dcndl:materialType

*3:dcterms:rights

*4:京都女子高等専門学校特別講義録 第1・2輯

*5:翁草 : 校訂 17

*6:南洋協会講演集』、『北樺太 : 探険隊報告

*7:講演集、研究報告集、詩集などの集合著作物。

*8:春仙似顔画集 : 創作版画』、『春仙似顔畫集 : 創作版畫』([1][2])、『読書作文譜』(

*9:唐詩選 : 四聲並假名附』(1 (五七言古五言律)2 (五排律七律)終 (五七言絶句))、『東京詞三十絶』、『日本詠史新楽府』、『浮世形六枚屏風 : 2巻』、『朋百氏藥論』()、『民間急救療法』、『夢醒真論』、『明治元年御定書』、『明治元戊辰九月二十日東京御行幸畧圖

*10:詳しくは、「連綿体仮名活字 毛筆手書きの再現を目指す活字」や『活字印刷の文化史』(勉誠出版)などを参照のこと。

*11:実はこれまでもEuropeanaやGoogleブックスで閲覧できていたのは気にしないふり活字っ子。

*12:『春仙似顔畫集 : 創作版畫』([1][2]

*13:明治元戊辰九月二十日東京御行幸畧圖』、『文廟丁祭譜1卷』、『捕蝗要訣 : 附除[ナン]八要』、『明史藁310巻目録3巻』([1][2][3][4][5][6][7][8][9][10][11][12][13][14][15][16][17][18][19][20][21][22][23][24][25][26][27][28][29][30][31][32][33][34][35][36][37][38][39][40][41][42][43][44][45][46][47][48][49][50][51][52][53][54][55][56][57][58][59][60][61][62][63][64][65][66][67][68][69][70][71][72][73][74][75][76][77][78][79][80]

*14:前回は11,265,767件、今回は11,579,921件。両者に共通するNDLBibIDは11,097,837件であった。

*15:例えば、10月26日付けで書誌情報が削除された『名勝八景』(DOI: 10.11501/1302470)。

*16:前回のリストには、bやpで始まるものもあった。

*17:一つの資料にもう一つの顔……某大映ドラマでの初井言榮さんを思い出す、こわい。

*18:http://current.ndl.go.jp/node/20723

*19:JAPAN/MARC MARC21の仕様に反しているという点では、前掲マニュアルでは、フィールド001について「このフィールドには9桁又は12桁からなるレコード管理番号を記録する」としており、a1000091753などはこの形式を満たしていない。