国立国会図書館デジタルコレクション図書資料の〓(ゲタ)

国立国会図書館デジタルコレクション(以下、国デコ)の書誌メタデータを対象に分析を行う上で、どの程度データクレンジングを行う必要があるだろうか。

一つの例として、メタデータに含まれる「〓」(ゲタ)について、内田さん([twitter:@uakira2])が既に調査されているが、こちらでも少し様子を見てみた。

下調べ

前回に引き続き、2014年6月30日時点でのメタデータ*1のうち、資料種別*2が「図書」である916,768件を対象とする。

それらのうち、メタデータに何かしらゲタが含まれているものは29,096件に及ぶ。

ただし、タイトル*3や著者*4にゲタが含まれているものに絞れば1,207件*5、著者にゲタが含まれているものに絞れば51件と、(意外に?)それほど多くない。一方で、目次*6にゲタを含む資料は28,060件と、やはり目次はゲタの宝庫のようだ。

検索で資料に到達できる率を上げるためには、タイトルや著者のゲタから確認すべきだろうが、ここでは目次テキストを言語資源として利用できるかを考えたいので、目次に含まれるゲタを見てみる。

目次のゲタ

図書の目次に登場する「〓」(139,857個)について、前後の文字を見てみる。

異なり数32,468のうち、累積頻度が全体の25%になるところまでを挙げた。

また、ゲタの元について代表的なもの(全てではない)をJIS X 0208 第二水準までの範囲で表現して参考に挙げる。

頻度 文字列 参考 説明 使用例
3320 一〓  節、章 即が白/匕、章の点が横棒 第一節、第一章
3234 二〓  節、章 即が白/匕、章の点が横棒 第二節、第二章
2537 三〓  節、章 即が白/匕、章の点が横棒 第三節、第三章
2416 比〓 交に筆押さえ 比較
1847 四〓  節、章 即が白/匕、章の点が横棒 第四節、第四章
1341 五〓  節、章 即が白/匕、章の点が横棒 第五節、第五章
1259 學〓 校、者 交に筆押さえ、日の上に点つき 学校、学者
1128 〓〓〓
1011 六〓  節、章 即が白/匕、章の点が横棒 第六節、第六章
867  〓員 音の点が横棒 職員
754 〓〓
720 七〓  節、章 即が白/匕、章の点が横棒 第七節、第七章
695 轄〓學 日の上に点つき 直轄諸学校
679 學〓敎 交に筆押さえ 学校
657 業〓 日の上に点つき 卒業者
591  〓〓
587 八〓  節、章 即が白/匕、章の点が横棒 第八節、第八章
550 別〓舶 八屋根 船舶
511  〓額 禾+兌 税額
502
489 學〓令 交に筆押さえ 学校令
485 〓〓
451 九〓  節、章 即が白/匕、章の点が横棒 第九節、第九章
435 學〓規 交に筆押さえ 学校規程
430  〓
410  〓業 音の点が横棒 職業
402 比〓表 交に筆押さえ 比較表
388 學〓入 交に筆押さえ 学校入学
375  〓舶 八屋根 船舶
356 費〓 者、税 日の上に点つき、禾+兌 消費者、消費税
351 製〓額 二点しんにょう 製造額
345 學〓〓 校諸、校音 交に筆押さえ、日の上に点つき、音の点が横棒 学校諸規則、学校音楽
339 製〓 二点しんにょう 製造
335 學〓檢 日の上に点つき 入学者検定
330 十〓  節、章 即が白/匕、章の点が横棒 第十節、第十章
320 學〓長 交に筆押さえ 学校長
316 學〓外 交に筆押さえ 学校外国人
314 患〓及 日の上に点つき 患者
296 〓員 音の点が横棒 職員
284 構〓 二点しんにょう 構造
268 學〓ノ 交に筆押さえ 学校
268 製〓業 二点しんにょう 製造業
264 患〓 日の上に点つき 患者
263 學〓官 交に筆押さえ 学校官制
259 學〓の 者、校 日の上に点つき、交に筆押さえ 学者、学校
245 學〓高 交に筆押さえ 高等学校高等科
240 製〓試 二点しんにょう 製造試験
223 製〓〓 造者 二点しんにょう、日の上に点つき 蠶種製造者
212 の〓

長々と挙げたが、まとめると、節(白/匕)、較・校(筆押さえあり)、者・諸(日の上に点)、職・音・章(立の点が横棒)、船(八屋根)、税(開きが下)、造(二点しんにょう)などだ。

これらは、大正期の学校一覧や農商務省系報告資料の目次に由来するものが多い*7

2007年7月3日に追加された大正期の資料のデジタル化において、作業にクセがあったのだろうか。メタデータ作成作業が2002年4月〜2008年3月に行われたのであれば、「意味上・字形上関連するJISコードを持つ文字に置き換え」られたはずではあるのだが、デザイン差まで拾ってゲタにするとは、どのような基準で実施されたのだろうか。

このタイプのゲタであれば、「デザイン差や包摂適用のものもゲタにしてしまったんだろうな」という予備知識をもってゲタリストを見ると、人間であれば元の字がなんであったかある程度想像がつく。

正確さが求められる公式の書誌情報では採用できないだろうが、サードパーティが参考情報を蓄積する上では、上記のようなN-gram(ゲタにせずに拾われたものも含め)とデザイン差や包摂基準等の知識を利用し、ゲタが何であったかを確率的に推定して穴を埋めるシステムが作成可能かもしれない。

なかには、そりゃゲタになるよねというものももちろんある。この資料の目次は、アルファベットとゲタしかないが、サンスクリット語のテキストで目次もデーヴァナーガリーで書かれていたのだろう。一方、『ヒンディー語文法読本』のように、ヒンディー語のテキストでデーヴァナーガリーがきちんと目次に取られているものや、この資料のように、タイ語で書かれていて書誌情報もタイ文字で取られているものもあったりする。いずれもデジタル化日は2011-03-31となっているので、要は気合いの入り方の差か(違)。

ゲタは、頻度1のものまで見れば見るほど闇が深そうで(詳細省略)、しかし、内田さんが求めていらっしゃるような「おいしいゲタ」はそのようなあたりにしか存在しない可能性が高く、「蓋を開けてみたものの、そっと閉じる」という選択をされない内田さんは凄い。

ゲタ以外のノイズ

メタデータでは、ゲタや「@」「◇」で置き換えられているものの他にも、『薬品製造試験成績報告』などの目次データのように、「<!--◆U70AD◆-->」等とUnicodeコードポイントがテキストで記載されているものや、『現代日本文学全集. 第1篇』などの部編名*8に現れる「(0x8FF5B3)」等のように16進数のテキストで記載されているもの(JAPAN/MARC 2009までの追加文字からの変換が上手くいかなかったものと考えられる)、『綱鑑易知録. 巻19-25』の目次のように「�」(U+FFFD)になっている上に一部のテキストが脱落しているものなど、実際にはさまざまな記述がある。

全文テキスト化

国立国会図書館の実施しているアンケートを見ると、「今後、国立国会図書館デジタルコレクションにどのような機能等があったらよいと思いますか?」との問いに、

の選択肢が用意されており、再びテキスト化の道を探っているように思える*9 *10

目次部分のテキスト化結果を見るにつけても、本文の全文テキスト化はハードルが高そうだが、多少不正確ではあってもテキストがあった方が格段に利便性が高まるので、ぜひ進めて欲しい。

「閲覧するなら、費用利用者負担でマイクロ撮るけど、撮ったマイクロは他の利用者の閲覧にも使うよ」という仕組みのように、「翻刻電子書籍にするなら高精細画像データを無料で提供するよ、ただしテキスト化したらデータは提供してね」という流れはどうだろう。

だが、自分のところで資金を出した成果が他社でも使えるのは嫌だという理由で、WebKitなどオープンソースでの日本語組版機能向上に対して費用拠出を嫌がるという話を聞くと、日本の出版社は残念ながら乗らないか。

*1:国立国会図書館サーチが提供するOAI-PMHを利用した。

*2:dcndl:materialType

*3:dc:title, dcterms:alternative, dcndl:volume, dcndl:volumeTitle, dcndl:partTitle, dcndl:seriesTitle

*4:dc:creator

*5:dc:titleに限定すれば4件。『〓応和尚と茂吉』(リュウ)、『新造〓奇談』(「ツリフネ」なのか「クロフネ」なのかという例のアレ)、『法華義〓』(ショ)、『』(アラ)。

*6:dcterms:tableOfContents

*7:高等学校一覧などの学校一覧関係や蚕種製造所、生糸検査所、水産試験場等の報告、台湾貿易月表など。

*8:dcndl:volumeTitle

*9:数年前のアンケートでは、「国立国会図書館のデジタル化資料が有料になったら利用するか」という問いがあった気がするが、どのような回答が多かったのだろうか。アンケートページ自体は、robots.txt検索エンジン避けされているためInternet Archiveにも残っておらず、各コンテンツの個別アンケート結果は国会図書館の「利用者アンケート」ページにも見当たらないため、過去の質問と回答結果は確認できない。

*10:国立国会図書館電子情報部へのインタビューでは、「館内・図書館送信限定公開資料の画像提供や、録音資料のデジタル化に取り組みたい」とのことであり、テキスト化についてはアンケート質問からの筆者の勝手な憶測である。