国立国会図書館デジタルコレクション図書資料にみる年代別トピック
国立国会図書館デジタルコレクション(以下、国デコ)の書誌メタデータには、タイトルはもちろんのこと、一部の資料については目次の内容も記載されている。
これらをトピックモデルで分析すれば、出版された図書のトピックやその流行り廃りが見えたり、ある図書に対してその類似書を見つけることができたりするかもしれない。それができれば、近デジポータルでも役に立つだろう。
下調べ
2014年6月30日時点でのメタデータ*1のうち、資料種別 (dcndl:materialType)が「図書」である916,768件を対象とする。
対象資料について、どの程度の割合でメタデータ項目が設定されているかを確認する。
メタデータ | 設定図書数 | 図書中の割合 |
---|---|---|
出版年月日 (dcterms:issued) | 906,343件 | 98.9% |
タイトルよみ (dcndl:titleTranscription) | 903,705件 | 98.6% |
NDC分類 | 847,480件 | 92.4% |
目次 (dcterms:tableOfContents) | 705,203件 | 76.9% |
出版年月日については、多くの場合、出版年のみが設定されている。近現代の資料であっても、出版年がはっきりしない場合や合冊にした場合など、出版年月日等 (dcterms:date)が“[1---]”や“[19--]”などに設定されているものがあり、それらの出版年月日 (dcterms:issued)の値は“1000”や“1900”と設定されているので、年代別に集計する際には注意を要する。
タイトルよみは、洋書については基本的に付与されていないようだ。
NDC分類が付与されているものは、主題 (dc:subject)の属性xsi:typeが“dcndl:NDC”(NDC第8、9版以外)のもの835,189件、“dcndl:NDC9”(NDC第9版)のもの12,294件、“dcndl:NDC8”(NDC第8版)のものは0件だった。複数のNDC分類が付与されているものや、NDCとNDC9の両方での分類が付与されているものもある。
目次情報が、図書の76.9%に付与されているというのは、かなり凄いことではないだろうか。
出版年別資料数
出版年が1868(明治元)年から1968(昭和43)年*2のものについて、まずは単純に出版年別の資料数を見てみる。
1900年に小さなピークがあるのは、先述した出版年月日等が“[19--]”に設定されている資料が混入して計上されている影響が考えられる。
明治から大正に変わる1912年、大正から昭和に変わる1926年にもピークが見られる。時代の変わり目に、それまでを振り返る図書が多く出版されるのだろうか。そうしたトピックも検出できることを期待したい。
なお、これらの資料数は、国会図書館に納められた図書であって、デジタル化が完了し、メタデータが登録されているものが対象であるから、実際に国内で出版されていた図書の数と等しいわけではない。
分野別資料数推移
先回りして告白してしまうと、まず図書タイトルについてMeCab+近代文語UniDic+gensimを用いてトピックモデルで分析してみたところ、それなりに傾向が分かる結果(この時期は歴史関係が多い、この時期は教育関係が多いなど)は得られたものの、あまりグッとくるものではなかった。
タイトルを形態素に分割し、頻度を時期ごとに集計するだけでも、同様の傾向は分かったが(明治初期には頻繁に用いられその後使われなくなっていった単語や、明治の中頃から増えてくる単語など)、それだけでは物足りない結果だった。
そこを追求する前に、実は司書さんが付与してくれた分類があるのだから、その情報を用いて分野別の推移傾向を把握してみることにする*3。
まず、資料数推移のNDC分類別内訳を見てみる(以下、対象期間を1868年から1930年までとする)。
類目名等は、便宜上、NDC第9版のものを挙げる。
良く分からん。。。
次に、NDC分類が付与されている図書について、類目ごとの構成率の推移を見てみる。
分野ごとに時系列の傾向があるようだが、ごちゃごちゃして分かりにくいので個別のグラフも見てみる。
- 0 総記
1877年、1909年、1914年にピークがある。
それぞれの内訳を見ると、1877年は「04 一般論文集、一般講演集」、1909年は「08 叢書、全集、選集」、1914年は「03 百科事典」の占める割合が多かった。
- 1 哲学
1877年に底を打っている。
- 2 歴史
明治初期に多く、その後は徐々に減少している。
内訳を見ると、基本的に「21 日本史」の占める割合が多いが、1869年のピークでは「22 アジア史、東洋史」が占める割合が多かった。
- 3 社会科学
1874年、1890年、1912年、1926年にピークがある。
内訳は後述。
- 4 自然科学
明治初期に多く、その後は低め安定。
内訳を見ると、「41 数学」「42 物理学」は明治初期にやや多く、その後は減少している。
「49 医学」は明治初期に増えた後も、4類の中で高い比率を占めている。
- 5 技術
近代化の中で、じわじわ増えていくのは想像通り。
- 6 産業
こちらも、じわじわ増えていくのは想像通り。
- 7 芸術
内訳を見ると、明治初期は「72 絵画、書道」、その後は「76 音楽、舞踊」の占める割合が増えている。
- 8 言語
内訳を見ると、主に「81 日本語」と「83 英語」である。
- 9 文学
大きく変動している。
1886年のピークに向けて上昇し、その後、下降するも、1897年、1907年にピークが見られ、1912年には谷がある。
興味深いことに、「3 社会科学」と「9 文学」を重ねてみると、社会科学の図書が多く出されているときには、文学の図書は下火になり、逆もまた同様の傾向があるように見える(まだ相関を求めていないけれど)。
「3 社会科学」と「9 文学」の資料数で見てみる。
「9 文学」については、やはり1886年に山があり、「3 社会科学」は1912年、1926年に突出している。1926年については、「9 文学」の構成比はやや下がっているが、資料数自体はむしろ増えていることが分かる。
「3 社会科学」の内訳を見てみると、ざっくり1900年ごろまでは「32 法律」、その後は「37 教育」の占める割合が多い。元号の変わり目付近(1913年、1927年)で「35 統計」のピークがあり、「33 経済」や「36 社会」は時代を追うごとにじわじわと増えている。
オチがない
これらの変動とその要因(社会情勢の変化、出版条例・出版法等による制限、納本率の変化等)を考えてみると面白そうだが、長くなってしまったので今日はここまで。
トピックモデルについては、図書タイトルのような短いテキストではなく、目次のテキストも利用してみると、また違った結果が得られるかもしれないが、いずれまた。
なお、当初、CygwinのPythonでgensimを使おうとしたところ、ATLASのビルド時間に何時間もかかるは、NumPyとSciPyはビルドできてもテストでエラーが出るわで、えらい苦労した。VM上のUbuntu 14.04 LTSでapt-getすれば一瞬で環境構築完了(マシンに最適なビルドではないにせよ)。悪いことは言わない、Cygwinでやるのは避けた方がいい。