コミュニケーション

古典籍へのアクセスが飛躍的に向上。人工知能(AI)を使ったくずし字の解読も始まり、古典の学びがより身近に

山本 和明先生

山本 和明先生

国文学研究資料館 古典籍共同研究事業センター 副センター長

国文学研究資料館(以下、国文研)が日本古典籍に関するポータルサイト「新日本古典籍総合データベース」を正式公開。人文学オープンデータ共同利用センター(CODH:Center for Open Data in the Humanities)と協力して字形データの公開も。

去る10月27日、国文研は、奈良時代から1868年までに制作された日本語の歴史典籍、いわゆる古典籍全冊の画像を撮影し、データベース化した「新日本古典籍総合データベース」の公開を始めた。文部科学省による大規模学術フロンティア促進事業「日本語の歴史的典籍の国際共同研究ネットワーク構築計画(歴史的典籍NW事業)」の一環で、2014年から10年かけて30万点の画像化を目指す。この日から公開されるのは、すでに撮影し書誌との照合を終えた約7万4千点、画像数で約1千万コマと約60万点の書誌で、うち2万2千コマには検索に便利なようにタグが付けられている。公開の意義、それによって高まる利用者の利便性、また事業の将来展望について、山本和明先生にお聞きした。

国内に所蔵される主要古典籍の検索が一括で容易に

公開にあたっては、 ①誰でも(登録なしで)、無料で、いつ・どこでも自由に利用できること。 ②クリエイティブ・コモンズ表示などで、論文への引用など、利用の手続きの明確化と簡素化、 ③電子データに付与される国際的識別子DOI(デジタルオブジェクト識別子)を採用し、リンク切れなどがなく、いつ見ても確認可能であること、 ④もっとも先端的なIIIF(トリプルアイエフ)ビューワーを採用し、大容量の画像でもすぐに確認できる。つまり見る人にとってストレスフリーであること、 の4点を重視しました。そしてくずし字は死蔵>をモットーに、シチズンサイエンス(市民科学)の時代にも対応したいと考えました。

正式公開にあわせて、国立情報学研究所(NII: National Institute of Informatics 東京都千代田区)が運用するCiNii Books(日本国内の図書館などが所蔵する本(図書・雑誌)の情報検索サービス)との連携も始め、その利用者は、検索結果画面から「新日本古典籍総合データベース」に直接アクセスして閲覧できるようになりました。NIIはすでに、国立国会図書館デジタルコレクションとも同様の連携を行っていますが、海外からのアクセスも多いCiNii Books とも連携することで、市民だけでなく海外の研究者による古典籍へのアクセスは飛躍的に向上することになると思います。

くずし字解読のために、大量の字形データも公開

国文研が古典籍の画像化とともに進めてきたのが、その本文画像をOCRで読み込ませるなどして、半自動的にテキストデータを生成する実験です。 そもそも日本の古典籍は、明治期に普及した活字体によるものと異なり、版本を使った版本など、その多くはくずし字や変体仮名によって書かれています。そのため活字文化で育った世代にはほとんど判読できないのです。研究のすそ野を広げるにはテキスト化が欠かせません。ただそのためには専門家による翻刻に頼るしかありませんから、その数は限られ、現在テキスト化されている古典籍は全体の1%程度に過ぎないとも言われています。このままもし、多くの古典籍が翻刻されないままでいるようなら、それは日本文化にとっては大きな損失です。

ところでくずし字は、連綿体と言われるように、文字と文字とがつながっていますから、OCRで読み込むには、一文字一文字に分解し、座標軸の中で範囲を指定していく必要があります。その際、中間生成物として大量に派生するのが、座標データを伴ったくずし字の字形データ。これを作品毎にデータセットとしてダウンロードできるようにしたのが「日本古典籍字形データセット」で、現在、3,999文字種、403,242文字のデータをCODHの協力のもと公開しています。

公開のきっかけになったのは、字形データを見た情報学系の研究者からの、「画像処理の材料に使ってみたい」「大量にコンピュータに取り込み学習させておけばいずれ人工知能(AI)で解読できるのではないか」などの声でした。こうした声を受け国文研では、自分たちで公開しても、おそらく誰も利用してくれないだろうと判断し、情報系のCODHと協力して公開することに踏み切ったのです。その結果、理系や情報学系の研究者がこれを自由に使うようになり、すでに様々な解読方法が試みられるようになりました。この中からはいずれ、われわれの思いもしないアルゴリズム(手順)が生まれるのではないかと期待しています。

文理融合で、古典籍を用いた研究に新たな風を

このような取組の中から、くずし字を画像処理で翻刻し、版本をテキスト化する方法が見つかれば、30万点の画像公開に劣らない大きな成果になると考えられます。当然、現代語訳、さらには外国語への翻訳も加速するでしょう。古典籍には文学作品だけではなく、日本文化や自然科学に関するものも含まれますから、これまで知られなかった、あるいはくずし字で書かれているために手をだせなかったものが古典籍の専門家以外、あるいは海外の研究者の目にも触れやすくなり、新たな文化資産として脚光を浴びるようになるかもしれません。

私たち国文学研究者にしてみれば、デジタル時代になって、これまで以上に古典籍に注目が集まるというのは皮肉な現象にも感じられますが、同時にとても喜ばしいことでもあります。デジタルテクノロジーから最も縁遠いと考えられる国文学研究ですが、今後は、大量のデジタルデータを駆使するなどの新しい方法、学問の形がり出てこないとも限りませんし、さらには理系・文系双方のリテラシーを備えた新しいタイプの研究者が生まれてくることも考えられます。また高校をはじめ、学校での古典や伝統文化の学びが、一連のデジタル化の進展によって、一層豊かなものになるのではないかとも期待しています。

お問い合わせ

発行所:くらむぽん出版
〒531-0071 大阪市北区中津1-14-2