慶應義塾

【特集:デジタルアーカイブの展望】永崎 研宣:デジタルアーカイブの現在地とこれから──公開から連携へ

執筆者プロフィール

  • 永崎 研宣(ながさき きよのり)

    文学部 図書館・情報学専攻教授

    永崎 研宣(ながさき きよのり)

    文学部 図書館・情報学専攻教授

2024/11/05

はじめに

デジタルアーカイブ(以下、DA)と呼ばれる資料のデジタル化と公開の動向が広まり始めてから四半世紀が過ぎた。デジタルアーカイブ学会が設立されて実務者と研究者が交流しつつDAの未来を模索していく場が形成されるなど、これを担おうとする人が着実に増えてきているように思う。DAには様々な定義があるが、つまるところ、様々なタイプの資料をデジタル化して公開・共有することを中心とした営みであるため、関わる人々の多様さはその資料の種類と同様である。そのような中でも、デジタル技術やそれを巡る法制度等に関してはある程度議論の場を共有できるため、そういった軸を踏まえて学会をはじめとする様々なコミュニティの形成や活動が行われつつあるということだろう。

最近のDA学会誌を見てみると、高野明彦「DAの3つの価値*1」では、「ジャパンサーチ戦略方針 2021-2025『デジタルアーカイブを日常にする』」において提示した「3つの価値:デジタルアーカイブの大切な役割」、すなわち(1)記録・記憶の継承と再構築、(2)コミュニティを支える共通知識基盤、(3)新たな社会ネットワークの形成、を改めて挙げている。紙幅の関係で詳細には入らないが、ここで語られる価値は、知識基盤の内容が連携し、それに伴って人々も連携していき、よりよい社会ネットワークが形成されていくことを1つの重要な要素としていると筆者としては理解している。

DAは目立つコンテンツが公開された時には話題になるが、全体としては、その大部分はあまり目立たず、誰かが発見してくれることを待ち続けているものである。そして、いつか誰かが価値を見いだしてくれる可能性のために保存され公開され続けている。実際に、個別に見ると大きな価値をもたないものでも、集約されることで価値を持ったり、コミュニティの中に位置づけられることで価値を持ったり、他の様々な資料と連携することで価値を持つこともある。

DA連携とは

連携としてすぐに思い浮かぶのは、ジャパンサーチEuropeana等、メタデータの横断検索を可能とするポータルサイトである。そして、近年ではさらに粒度の細かい連携の可能性が拓かれてきている。ここではその背景と現状について簡単に紹介したい。

粒度の細かい連携とは、DAにおける1つの資料や1つのアイテムよりも小さな単位で内外からのアノテーション(注釈)を付与しやすい仕組みと、そのようにして付与した知的作業の成果としてのアノテーションをなるべく持続可能なものとすることである。

内外からアノテーションを付与するためには、それを可能とするためのソフトウェアが必要となる。かつては、企業や研究者、開発者が用意する特別な仕組みであることが多かった。しかし、特注のソフトウェアでアノテーションが行われた場合、外部のサイトと連携しようとしたら両者が同じソフトウェアを導入しなければならない。あるいは、単独で実施した場合にも、システム更新の必要が生じた時に同じ開発元のソフトウェアを継続して導入しなければアノテーションという知的作業の成果が利用できなくなってしまう。さらに言えば、そのソフトウェアがバージョンアップして以前のものと互換性を失ったり、あるいは、ソフトウェアの開発が終了してしまったりした場合などは、その成果は失われてしまうことになる可能性がある。たとえば、アドビ社のFlashの事業停止がもたらした混乱は記憶に新しい。紙媒体で刊行される知的作業の成果である紙の本が国立国会図書館に行けば概ねいつでも閲覧できることと比較すると、DAにおける知的作業は、先進的な取組みや理論面での議論はともかく、現場レベルでは持続可能性においてまだ安心できると言える状況ではないように思われる。

このような状況を回避するための措置としては、データとソフトウェアを分離した上でデータを標準的かつオープンな形式で作成するということが様々な分野で広く行われている。たとえばマイクロソフトのワードやエクセル、あるいはPDF等は、国際標準規格としてデータ形式が公表されており、同じ形式を利用できる様々なソフトウェアが普及している。データ形式を公表しつつ共通化することは、データを様々なソフトウェアで利用可能とし、特定の人や企業への依存度を下げることで、持続可能性を高めるための重要な要素となるものである。

IIIFによるDA連携

DA全体としても、Webの利用が広まった結果、Webブラウザという1つのソフトウェアで様々なコンテンツを閲覧できるが、さらに近年では、DAの外形や内容により即した形式でデータ形式を標準化しようとする動きが国内外で広まってきている。特に注目しておきたいのはIIIF(International Image Interoperability Framework)である。この規格で標準化しているのは、「Webで公開されている様々なコンテンツにおける部分的な位置や領域を国際的に共通のデータ形式で指示できる」ことである。

これは、たとえば、あるサイトで公開されている西洋中世写本において細密画が切り取られた箇所を指定して、他のサイトで公開されている該当する細密画の画像を切り取られた箇所にぴったりとあわせてWebブラウザ上で表示させるといったことを可能とする。この規格では、別々のサイトにある情報の該当箇所だけを取り出して組み合わせて新しいコンテンツを作り出すことも可能であり、典型例としては、日本の絵巻物を中心として古今東西の美術作品から顔の部分を切り出してそれぞれにアノテーションを施した顔貌コレクションが有名である。原稿執筆時点では108作品から9675件の顔画像が切り出され、データセットとして誰でも研究等に利用できる形で公開されている。

IIIFの普及は、世界各地のWebコンテンツを自由に活用できるようにし、それによってWebコンテンツの価値を高める可能性をより拡大した。初期の頃は「サイロから解放する」という表現がよく用いられていたが、それぞれのWebコンテンツが各自のサイトのなかで閉じ込められていて、連携させるためには大きなコストがかかってしまう上に必ずしもうまくできる保証もなく、個々のコンテンツの価値をより高めていくための方策が求められるなかで、こういった規格が発案されたようである。

IIIFは、国際的には欧米の多くの有力大学の図書館が貴重資料のWeb公開において採用しており、国立図書館でも仏英米独をはじめいくつかの国で採用されている。日本でも現在では国立国会図書館や国文学研究資料館など、大規模コンテンツを公開している組織が採用しているため、日本におけるIIIF対応コンテンツ数はかなりの規模となっている。ちなみに、慶應義塾大学メディアセンターでもIIIFを採用しているが、これは国内の大学図書館としては最初の例だったようである。

IIIFに準拠した公開をすることにより、DAは、1つ1つのアイテムからコンテンツの各部分のレベルまで、様々なコンテクストで自由に内容を連携させて新たな価値を付与される可能性を高めることができる。詳しくは、筆者らが本年刊行した『IIIFが拓くデジタルアーカイブ』(文学通信)を参照されたい。

テキスト資料のためのTEI

IIIFが分野を問わないコンテンツ連携の規格であるのに対し、分野に特化することで有用性を高めるDA関連規格も様々に存在する。ここでは、人文学分野、特にテキスト研究に焦点を当てたデータ形式、TEI(Text Encoding Initiative)ガイドラインに注目する。というのは、DAにおいて現在のところ多くを占めるのは古典籍や古文書等のテキスト資料であり、その可用性や連携可能性を検討するならその種の資料を主に対象とする規格が有用だからである。

TEIガイドラインは、1987年に主に欧米の人文学や情報学の研究者らが集まって開始されたものである。その後30年以上にわたり、人文系研究者を中心としたコミュニティによって支えられて現在に至っている。現在は、おおむね半年に一度TEI技術委員会が中心となってガイドラインの改訂を行っている。

人文学でテキスト研究を行う分野、と一口に言っても、そこには様々な研究手法があり、それによって着目する点も様々である。同じテキスト資料を見ても、分野や関心に応じて、資料の書式や紙の材質、文字の字体等の外形的なことに関心を持つ場合もあれば、テキストの内容や登場する固有名詞、あるいは各単語の品詞情報など、内容面に関心を持つ場合もある。この多様な人文学において共通のデータ形式を作るというのは容易なことではない。これを乗り越えて共通の形式を策定していくことがTEIが目指すところである。この取組みは、単にデジタル技術を応用したりDAを発展させたりするだけでなく、人文学分野における方法論に関する議論に発展し得るものであり、人文学内での分野横断的な取組みとしても興味深い。

多言語の問題

TEIのコミュニティにおいて近年重要となっているもう1つの要素として、多言語の問題がある。英語圏以外からの参加も多いものの、TEIガイドラインはそれ自体が英語で書かれており、関連する議論も主に英語が使用されるため、このガイドラインは暗黙的に英語での資料の扱い方を前提としている面がある、と指摘する向きもある。コミュニティとしては国際化・多言語化に取り組んでおり、タグ等の説明の部分に関しては、日本語を含む7カ国語訳がすでに公開されている。しかし、ガイドライン全体に関してはその分量と専門性のため、近年はまとまった翻訳は公開されていない。TEIのコミュニティ自体が、2018年に東京で年次大会を開催するまで、一度も欧米以外の地で年次大会開催をしたことはなかった。

TEIの多言語化にあたっては、内容面と実用面の両方で対応する必要がある。実用面は、よく用いられるガイドラインやチュートリアルの日本語訳が求められる。また、内容面では、西洋言語の資料を前提として策定されたTEIガイドラインを日本の古典籍や古文書にそのまま適用することは難しい。この課題の解決は容易なものではないが、これを乗り越えられれば、欧米の多くのデジタル化テキスト資料と互換性を持った形で横断的な分析やツールの共有等ができるようになるため、昨今の学術情報流通における1つの大きな流れである研究データの利活用にも大きく貢献できる。

筆者がこれに取組み始めたのは2006年頃だったが、その後10年を経て、2016年に、この協会では初めて、特定言語圏に関する議論をする分科会として東アジア/日本語分科会を設置できた。この分科会での議論を踏まえて年次大会や技術委員会との議論、GitHubでの議論も経て、さらにその5年後、2021年には日本語でよく用いられるルビのルールがTEIガイドラインに追加された*2。多言語化の流れとしては、2017年にはインドテキスト分科会も設置されるなど、徐々にその動きが強まってきている。日本からの動きがインド関連の研究者の動きを後押ししたという面もあり、こうした事柄については、非欧米圏では比較的早くから人文学が発展した日本の強みとして、今後も日本が国際的に貢献できるポイントであるように思われる。

DAにおけるTEIガイドラインの活用は、日本ではまだ始まったばかりであり、今後の広がりを期待するところである。特に、DAにおいて画像が公開されている多くの古文書や古典籍、すなわち、漢文やくずし字の資料は、一般の閲覧者にとっては、文字が読めても意味がわからなかったり、そもそも文字が読めなかったりすることも十分に想定されるものであり、テキストデータを付与したり、現代語訳を用意できると望ましい。そのようにしてDAに新たなコンテンツを付与していくこともまた、価値を高めていくことになるだろう。なお、TEIに関する詳細は、筆者らが昨年に刊行した『人文学のためのテキストデータ構築入門』(文学通信)を参照されたい。

TEIとIIIFの組み合わせによるDA連携

特に画像との連携に関しては、TEIガイドラインに準拠してIIIF対応画像の任意の箇所とテキストをリンクさせて表示することが可能であり、たとえば、TEI準拠で作成された石清水社歌合では、内閣府文庫と群馬大学から公開されている写本を、テキストデータを読みつつ双方が異なる箇所についてはIIIF準拠画像の対応箇所を表示できるようになっている。すなわち、それぞれの機関から公開されているDAの画像が、公開者側では特にそれ以上の努力をせずとも、和歌文学研究者が独自にそれを活用して学術コンテンツの重要な要素としての価値を与えているのである。原本にどう書かれているのかを、現地に見に行くのでもなく、あるいは該当箇所を冒頭から探していくのでもなく、ワンクリックで確認できるのは、現地に資料を見に行くような重厚で濃密な体験には遠く及ばないものの、むしろ、少し縁の遠い分野の資料をごく少ない手間できちんと閲覧できたり、あるいはこういった研究手法の教育の入口として活用できるなど、新しい可能性は様々に考えられる。

DA画像に対して古文の原文だけでなく現代日本語訳と英訳も付与して公開している例としては、本年3月に公開された「十番虫合絵巻」がある。これも、TEI準拠テキストからIIIF準拠画像へのリンクが行われ、ここでは和歌に対応する絵巻中の絵がそれぞれ表示され、さらに、3つのテキストのいずれかをクリックすると、それに対応する箇所が表示されハイライトもされるようになっている。技術面のみならず、内容面からみた場合にも、現代日本語訳や英訳は、それぞれ、古文は読めないが現代日本語を読める人々や英語が読める人々にDAのコンテンツをつなげるものである。技術面で連携することが人々をつなぐことにも貢献する。このコンテンツを通じてつながった人々は、将来何らかの形でこの分野に貢献をしてくれる可能性もあるだろう。そうなったとしたら、そこでは技術面と内容面が相互に高め合う好循環が形成されることになる。

このように、標準的なデータ形式で作成されたDAは、技術的にも内容的にも、そして人的にも、連携を支える核となり得るものである。今後のDA構築・運用においては、この方向を一層推進していくことが、よりよい知識の共有を促して社会のネットワーク形成を支える、強く豊かな礎を形作っていくことだろう。

※所属・職名等は本誌発刊当時のものです。