デジタルアーカイブにおける複数メタデータセット間の関連付けの自動化に関する検討：「大江健三郎文庫自筆原稿デジタルアーカイブ」を事例として

July 2, 2025 阿達藍留, 大向一輝デジタルアーカイブ学会誌. 2025, vol. 9, no. 3, p. e25-e31.

Explanation

This explanation was generated by Claude Opus 4.6 for reference. It may contain inaccuracies, so please consult the original work and related sources when needed.

Character illustrations: Zundamon standing illustration by Sakamoto Ahiru / Shikoku Metan standing illustration by Sakamoto Ahiru are used.

1. オープニング

め

四国めたん

ねぇ、ずんだもん。古い小説を研究するときって、その作品が最初にどの雑誌に載って、その後どの本に収録されたのか…って、ぜんぶ追いかけないといけないらしいわね。

ず

ずんだもん

そうなのだ。文学研究、特に作家研究では、作品そのものだけじゃなくて、その作品が世の中にどう広まっていったかを追うことが大事なのだ。同じ作品が雑誌に載って、単行本になって、文庫になって、全集に入って…と、いろんな形で出版されることがあるのだ。

め

四国めたん

それを全部、人の手で整理するの? 気が遠くなりそうね。

ず

ずんだもん

まさにそこなのだ。今日紹介する論文は、その「整理する作業」をコンピュータで自動化できないかを、実際のデジタルアーカイブのデータで検証した研究なのだ。タイトルは…【タイトルコール】「デジタルアーカイブの『名寄せ』を自動化できるか?——大江健三郎文庫を題材に5つの手法を比べてみた」。著者は東京大学の阿達藍留さんと大向一輝さん。デジタルアーカイブ学会誌の2025年第3号に掲載された論文なのだ。

め

四国めたん

大江健三郎って、ノーベル文学賞を受賞した作家よね。その人の資料を扱うアーカイブが題材なのね。

2. そもそも「名寄せ」って何なのだ?

ず

ずんだもん

論文の本題に入る前に、まずキーワードを押さえておくのだ。今回の中心になるのが「名寄せ」という作業なのだ。

め

四国めたん

なよせ?

ず

ずんだもん

異なるデータセットに含まれる情報が、実は「同じもの」を指していることを見つけて関連付ける作業のことなのだ。英語ではData Matching、Record Linkage、Entity Resolutionなどと呼ばれているのだ。

め

四国めたん

身近な例で言うとどんな感じになるのかしら。

ず

ずんだもん

たとえば、顧客名簿が2つあって、片方には「山田太郎」、もう片方には「ヤマダタロウ」と書かれている、みたいな状況なのだ。表記は違うけど同じ人物だと判定して結びつける——これが名寄せなのだ。

め

四国めたん

なるほど。コンピュータにとっては、ひと文字でも違えば「別物」だものね。それを「同じもの」だと教えてあげる作業ということね。

ず

ずんだもん

そうなのだ。長年、多くの研究者や企業が取り組んできた古典的な問題で、対象分野や言語によっていろんな手法が考案されてきたのだ。

3. 大江健三郎文庫アーカイブのデータ構造

ず

ずんだもん

論文の対象になっているデータを具体的に見ていくのだ。「大江健三郎文庫自筆原稿デジタルアーカイブ」は、自筆原稿や校正刷を撮影した約18,000枚の画像と、大江氏の著書・作品の詳細情報からなるアーカイブなのだ。東京大学大学院人文社会系研究科・文学部に2023年9月1日に開設された「大江健三郎文庫」の一部として置かれているのだ。

め

四国めたん

今回の論文では、その中のどの部分を扱うの?

ず

ずんだもん

書籍と作品に関するデータセットを2つ使うのだ。一つ目は「掲載情報」と呼ばれるデータセットで、ある作品がどの書籍に収録されているかを記録しているのだ。例えばこんな1行があるのだ——「『死者の奢り・飼育』1987年5月25日改版・新潮文庫 pp.7-54」。

め

四国めたん

題名と日付と出版形態とページ数が、決まった形式で並んでいるのね。

ず

ずんだもん

そうなのだ。これが全部で3,457件あるのだ。もう一つが「書籍情報」で、こちらは1冊につき1レコード、書名・出版年月日・出版者と「b430」みたいな一意のIDがついているのだ。こちらは全部で334件なのだ。

め

四国めたん

3,457件の掲載情報のそれぞれを、334件の書籍情報のどれかに結びつける——これが今回の名寄せ作業ね。

ず

ずんだもん

その通りなのだ。この関連付けは、もともとは専門家の監修のもと、整理作業者が手作業で行ったものなのだ。論文ではその手作業の結果を「正解データ」として、機械的にやったらどこまでこれに近づけるかを検証しているのだ。ぼくたちもこれから、その検証の中身を見ていくのだ。

4. 検証する5つの手法

ず

ずんだもん

論文では、大きく分けて3つの系統、計5つの手法を比較しているのだ。順番に見ていくのだ。

め

四国めたん

お願いするわね。

ず

ずんだもん

まず「完全一致」系。書誌情報の特定の項目を抜き出して、ぴったり一致する書籍を探す方法なのだ。手法a-1は、二重カギ括弧『〜』で囲まれた部分をタイトルとして抜き出して、書籍情報のタイトルと完全一致するものを列挙する。手法a-2は、「YYYY年MM月DD日」のパターンを刊行日として抜き出して、書籍情報の刊行日と完全一致するものを列挙するのだ。

め

四国めたん

正規表現で機械的に抜くのね。シンプルだけど、表記がぴったり同じじゃないと拾えないわよね。

ず

ずんだもん

次が「編集距離」系。文字列の似ている度合いを測る尺度を使う方法なのだ。論文ではLevenshtein(レーベンシュタイン)距離を採用しているのだ。

め

四国めたん

れーべんしゅたいん…なんだか難しそうな名前ね。

ず

ずんだもん

考え方はシンプルなのだ。「ある文字列を別の文字列に変えるには、最低何回の編集——挿入・削除・置換——が必要か」を数えた値なのだ。値が小さいほど似ている、ということなのだ。手法b-1は、掲載情報からタイトルを抜き出して、書籍情報のタイトルとの編集距離が最小の書籍を列挙。手法b-2は、掲載情報の文字列全体と、同じ形式に整形した書籍情報全体との編集距離が最小の書籍を列挙するのだ。

め

四国めたん

完全一致じゃなくて「いちばん近いもの」を選ぶから、表記が少し違っても引っかかってくれるのね。

ず

ずんだもん

そして、本論文の見どころの一つ、LLMを使った手法なのだ。手法c-1は、掲載情報の1件と書籍情報の1件を並べてLLMに見せて、「この2つは同じ書籍を指しているか? TrueかFalseで答えて」と聞く方法。これを総当たりで全部の組み合わせについて行うのだ。手法c-2は、書籍情報の全334件をリスト化してプロンプトに入れて、掲載情報1件に対して「この中で最も近いものはどれか」を1件だけ答えさせる方法なのだ。

め

四国めたん

c-1とc-2、ずいぶんアプローチが違うのね。

ず

ずんだもん

そうなのだ。c-1は「2つを比べてYes/No」、c-2は「リストから1件選ばせる」なのだ。c-1のプロンプトには、One-shot Promptingという、判断の例を1例だけ含めて示す方法を採用しているのだ。

め

四国めたん

ちょっと聞きたいんだけど、使われたLLMはどんなモデルなの?

ず

ずんだもん

論文では予備実験を経て、サイバーエージェント社のCyberAgentLM3-22B-Chatが採用されているのだ。225億パラメータの日本語特化LLMで、論文中では「モデル22B」と呼ばれているのだ。さらに規模の影響を見るために、同じくサイバーエージェント社が公開している、より大きいLlama-3.1-70B-Japanese-Instruct-2407——「モデル70B」も追加で使っているのだ。

め

四国めたん

ChatGPTみたいなクラウドのサービスは使わなかったの?

ず

ずんだもん

論文では、モデルがオープンソースであることや、ローカルで動かせるのでデータの機密性が守られることを重視して、APIのみのサービスは検証対象外にしたと書かれているのだ。

め

四国めたん

なるほど、研究データを外部に出さずに済むという判断なのね。

5. 結果はどうだったのだ?

ず

ずんだもん

ここからが論文の核心なのだ。3,457件の掲載情報すべてに対して、5つの手法を適用して、それぞれの結果と人手による正解を突き合わせたのだ。

め

四国めたん

評価軸はどうなっているの?

ず

ずんだもん

論文では結果を5つに分類しているのだ——「1件かつ正答」「複数件かつ正答を含む」「1件かつ誤答」「複数件かつすべて誤答」「無効」、なのだ。「複数件かつ正答を含む」も評価対象にするのは、現実のアーカイブ構築では候補が複数残っても、人の意思決定の補助としては十分有用、という考え方なのだ。

め

四国めたん

完全自動じゃなくて、人とのチームプレイ前提でも見るということね。

ず

ずんだもん

そうなのだ。それでは結果を見ていくのだ。手法a-1、つまりタイトル完全一致は「1件かつ正答」が15.9%、「無効」が35.5%と、なかなか厳しい結果だったのだ。

め

四国めたん

無効が3割超えって、けっこう多いわね。原因は何だったのかしら?

ず

ずんだもん

論文中に、興味深い具体例があるのだ。たとえば「死者の奢り」という作品は、最初は1958年の単行本『死者の奢り』に収録されたのだけど、その後1959年に新潮文庫の『死者の奢り・飼育』、さらに1987年には改版の新潮文庫『死者の奢り・飼育』にも収録されているのだ。

め

四国めたん

あら、書名が変わってるわね。「死者の奢り」と「死者の奢り・飼育」は別物として判定されちゃうのね。

ず

ずんだもん

そうなのだ。さらに同じ「死者の奢り・飼育」でも、文庫初版と改版では書籍情報のレコードが別なのだ。タイトルの完全一致だけでは、これらを区別できないのだ。

ず

ずんだもん

ところが手法a-2、刊行日の完全一致は様子が一変するのだ。「1件かつ正答」が87.9%、「正答を含む」まで広げると97.8%という高い数字なのだ。

め

四国めたん

えっ、たった日付だけでそんなに当たるの?

ず

ずんだもん

これには理由があるのだ。今回の対象は単一の作家・大江健三郎の著作だけで、一人の作家の本が同じ日に複数刊行されるのは稀なのだ。だから刊行日が重複しにくくて、日付さえ取れればほぼ一意に決まるのだ。

め

四国めたん

なるほど、データの性質に上手くハマったのね。

ず

ずんだもん

論文では、この点について「他の著者や異なる状況でも同じように有効とは限らないので、適用範囲には注意が必要」と慎重に書かれているのだ。

ず

ずんだもん

編集距離の手法は、b-1が「1件かつ正答」52.5%、b-2が62.6%という中間的な結果なのだ。完全一致系よりは無効が出にくいけど、その分「1件かつ誤答」も増えているのだ。

め

四国めたん

誤答ってどんなふうに間違えるの?

ず

ずんだもん

これも論文に例が出ているのだ。たとえば、b-2は『「雨の木(レイン・ツリー)」を聴く女たち』の掲載情報を、別の本『世界の若者たち』に結びつけてしまっているのだ。

め

四国めたん

題名がまるで違うじゃない! どうしてそんな間違いが起きるの?

ず

ずんだもん

編集距離は文字列全体の表面的な近さしか見ないから、「同じ作家の他の本」と「文字数や出版社の表記がたまたま似ている」だけで距離が小さくなってしまうことがあるのだ。人間の目で見れば一目で違うとわかるのに、機械的に文字を数えるだけだと取り違えるのだ。

ず

ずんだもん

LLMを使った手法c-1、モデル22Bは「1件かつ正答」が92.7%で、5つの手法の中で最高精度を記録したのだ。

め

四国めたん

すごい! これが優勝ってことかしら?

ず

ずんだもん

…そう簡単な話ではないのだ。実行時間を見ると、ここに大きな落とし穴があるのだ。手法a-1からb-2までは1秒台で終わるのに対して、手法c-1の処理時間は…68.8時間なのだ。

め

四国めたん

68.8時間? 一週間近いじゃない!

ず

ずんだもん

1回のLLM比較に約0.2秒かかるのだけど、c-1は3,457件×334件で総当たり、つまり約115万回の比較が必要なのだ。0.2秒×115万回で、3日近くかかる計算なのだ。

め

四国めたん

手法c-2の方はどうだったのかしら?

ず

ずんだもん

c-2は書籍情報のリスト全体をプロンプトに入れて1件選ばせる方法なので、比較回数は3,457回で済むのだ。モデル22Bだと8.8時間で正答率30.5%、モデル70Bにすると23.4時間で正答率84.1%まで上がったのだ。

め

四国めたん

モデルを大きくしたら正答率が大幅に上がったのね。

ず

ずんだもん

そこが面白いところなのだ。一般に、LLMはパラメータ数が多いほど性能が上がるという「スケーリング則」が知られているのだ。手法c-2ではこの傾向どおりだったのだけど…手法c-1にモデル70Bを使うとどうなるかと言うと、計算時間が180時間を超えると推測されたので、論文では検証を行わないことにしたと書かれているのだ。

め

四国めたん

180時間…つまり1週間以上ね。実用的じゃないということね。

6. ハイブリッド手法d——いいとこ取りの工夫

ず

ずんだもん

ここで著者らは「組み合わせれば良いのでは?」と考えたのだ。それが手法dなのだ。

め

四国めたん

どう組み合わせたの?

ず

ずんだもん

シンプルなアイデアなのだ。まず手法a-2(刊行日の完全一致)で候補を絞り込んで、候補が複数残った場合だけ手法c-1(LLM)で1件に絞り込む——という2段階の構成なのだ。

め

四国めたん

最初に高速な手法でざっくり絞って、難しい部分だけLLMに任せるのね。

ず

ずんだもん

結果はどうなったかと言うと、モデル22Bを使った場合、「1件かつ正答」が97.3%まで上昇して、a-2単独の87.9%、c-1単独の92.7%のどちらをも上回ったのだ。しかも実行時間は145秒、つまり約2分半で済むようになったのだ。

め

四国めたん

68.8時間が145秒? すごい改善ね!

ず

ずんだもん

さらに興味深いのが、モデル70Bを使った場合との比較なのだ。手法dでモデル70Bにすると、実行時間は599秒——約4倍に伸びたのに、正答率は97.0%とほぼ変わらなかったのだ。

め

四国めたん

あら、大きくしても精度はほとんど変わらないのね。

ず

ずんだもん

論文ではここから「モデルの規模が大きくなれば必ず性能が向上するわけではなく、計算コストとのバランスを考慮した手法選択が必要」という示唆を導いているのだ。文脈やタスクによっては、より大きいモデルを使う意味が薄い場合があるということなのだ。

7. 著者の考察と限界

ず

ずんだもん

著者らの結論を整理するのだ。論文では、「正答率が比較的高く、かつ実行時間が短い手法a-2が最も費用対効果の高い手法」と総括しているのだ。

め

四国めたん

一番ハイテクなLLMじゃなくて、シンプルな日付の一致が「最も費用対効果が高い」って評価なのね。意外だわ。

ず

ずんだもん

ただし著者らは、a-2が高い正答率を出したのは「単一の作家の著作」というデータの特性によるところが大きいと、しっかり断っているのだ。他の作家や異なる状況にそのまま当てはめられるかは別問題なのだ。

め

四国めたん

研究の前提条件をはっきりさせているのね。

ず

ずんだもん

LLMの実行時間についても、「あくまで他の手法との比較によるもの」「専門家による作業が難しい状況など、時間を要しても高精度が求められる場合には十分有力な選択肢になり得る」と書かれていて、用途次第で評価が変わることが示されているのだ。

め

四国めたん

他に著者が言及している限界はあるかしら。

ず

ずんだもん

一つ重要なポイントがあるのだ。論文では「客観的な手法の評価のために、人間が作成したデータを基準とした」のだけど、その過程で元データに誤りが含まれていることも確認されたと書かれているのだ。

め

四国めたん

正解データ自体に間違いがあったってこと?

ず

ずんだもん

そうなのだ。ということは、提案手法の出力が「本当は正しいのに、正解データと違うから誤答とカウントされた」例があるかもしれない、ということなのだ。論文では「真の正解を求めることが目的ではなかった」のでそのまま評価を進めたと述べた上で、今後は人間とコンピュータが協力して高品質なデータ生成を目指したい、と結んでいるのだ。

8. まとめ

ず

ずんだもん

今日のポイントをまとめるのだ。まず、デジタルアーカイブのメタデータ整備において、データセット間の関連付け、つまり「名寄せ」は手間のかかる重要な作業なのだ。次に、大江健三郎文庫アーカイブの実データで、完全一致・編集距離・LLMの3系統、計5手法を比較した結果、刊行日の完全一致(手法a-2)が費用対効果で最も優れていたのだ。LLMを使った手法c-1は92.7%という最高精度を出したけど、処理に68.8時間かかるという課題があったのだ。そして、手法a-2で絞り込み、複数候補が残った場合のみLLMで決定するハイブリッド手法dは、正答率97.3%・処理時間145秒という、精度と速度のバランスを実現したのだ。最後に、大きなモデルが必ずしも結果を改善するとは限らず、タスクとモデル規模の組み合わせを慎重に選ぶ必要があるのだ。

め

四国めたん

最先端の技術を使えば一番いい、というわけじゃないのね。データの性質を理解して、シンプルな手法とAIを上手に組み合わせる発想が大事なのね。

ず

ずんだもん

そうなのだ。ちなみに、LLMの分野はこの論文の発表後も急速に進化を続けていて、より高性能なモデルが次々登場しているのだ。論文自身も「将来は最先端のモデルを積極的に調査・導入することが求められる」と書いているのだ。今後また新しい比較が出てくる可能性は十分あるのだ。

め

四国めたん

それでも、「複数手法を組み合わせる」という発想自体は、モデルが変わっても通用しそうね。

9. エンディング

ず

ずんだもん

というわけで、今日はデジタルアーカイブの「名寄せ」自動化の研究を紹介したのだ。

め

四国めたん

動画が役に立ったら、チャンネル登録と高評価をよろしくね。コメントで「あなたの分野ではどんな名寄せがあるか」教えてくれると嬉しいわ。

ず

ずんだもん

今日紹介した論文は——阿達藍留・大向一輝「デジタルアーカイブにおける複数メタデータセット間の関連付けの自動化に関する検討:『大江健三郎文庫自筆原稿デジタルアーカイブ』を事例として」、デジタルアーカイブ学会誌第9巻第3号、2025年。オープンアクセスで公開されているので、興味がある人はぜひ原典に当たってみてほしいのだ。

め

四国めたん

それでは、また次の動画でお会いしましょう。

ず

ずんだもん

バイバイなのだ!

JSON Script

{
  "renderJson": {
    "chapters": [
      {
        "id": "chapter1",
        "title": "オープニング",
        "messages": [
          {
            "id": "c1m1",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ねぇ、ずんだもん。古い小説を研究するときって、その作品が最初にどの雑誌に載って、その後どの本に収録されたのか…って、ぜんぶ追いかけないといけないらしいわね。"
          },
          {
            "id": "c1m2",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。文学研究、特に作家研究では、作品そのものだけじゃなくて、その作品が世の中にどう広まっていったかを追うことが大事なのだ。同じ作品が雑誌に載って、単行本になって、文庫になって、全集に入って…と、いろんな形で出版されることがあるのだ。"
          },
          {
            "id": "c1m3",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "それを全部、人の手で整理するの? 気が遠くなりそうね。"
          },
          {
            "id": "c1m4",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "まさにそこなのだ。今日紹介する論文は、その「整理する作業」をコンピュータで自動化できないかを、実際のデジタルアーカイブのデータで検証した研究なのだ。タイトルは…【タイトルコール】「デジタルアーカイブの『名寄せ』を自動化できるか?——大江健三郎文庫を題材に5つの手法を比べてみた」。著者は東京大学の阿達藍留さんと大向一輝さん。デジタルアーカイブ学会誌の2025年第3号に掲載された論文なのだ。"
          },
          {
            "id": "c1m5",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "大江健三郎って、ノーベル文学賞を受賞した作家よね。その人の資料を扱うアーカイブが題材なのね。"
          }
        ]
      },
      {
        "id": "chapter2",
        "title": "そもそも「名寄せ」って何なのだ?",
        "messages": [
          {
            "id": "c2m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文の本題に入る前に、まずキーワードを押さえておくのだ。今回の中心になるのが「名寄せ」という作業なのだ。"
          },
          {
            "id": "c2m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なよせ?"
          },
          {
            "id": "c2m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "異なるデータセットに含まれる情報が、実は「同じもの」を指していることを見つけて関連付ける作業のことなのだ。英語ではData Matching、Record Linkage、Entity Resolutionなどと呼ばれているのだ。"
          },
          {
            "id": "c2m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "身近な例で言うとどんな感じになるのかしら。"
          },
          {
            "id": "c2m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "たとえば、顧客名簿が2つあって、片方には「山田太郎」、もう片方には「ヤマダタロウ」と書かれている、みたいな状況なのだ。表記は違うけど同じ人物だと判定して結びつける——これが名寄せなのだ。"
          },
          {
            "id": "c2m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なるほど。コンピュータにとっては、ひと文字でも違えば「別物」だものね。それを「同じもの」だと教えてあげる作業ということね。"
          },
          {
            "id": "c2m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。長年、多くの研究者や企業が取り組んできた古典的な問題で、対象分野や言語によっていろんな手法が考案されてきたのだ。"
          }
        ]
      },
      {
        "id": "chapter3",
        "title": "大江健三郎文庫アーカイブのデータ構造",
        "messages": [
          {
            "id": "c3m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文の対象になっているデータを具体的に見ていくのだ。「大江健三郎文庫自筆原稿デジタルアーカイブ」は、自筆原稿や校正刷を撮影した約18,000枚の画像と、大江氏の著書・作品の詳細情報からなるアーカイブなのだ。東京大学大学院人文社会系研究科・文学部に2023年9月1日に開設された「大江健三郎文庫」の一部として置かれているのだ。"
          },
          {
            "id": "c3m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "今回の論文では、その中のどの部分を扱うの?"
          },
          {
            "id": "c3m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "書籍と作品に関するデータセットを2つ使うのだ。一つ目は「掲載情報」と呼ばれるデータセットで、ある作品がどの書籍に収録されているかを記録しているのだ。例えばこんな1行があるのだ——「『死者の奢り・飼育』1987年5月25日 改版・新潮文庫 pp.7-54」。"
          },
          {
            "id": "c3m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "題名と日付と出版形態とページ数が、決まった形式で並んでいるのね。"
          },
          {
            "id": "c3m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。これが全部で3,457件あるのだ。もう一つが「書籍情報」で、こちらは1冊につき1レコード、書名・出版年月日・出版者と「b430」みたいな一意のIDがついているのだ。こちらは全部で334件なのだ。"
          },
          {
            "id": "c3m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "3,457件の掲載情報のそれぞれを、334件の書籍情報のどれかに結びつける——これが今回の名寄せ作業ね。"
          },
          {
            "id": "c3m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "その通りなのだ。この関連付けは、もともとは専門家の監修のもと、整理作業者が手作業で行ったものなのだ。論文ではその手作業の結果を「正解データ」として、機械的にやったらどこまでこれに近づけるかを検証しているのだ。ぼくたちもこれから、その検証の中身を見ていくのだ。"
          }
        ]
      },
      {
        "id": "chapter4",
        "title": "検証する5つの手法",
        "messages": [
          {
            "id": "c4m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文では、大きく分けて3つの系統、計5つの手法を比較しているのだ。順番に見ていくのだ。"
          },
          {
            "id": "c4m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "お願いするわね。"
          },
          {
            "id": "c4m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "まず「完全一致」系。書誌情報の特定の項目を抜き出して、ぴったり一致する書籍を探す方法なのだ。手法a-1は、二重カギ括弧『〜』で囲まれた部分をタイトルとして抜き出して、書籍情報のタイトルと完全一致するものを列挙する。手法a-2は、「YYYY年MM月DD日」のパターンを刊行日として抜き出して、書籍情報の刊行日と完全一致するものを列挙するのだ。"
          },
          {
            "id": "c4m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "正規表現で機械的に抜くのね。シンプルだけど、表記がぴったり同じじゃないと拾えないわよね。"
          },
          {
            "id": "c4m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "次が「編集距離」系。文字列の似ている度合いを測る尺度を使う方法なのだ。論文ではLevenshtein(レーベンシュタイン)距離を採用しているのだ。"
          },
          {
            "id": "c4m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "れーべんしゅたいん…なんだか難しそうな名前ね。"
          },
          {
            "id": "c4m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "考え方はシンプルなのだ。「ある文字列を別の文字列に変えるには、最低何回の編集——挿入・削除・置換——が必要か」を数えた値なのだ。値が小さいほど似ている、ということなのだ。手法b-1は、掲載情報からタイトルを抜き出して、書籍情報のタイトルとの編集距離が最小の書籍を列挙。手法b-2は、掲載情報の文字列全体と、同じ形式に整形した書籍情報全体との編集距離が最小の書籍を列挙するのだ。"
          },
          {
            "id": "c4m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "完全一致じゃなくて「いちばん近いもの」を選ぶから、表記が少し違っても引っかかってくれるのね。"
          },
          {
            "id": "c4m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そして、本論文の見どころの一つ、LLMを使った手法なのだ。手法c-1は、掲載情報の1件と書籍情報の1件を並べてLLMに見せて、「この2つは同じ書籍を指しているか? TrueかFalseで答えて」と聞く方法。これを総当たりで全部の組み合わせについて行うのだ。手法c-2は、書籍情報の全334件をリスト化してプロンプトに入れて、掲載情報1件に対して「この中で最も近いものはどれか」を1件だけ答えさせる方法なのだ。"
          },
          {
            "id": "c4m10",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "c-1とc-2、ずいぶんアプローチが違うのね。"
          },
          {
            "id": "c4m11",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。c-1は「2つを比べてYes/No」、c-2は「リストから1件選ばせる」なのだ。c-1のプロンプトには、One-shot Promptingという、判断の例を1例だけ含めて示す方法を採用しているのだ。"
          },
          {
            "id": "c4m12",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ちょっと聞きたいんだけど、使われたLLMはどんなモデルなの?"
          },
          {
            "id": "c4m13",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文では予備実験を経て、サイバーエージェント社のCyberAgentLM3-22B-Chatが採用されているのだ。225億パラメータの日本語特化LLMで、論文中では「モデル22B」と呼ばれているのだ。さらに規模の影響を見るために、同じくサイバーエージェント社が公開している、より大きいLlama-3.1-70B-Japanese-Instruct-2407——「モデル70B」も追加で使っているのだ。"
          },
          {
            "id": "c4m14",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ChatGPTみたいなクラウドのサービスは使わなかったの?"
          },
          {
            "id": "c4m15",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文では、モデルがオープンソースであることや、ローカルで動かせるのでデータの機密性が守られることを重視して、APIのみのサービスは検証対象外にしたと書かれているのだ。"
          },
          {
            "id": "c4m16",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なるほど、研究データを外部に出さずに済むという判断なのね。"
          }
        ]
      },
      {
        "id": "chapter5",
        "title": "結果はどうだったのだ?",
        "messages": [
          {
            "id": "c5m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ここからが論文の核心なのだ。3,457件の掲載情報すべてに対して、5つの手法を適用して、それぞれの結果と人手による正解を突き合わせたのだ。"
          },
          {
            "id": "c5m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "評価軸はどうなっているの?"
          },
          {
            "id": "c5m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文では結果を5つに分類しているのだ——「1件かつ正答」「複数件かつ正答を含む」「1件かつ誤答」「複数件かつすべて誤答」「無効」、なのだ。「複数件かつ正答を含む」も評価対象にするのは、現実のアーカイブ構築では候補が複数残っても、人の意思決定の補助としては十分有用、という考え方なのだ。"
          },
          {
            "id": "c5m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "完全自動じゃなくて、人とのチームプレイ前提でも見るということね。"
          },
          {
            "id": "c5m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。それでは結果を見ていくのだ。手法a-1、つまりタイトル完全一致は「1件かつ正答」が15.9%、「無効」が35.5%と、なかなか厳しい結果だったのだ。"
          },
          {
            "id": "c5m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "無効が3割超えって、けっこう多いわね。原因は何だったのかしら?"
          },
          {
            "id": "c5m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文中に、興味深い具体例があるのだ。たとえば「死者の奢り」という作品は、最初は1958年の単行本『死者の奢り』に収録されたのだけど、その後1959年に新潮文庫の『死者の奢り・飼育』、さらに1987年には改版の新潮文庫『死者の奢り・飼育』にも収録されているのだ。"
          },
          {
            "id": "c5m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "あら、書名が変わってるわね。「死者の奢り」と「死者の奢り・飼育」は別物として判定されちゃうのね。"
          },
          {
            "id": "c5m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。さらに同じ「死者の奢り・飼育」でも、文庫初版と改版では書籍情報のレコードが別なのだ。タイトルの完全一致だけでは、これらを区別できないのだ。"
          },
          {
            "id": "c5m10",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ところが手法a-2、刊行日の完全一致は様子が一変するのだ。「1件かつ正答」が87.9%、「正答を含む」まで広げると97.8%という高い数字なのだ。"
          },
          {
            "id": "c5m11",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "えっ、たった日付だけでそんなに当たるの?"
          },
          {
            "id": "c5m12",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "これには理由があるのだ。今回の対象は単一の作家・大江健三郎の著作だけで、一人の作家の本が同じ日に複数刊行されるのは稀なのだ。だから刊行日が重複しにくくて、日付さえ取れればほぼ一意に決まるのだ。"
          },
          {
            "id": "c5m13",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なるほど、データの性質に上手くハマったのね。"
          },
          {
            "id": "c5m14",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文では、この点について「他の著者や異なる状況でも同じように有効とは限らないので、適用範囲には注意が必要」と慎重に書かれているのだ。"
          },
          {
            "id": "c5m15",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "編集距離の手法は、b-1が「1件かつ正答」52.5%、b-2が62.6%という中間的な結果なのだ。完全一致系よりは無効が出にくいけど、その分「1件かつ誤答」も増えているのだ。"
          },
          {
            "id": "c5m16",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "誤答ってどんなふうに間違えるの?"
          },
          {
            "id": "c5m17",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "これも論文に例が出ているのだ。たとえば、b-2は『「雨の木(レイン・ツリー)」を聴く女たち』の掲載情報を、別の本『世界の若者たち』に結びつけてしまっているのだ。"
          },
          {
            "id": "c5m18",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "題名がまるで違うじゃない! どうしてそんな間違いが起きるの?"
          },
          {
            "id": "c5m19",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "編集距離は文字列全体の表面的な近さしか見ないから、「同じ作家の他の本」と「文字数や出版社の表記がたまたま似ている」だけで距離が小さくなってしまうことがあるのだ。人間の目で見れば一目で違うとわかるのに、機械的に文字を数えるだけだと取り違えるのだ。"
          },
          {
            "id": "c5m20",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "LLMを使った手法c-1、モデル22Bは「1件かつ正答」が92.7%で、5つの手法の中で最高精度を記録したのだ。"
          },
          {
            "id": "c5m21",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "すごい! これが優勝ってことかしら?"
          },
          {
            "id": "c5m22",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "…そう簡単な話ではないのだ。実行時間を見ると、ここに大きな落とし穴があるのだ。手法a-1からb-2までは1秒台で終わるのに対して、手法c-1の処理時間は…68.8時間なのだ。"
          },
          {
            "id": "c5m23",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "68.8時間? 一週間近いじゃない!"
          },
          {
            "id": "c5m24",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "1回のLLM比較に約0.2秒かかるのだけど、c-1は3,457件×334件で総当たり、つまり約115万回の比較が必要なのだ。0.2秒×115万回で、3日近くかかる計算なのだ。"
          },
          {
            "id": "c5m25",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "手法c-2の方はどうだったのかしら?"
          },
          {
            "id": "c5m26",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "c-2は書籍情報のリスト全体をプロンプトに入れて1件選ばせる方法なので、比較回数は3,457回で済むのだ。モデル22Bだと8.8時間で正答率30.5%、モデル70Bにすると23.4時間で正答率84.1%まで上がったのだ。"
          },
          {
            "id": "c5m27",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "モデルを大きくしたら正答率が大幅に上がったのね。"
          },
          {
            "id": "c5m28",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そこが面白いところなのだ。一般に、LLMはパラメータ数が多いほど性能が上がるという「スケーリング則」が知られているのだ。手法c-2ではこの傾向どおりだったのだけど…手法c-1にモデル70Bを使うとどうなるかと言うと、計算時間が180時間を超えると推測されたので、論文では検証を行わないことにしたと書かれているのだ。"
          },
          {
            "id": "c5m29",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "180時間…つまり1週間以上ね。実用的じゃないということね。"
          }
        ]
      },
      {
        "id": "chapter6",
        "title": "ハイブリッド手法d——いいとこ取りの工夫",
        "messages": [
          {
            "id": "c6m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ここで著者らは「組み合わせれば良いのでは?」と考えたのだ。それが手法dなのだ。"
          },
          {
            "id": "c6m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "どう組み合わせたの?"
          },
          {
            "id": "c6m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "シンプルなアイデアなのだ。まず手法a-2(刊行日の完全一致)で候補を絞り込んで、候補が複数残った場合だけ手法c-1(LLM)で1件に絞り込む——という2段階の構成なのだ。"
          },
          {
            "id": "c6m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "最初に高速な手法でざっくり絞って、難しい部分だけLLMに任せるのね。"
          },
          {
            "id": "c6m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "結果はどうなったかと言うと、モデル22Bを使った場合、「1件かつ正答」が97.3%まで上昇して、a-2単独の87.9%、c-1単独の92.7%のどちらをも上回ったのだ。しかも実行時間は145秒、つまり約2分半で済むようになったのだ。"
          },
          {
            "id": "c6m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "68.8時間が145秒? すごい改善ね!"
          },
          {
            "id": "c6m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "さらに興味深いのが、モデル70Bを使った場合との比較なのだ。手法dでモデル70Bにすると、実行時間は599秒——約4倍に伸びたのに、正答率は97.0%とほぼ変わらなかったのだ。"
          },
          {
            "id": "c6m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "あら、大きくしても精度はほとんど変わらないのね。"
          },
          {
            "id": "c6m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文ではここから「モデルの規模が大きくなれば必ず性能が向上するわけではなく、計算コストとのバランスを考慮した手法選択が必要」という示唆を導いているのだ。文脈やタスクによっては、より大きいモデルを使う意味が薄い場合があるということなのだ。"
          }
        ]
      },
      {
        "id": "chapter7",
        "title": "著者の考察と限界",
        "messages": [
          {
            "id": "c7m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "著者らの結論を整理するのだ。論文では、「正答率が比較的高く、かつ実行時間が短い手法a-2が最も費用対効果の高い手法」と総括しているのだ。"
          },
          {
            "id": "c7m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "一番ハイテクなLLMじゃなくて、シンプルな日付の一致が「最も費用対効果が高い」って評価なのね。意外だわ。"
          },
          {
            "id": "c7m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ただし著者らは、a-2が高い正答率を出したのは「単一の作家の著作」というデータの特性によるところが大きいと、しっかり断っているのだ。他の作家や異なる状況にそのまま当てはめられるかは別問題なのだ。"
          },
          {
            "id": "c7m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "研究の前提条件をはっきりさせているのね。"
          },
          {
            "id": "c7m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "LLMの実行時間についても、「あくまで他の手法との比較によるもの」「専門家による作業が難しい状況など、時間を要しても高精度が求められる場合には十分有力な選択肢になり得る」と書かれていて、用途次第で評価が変わることが示されているのだ。"
          },
          {
            "id": "c7m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "他に著者が言及している限界はあるかしら。"
          },
          {
            "id": "c7m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "一つ重要なポイントがあるのだ。論文では「客観的な手法の評価のために、人間が作成したデータを基準とした」のだけど、その過程で元データに誤りが含まれていることも確認されたと書かれているのだ。"
          },
          {
            "id": "c7m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "正解データ自体に間違いがあったってこと?"
          },
          {
            "id": "c7m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。ということは、提案手法の出力が「本当は正しいのに、正解データと違うから誤答とカウントされた」例があるかもしれない、ということなのだ。論文では「真の正解を求めることが目的ではなかった」のでそのまま評価を進めたと述べた上で、今後は人間とコンピュータが協力して高品質なデータ生成を目指したい、と結んでいるのだ。"
          }
        ]
      },
      {
        "id": "chapter8",
        "title": "まとめ",
        "messages": [
          {
            "id": "c8m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "今日のポイントをまとめるのだ。まず、デジタルアーカイブのメタデータ整備において、データセット間の関連付け、つまり「名寄せ」は手間のかかる重要な作業なのだ。次に、大江健三郎文庫アーカイブの実データで、完全一致・編集距離・LLMの3系統、計5手法を比較した結果、刊行日の完全一致(手法a-2)が費用対効果で最も優れていたのだ。LLMを使った手法c-1は92.7%という最高精度を出したけど、処理に68.8時間かかるという課題があったのだ。そして、手法a-2で絞り込み、複数候補が残った場合のみLLMで決定するハイブリッド手法dは、正答率97.3%・処理時間145秒という、精度と速度のバランスを実現したのだ。最後に、大きなモデルが必ずしも結果を改善するとは限らず、タスクとモデル規模の組み合わせを慎重に選ぶ必要があるのだ。"
          },
          {
            "id": "c8m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "最先端の技術を使えば一番いい、というわけじゃないのね。データの性質を理解して、シンプルな手法とAIを上手に組み合わせる発想が大事なのね。"
          },
          {
            "id": "c8m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。ちなみに、LLMの分野はこの論文の発表後も急速に進化を続けていて、より高性能なモデルが次々登場しているのだ。論文自身も「将来は最先端のモデルを積極的に調査・導入することが求められる」と書いているのだ。今後また新しい比較が出てくる可能性は十分あるのだ。"
          },
          {
            "id": "c8m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "それでも、「複数手法を組み合わせる」という発想自体は、モデルが変わっても通用しそうね。"
          }
        ]
      },
      {
        "id": "chapter9",
        "title": "エンディング",
        "messages": [
          {
            "id": "c9m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "というわけで、今日はデジタルアーカイブの「名寄せ」自動化の研究を紹介したのだ。"
          },
          {
            "id": "c9m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "動画が役に立ったら、チャンネル登録と高評価をよろしくね。コメントで「あなたの分野ではどんな名寄せがあるか」教えてくれると嬉しいわ。"
          },
          {
            "id": "c9m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "今日紹介した論文は——阿達藍留・大向一輝「デジタルアーカイブにおける複数メタデータセット間の関連付けの自動化に関する検討:『大江健三郎文庫自筆原稿デジタルアーカイブ』を事例として」、デジタルアーカイブ学会誌 第9巻第3号、2025年。オープンアクセスで公開されているので、興味がある人はぜひ原典に当たってみてほしいのだ。"
          },
          {
            "id": "c9m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "それでは、また次の動画でお会いしましょう。"
          },
          {
            "id": "c9m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "バイバイなのだ!"
          }
        ]
      }
    ]
  }
}

デジタルアーカイブに​おける​複数メタデータセット間の​関連付けの​自動化に​関する​検討：​「大江健三郎文庫自筆原稿デジタルアーカイブ」を​事例と​して

1. オープニング

2. そも​そも​「名寄せ」って​何なのだ?

3. 大江健三郎文庫アーカイブの​データ構造

4. 検証する​5つの​手法

5. 結果は​どうだったのだ?

6. ハイブリッド手法d——いいと​こ取りの​工夫

7. 著者の​考察と​限界

8. まとめ

9. エンディング

デジタルアーカイブにおける複数メタデータセット間の関連付けの自動化に関する検討：「大江健三郎文庫自筆原稿デジタルアーカイブ」を事例として

2. そもそも「名寄せ」って何なのだ?

3. 大江健三郎文庫アーカイブのデータ構造

4. 検証する5つの手法

5. 結果はどうだったのだ?

6. ハイブリッド手法d——いいとこ取りの工夫

7. 著者の考察と限界