デジタルアーカイブに​おける​複数メタデータセット間の​関連付けの​自動化に​関する​検討:​「大江健三郎文庫自筆原稿デジタルアーカイブ」を​事例と​して

2025年7月2日 阿達 藍留, 大向 一輝 デジタルアーカイブ学会誌. 2025, vol. 9, no. 3, p. e25-e31.

解説

この​解説は​Claude Opus 4.6に​よって​生成された​参考用の​内容です。​正確性を​保証する​ものではないため、​必要に​応じて​原文・関連資料を​ご確認ください。

キャラクターイラスト: 坂本アヒル様による ずんだもん立ち絵素材 / 四国めたん立ち絵素材 を使用しています。

1. オープニング

四国めたん

ねぇ、​ずんだもん。​古い​小説を​研究する​と​きって、​その​作品が​最初に​どの​雑誌に​載って、​その​後どの​本に​収録されたのか…って、​ぜんぶ​追い​かけないと​いけないらしいわね。

ずんだもん

そうなのだ。​文学研究、​特に​作家研究では、​作品​その​ものだけじゃなくて、​その​作品が​世の​中に​どう​広まっていったかを​追うことが​大事なのだ。​同じ​作品が​雑誌に​載って、​単行本に​なって、​文庫に​なって、​全集に​入って…と、​いろんな​形で​出版される​ことがあるのだ。

四国めたん

それを​全部、​人の​手で​整理するの​? 気が​遠くなりそうね。

ずんだもん

まさに​そこなのだ。​今日紹介する​論文は、​その​「整理する​作業」を​コンピュータで​自動化できないかを、​実際の​デジタルアーカイブの​データで​検証した​研究なのだ。​タイトルは​…【タイトルコール】​「デジタルアーカイブの​『名寄せ』を​自動化できるか​?——大江健三郎文庫を​題材に​5つの​手法を​比べてみた」。​著者は​東京大学の​阿達藍留さんと​大向​一輝さん。​デジタルアーカイブ学会誌の​2025年第3号に​掲載された​論文なのだ。

四国めたん

大江健三郎って、​ノーベル文学賞を​受賞した​作家よね。​その​人の​資料を​扱う​アーカイブが​題材なのね。

2. そも​そも​「名寄せ」って​何なのだ?

ずんだもん

論文の​本題に​入る​前に、​まずキーワードを​押さえておくのだ。​今回の​中心に​なるのが​「名寄せ」と​いう​作業なのだ。

四国めたん

なよせ?

ずんだもん

異なる​データセットに​含まれる​情報が、​実は​「同じ​もの」を​指している​ことを​見つけて​関連付ける​作業の​ことなのだ。​英語では​Data Matching、​Record Linkage、​Entity Resolutionなどと​呼ばれているのだ。

四国めたん

身近な例で​言うと​どんな​感じに​なるのかしら。

ずんだもん

た​とえば、​顧客名簿が​2つ​あって、​片方には​「山田太郎」、​もう​片方には​「ヤマダタロウ」と​書かれている、​みたいな​状況なのだ。​表記は​違うけど​同じ​人物だと​判定して​結び​つける​——これが​名寄せなのだ。

四国めたん

なる​ほど。​コンピュータに​とっては、​ひと​文字でも​違えば​「別物」だものね。​それを​「同じ​もの」だと​教えてあげる​作業と​いう​ことね。

ずんだもん

そうなのだ。​長年、​多くの​研究者や​企業が​取り​組ん​できた​古典的な​問題で、​対象分野や​言語に​よっていろんな​手法が​考案されてきたのだ。

3. 大江健三郎文庫アーカイブの​データ構造

ずんだもん

論文の​対象に​なっている​データを​具体的に​見ていくのだ。​「大江健三郎文庫自筆原稿デジタルアーカイブ」は、​自筆原稿や​校正刷を​撮影した​約18,000枚の​画像と、​大江氏の​著書・作品の​詳細情報からなる​アーカイブなのだ。​東京大学大学院人文社会系研究科・文学部に​2023年9月1日に​開設された​「大江健三郎文庫」の​一部と​して​置かれているのだ。

四国めたん

今回の​論文では、​その​中の​どの​部分を​扱うの​?

ずんだもん

書籍と​作品に​関する​データセットを​2つ​使うのだ。​一つ​目は​「掲載情報」と​呼ばれる​データセットで、​ある​作品が​どの​書籍に​収録されているかを​記録しているのだ。​例えば​こんな​1行が​あるのだ——​「『死者の​奢り・飼育』1987年5月25日 改版・新潮文庫 pp.7-54」。

四国めたん

題名と​日付と​出版形態と​ページ数が、​決まった​形式で​並んでいるのね。

ずんだもん

そうなのだ。​これが​全部で​3,457件あるのだ。​もう​一つが​「書籍情報」で、​こちらは​1冊に​つき1レコード、​書名・出版年月日・出版者と​「b430」みたいな​一意の​IDが​ついているのだ。​こちらは​全部で​334件なのだ。

四国めたん

3,457件の​掲載情報の​それぞれを、​334件の​書籍情報の​どれかに​結びつける​——これが​今回の​名寄せ作業ね。

ずんだもん

その​通りなのだ。​この​関連付けは、​もともとは​専門家の​監修のもと、​整理作業者が​手作業で​行った​ものなのだ。​論文では​その​手作業の​結果を​「正解データ」と​して、​機械的に​やったら​どこまで​これに​近づけるかを​検証しているのだ。​ぼく​たちも​これから、​その​検証の​中身を​見ていくのだ。

4. 検証する​5つの​手法

ずんだもん

論文では、​大きく​分けて​3つの​系統、​計5つの​手法を​比較しているのだ。​順番に​見ていくのだ。

四国めたん

お願い​するわね。

ずんだもん

まず​「完全一致」系。​書誌情報の​特定の​項目を​抜き出して、​ぴったり​一致する​書籍を​探す方​法なのだ。​手法a-1は、​二重カギ括弧『〜』で​囲まれた​部分を​タイトルと​して​抜き出して、​書籍情報の​タイトルと​完全一致する​ものを​列挙する。​手法a-2は、​「YYYY年MM月DD日」の​パターンを​刊行日と​して​抜き出して、​書籍情報の​刊行日と​完全一致する​ものを​列挙するのだ。

四国めたん

正規表現で​機械的に​抜くのね。​シンプルだけど、​表記が​ぴったり​同じじゃないと​拾えないわよね。

ずんだもん

次が​「編集距離」系。​文字列の​似ている​度合いを​測る​尺度を​使う方​法なのだ。​論文では​Levenshtein(レーベンシュタイン)距離を​採用しているのだ。

四国めたん

れーべんしゅたいん…​なんだか​難しそうな​名前ね。

ずんだもん

考え方は​シンプルなのだ。​「ある​文字列を​別の​文字列に​変えるには、​最低​何回の​編集——挿入・削除・置換——が​必要か」を​数えた​値なのだ。​値が​小さい​ほど​似ている、と​いう​ことなのだ。​手法b-1は、​掲載情報から​タイトルを​抜き出して、​書籍情報の​タイトルとの​編集距離が​最小の​書籍を​列挙。​手法b-2は、​掲載情報の​文字列全体と、​同じ​形式に​整形した​書籍情報全体との​編集距離が​最小の​書籍を​列挙するのだ。

四国めたん

完全一​致じゃなくて​「いちばん近い​もの」を​選ぶから、​表記が​少し​違っても​引っかかってくれるのね。

ずんだもん

そして、​本論文の​見どころの​一つ、​LLMを​使った​手法なのだ。​手法c-1は、​掲載情報の​1件と​書籍情報の​1件を​並べて​LLMに​見せて、​「この​2つは​同じ​書籍を​指しているか​? Trueか​Falseで​答えて」と​聞く​方法。​これを​総当たりで​全部の​組み合わせに​ついて​行うのだ。​手法c-2は、​書籍情報の​全3​34件を​リスト化して​プロンプトに​入れて、​掲載情報1件に​対して​「この​中で​最も​近い​ものは​どれか」を​1件だけ​答えさせる​方​法なのだ。

四国めたん

c-1と​c-2、​ずいぶんアプローチが​違うのね。

ずんだもん

そうなのだ。​c-1は​「2つを​比べて​Yes/No」、​c-2は​「リストから​1件選ばせる」なのだ。​c-1の​プロンプトには、​One-shot Promptingと​いう、​判断の​例を​1例だけ​含めて​示す方​法を​採用しているのだ。

四国めたん

ちょっと​聞きたいんだけど、​使われた​LLMは​どんな​モデルなの​?

ずんだもん

論文では​予備実験を​経て、​サイバーエージェント社の​CyberAgentLM3-22B-Chatが​採用されているのだ。​225億パラメータの​日本語特化LLMで、​論文中では​「モデル22B」と​呼ばれているのだ。​さらに​規模の​影響を​見る​ために、​同じく​サイバーエージェント社が​公開している、​より​大きいLlama-3.1-70B-Japanese-Instruct-2407——​「モデル70B」も​追加で​使っているのだ。

四国めたん

ChatGPTみたいな​クラウドの​サービスは​使わなかったの​?

ずんだもん

論文では、​モデルが​オープンソースである​ことや、​ローカルで​動かせるので​データの​機密性が​守られる​ことを​重視して、​APIのみの​サービスは​検証対象外に​したと​書かれているのだ。

四国めたん

なる​ほど、​研究データを​外部に​出さずに​済むと​いう​判断なのね。

5. 結果は​どうだったのだ?

ずんだもん

ここからが​論文の​核心なのだ。​3,457件の​掲載情報すべてに​対して、​5つの​手法を​適用して、​それぞれの​結果と​人手に​よる​正解を​突き合わせたのだ。

四国めたん

評価軸は​どうなっているの​?

ずんだもん

論文では​結果を​5つに​分類しているのだ——​「1件かつ正答」​「複数件かつ正答を​含む」​「1件かつ誤答」​「複数件かつ​すべて​誤答」​「無効」、​なのだ。​「複数件かつ正答を​含む」も​評価対象に​するのは、​現実の​アーカイブ構築では​候補が​複数残っても、​人の​意思決定の​補助と​しては​十分​有用、と​いう​考え方なのだ。

四国めたん

完全自​動じゃなくて、​人との​チームプレイ前提でも​見ると​いう​ことね。

ずんだもん

そうなのだ。​それでは​結果を​見ていくのだ。​手法a-1、​つまり​タイトル完全一致は​「1件かつ正答」が​15.9%、​「無効」が​35.5%と、​なかなか​厳しい​結果だったのだ。

四国めたん

無効が​3割超えって、​けっこう​多いわね。​原因は​何だったのかしら?

ずんだもん

論文中に、​興味深い具体例が​あるのだ。​たとえば​「死者の​奢り」と​いう​作品は、​最初は​1958年の​単行本『死者の​奢り』に​収録されたのだけど、​その​後1959年に​新潮文庫の​『死者の​奢り・飼育』、​さらに​1987年には​改版の​新潮文庫『死者の​奢り・飼育』にも​収録されているのだ。

四国めたん

あら、​書名が​変わってるわね。​「死者の​奢り」と​「死者の​奢り・飼育」は​別物と​して​判定されちゃうのね。

ずんだもん

そうなのだ。​さらに​同じ​「死者の​奢り・飼育」でも、​文庫初版と​改版では​書籍情報の​レコードが​別なのだ。​タイトルの​完全一致だけでは、​これらを​区別できないのだ。

ずんだもん

ところが​手法a-2、​刊行日の​完全一致は​様子が​一変するのだ。​「1件かつ正答」が​87.9%、​「正答を​含む」まで​広げると​97.8%と​いう​高い​数字なのだ。

四国めたん

えっ、​たった​日付だけで​そんなに​当たるの​?

ずんだもん

これには​理由が​あるのだ。​今回の​対象は​単一の​作家・​大江健三郎の​著作だけで、​一人の​作家の​本が​同じ​日に​複数刊行されるのは​稀なのだ。​だから​刊行日が​重複しにくくて、​日付さえ​取れれば​ほぼ​一意に​決まるのだ。

四国めたん

なる​ほど、​データの​性質に​上手く​ハマったのね。

ずんだもん

論文では、​この​点に​ついて​「他の​著者や​異なる​状況でも​同じように​有効とは​限らないので、​適用範囲には​注意が​必要」と​慎重に​書かれているのだ。

ずんだもん

編集距離の​手法は、​b-1が​「1件かつ正答」​52.5%、​b-2が​62.6%と​いう​中間的な​結果なのだ。​完全一​致系よりは​無効が​出にくいけど、​その​分​「1件かつ誤答」も​増えているのだ。

四国めたん

誤答って​どんな​ふうに​間違えるの​?

ずんだもん

これも​論文に​例が​出ているのだ。​たとえば、​b-2は​『「雨の​木(レイン・ツリー)」を​聴く​女たち』の​掲載情報を、​別の​本『世界の​若者たち』に​結びつけてしまっているのだ。

四国めたん

題名が​まるで​違うじゃない​! どうして​そんな​間違いが​起きるの​?

ずんだもん

編集距離は​文字列全体の​表面的な​近さしか​見ないから、​「同じ​作家の​他の本」と​「文字数や​出版社の​表記が​たまたま​似ている」だけで​距離が​小さくなってしまうことがあるのだ。​人間の​目で​見れば​一目で​違うと​わかるのに、​機械的に​文字を​数えるだけだと​取り​違えるのだ。

ずんだもん

LLMを​使った​手法c-1、​モデル22Bは​「1件かつ正答」が​92.7%で、​5つの​手法の​中で​最高精度を​記録したのだ。

四国めたん

すごい! これが​優勝って​ことかしら?

ずんだもん

…​そう​簡単な​話ではないのだ。​実行時間を​見ると、​ここに​大きな​落とし穴が​あるのだ。​手法a-1から​b-2までは​1秒台で​終わるのに​対して、​手法c-1の​処理時間は​…​68.8時間なのだ。

四国めたん

68.8時間? 一週間近いじゃない​!

ずんだもん

1回の​LLM比較に​約0.2秒かかるのだけど、​c-1は​3,457件×334件で​総当たり、​つまり​約115万回の​比較が​必要なのだ。​0.2秒×115万回で、​3日近く​かかる​計算なのだ。

四国めたん

手法c-2の​方は​どうだったのかしら?

ずんだもん

c-2は​書籍情報の​リスト全体を​プロンプトに​入れて​1件選ばせる​方​法なので、​比較回数は​3,457回で​済むのだ。​モデル22Bだと​8.8時間で​正答率30.5%、​モデル70Bに​すると​23.4時間で​正答率84.1%まで​上がったのだ。

四国めたん

モデルを​大きくしたら​正答率が​大幅に​上がったのね。

ずんだもん

そこが​面白い​ところなのだ。​一般に、​LLMは​パラメータ数が​多い​ほど​性能が​上がると​いう​「スケーリング則」が​知られているのだ。​手法c-2では​この​傾向どおりだったのだけど…​手法c-1に​モデル70Bを​使うと​どうなるかと​言うと、​計算時間が​180時間を​超えると​推測されたので、​論文では​検証を​行わない​ことに​したと​書かれているのだ。

四国めたん

180時間…つまり​1週間以上ね。​実用的じゃないと​いう​ことね。

6. ハイブリッド手法d——いいと​こ取りの​工夫

ずんだもん

ここで​著者らは​「組み合わせれば​良いのでは​?」と​考えたのだ。​それが​手法dなのだ。

四国めたん

どう​組み合わせたの​?

ずんだもん

シンプルな​アイデアなのだ。​まず​手法a-2(刊行日の​完全一​致)で​候補を​絞り​込んで、​候補が​複数残った​場合だけ手法c-1(LLM)で​1件に​絞り込む——と​いう​2段階の​構成なのだ。

四国めたん

最初に​高速な​手法で​ざっくり絞って、​難しい​部分だけLLMに​任せるのね。

ずんだもん

結果は​どうなったかと​言うと、​モデル22Bを​使った​場合、​「1件かつ正答」が​97.3%まで​上昇して、​a-2単独の​87.9%、​c-1単独の​92.7%の​どちらを​も上回ったのだ。​しかも​実行時間は​145秒、​つまり​約2分半で​済むようになったのだ。

四国めたん

68.8時間が​145秒? すごい改善ね!

ずんだもん

さらに​興味深いのが、​モデル70Bを​使った​場合との​比較なのだ。​手法dで​モデル70Bに​すると、​実行時間は​599秒——約4倍に​伸びたのに、​正答率は​97.0%と​ほぼ​変わらなかったのだ。

四国めたん

あら、​大きくしても​精度は​ほとんど​変わらないのね。

ずんだもん

論文では​ここから​「モデルの​規模が​大きくなれば​必ず​性能が​向上するわけではなく、​計算コストとの​バランスを​考慮した​手法選択が​必要」と​いう​示唆を​導いているのだ。​文脈や​タスクに​よっては、​より​大きい​モデルを​使う​意味が​薄い​場合が​あると​いう​ことなのだ。

7. 著者の​考察と​限界

ずんだもん

著者らの​結論を​整理するのだ。​論文では、​「正答率が​比較的高く、​かつ実行時間が​短い​手法a-2が​最も​費用対効果の​高い​手法」と​総括しているのだ。

四国めたん

一番​ハイテクな​LLMじゃなくて、​シンプルな​日付の​一致が​「最も​費用対効果が​高い」って​評価なのね。​意外だわ。

ずんだもん

ただし著者らは、​a-2が​高い​正答率を​出したのは​「単一の​作家の​著作」と​いう​データの​特性に​よる​ところが​大きいと、​しっかり​断っているのだ。​他の​作家や​異なる​状況に​そのまま​当てはめられるかは​別問題なのだ。

四国めたん

研究の​前提条件を​はっきりさせているのね。

ずんだもん

LLMの​実行時間に​ついても、​「あくまで​他の​手法との​比較に​よる​もの」​「専門家に​よる​作業が​難しい​状況など、​時間を​要しても​高精度が​求められる​場合には​十分​有力な​選択肢に​なり得る」と​書かれていて、​用途次第で​評価が​変わる​ことが​示されているのだ。

四国めたん

他に​著者が​言及している​限界は​あるかしら。

ずんだもん

一つ​重要な​ポイントが​あるのだ。​論文では​「客観的な​手法の​評価の​ために、​人間が​作成した​データを​基準とした」のだけど、​その​過程で​元データに​誤りが​含まれている​ことも​確認された​と​書かれているのだ。

四国めたん

正解データ自体に​間違いが​あったって​こと​?

ずんだもん

そうなのだ。​と​いう​ことは、​提案手法の​出力が​「本当は​正しいのに、​正解データと​違うから​誤答と​カウントされた」例が​あるかもしれない、と​いう​ことなのだ。​論文では​「真の​正解を​求める​ことが​目的ではなかった」ので​そのまま​評価を​進めたと​述べた上で、​今後は​人間と​コンピュータが​協力して​高品質な​データ生成を​目指したい、と​結んでいるのだ。

8. まとめ

ずんだもん

今日の​ポイントを​まとめるのだ。​まず、​デジタルアーカイブの​メタデータ整備に​おいて、​データセット間の​関連付け、​つまり​「名寄せ」は​手間の​かかる​重要な​作業なのだ。​次に、​大江健三郎文庫アーカイブの​実データで、​完全一致・編集距離・LLMの​3系統、​計5手法を​比較した​結果、​刊行日の​完全一​致(手法a-2)が​費用対効果で​最も​優れていたのだ。​LLMを​使った​手法c-1は​92.7%と​いう​最高精度を​出したけど、​処理に​68.8時間かかると​いう​課題が​あったのだ。​そして、​手法a-2で​絞り込み、​複数候補が​残った​場合のみ​LLMで​決定する​ハイブリッド手法dは、​正答率97.3%・処理時間145秒と​いう、​精度と​速度の​バランスを​実現したのだ。​最後に、​大きな​モデルが​必ずしも​結果を​改善するとは​限らず、​タスクと​モデル規模の​組み合わせを​慎重に​選ぶ必要が​あるのだ。

四国めたん

最先端の​技術を​使えば​一番​いい、と​いうわけじゃないのね。​データの​性質を​理解して、​シンプルな​手法と​AIを​上手に​組み合わせる​発想が​大事なのね。

ずんだもん

そうなのだ。​ちなみに、​LLMの​分野は​この​論文の​発表後も​急速に​進化を​続けていて、​より​高性能な​モデルが​次々​登場しているのだ。​論文自身も​「将来は​最先端の​モデルを​積極的に​調査・導入する​ことが​求められる」と​書いているのだ。​今後また​新しい​比較が​出てくる​可能性は​十分あるのだ。

四国めたん

それでも、​「複数手法を​組み合わせる」と​いう​発想自体は、​モデルが​変わっても​通用しそうね。

9. エンディング

ずんだもん

と​いうわけで、​今日は​デジタルアーカイブの​「名寄せ」​自動化の​研究を​紹介したのだ。

四国めたん

動画が​役に​立ったら、​チャンネル登録と​高評価を​よろしくね。​コメントで​「あなたの​分野では​どんな​名寄せが​あるか」​教えてくれると​嬉しいわ。

ずんだもん

今日​紹介した​論文は​——阿達藍留・​大向一輝​「デジタルアーカイブに​おける​複数メタデータセット間の​関連付けの​自動化に​関する​検討:『大江健三郎文庫自筆原稿デジタルアーカイブ』を​事例と​して」、​デジタルアーカイブ学会誌 第9巻第3号、​2025年。​オープンアクセスで​公開されているので、​興味が​ある​人は​ぜひ原典に​当たってみて​ほしいのだ。

四国めたん

それでは、​また次の​動画で​お会いしましょう。

ずんだもん

バイバイなのだ!

JSON台本
{
  "renderJson": {
    "chapters": [
      {
        "id": "chapter1",
        "title": "オープニング",
        "messages": [
          {
            "id": "c1m1",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ねぇ、ずんだもん。古い小説を研究するときって、その作品が最初にどの雑誌に載って、その後どの本に収録されたのか…って、ぜんぶ追いかけないといけないらしいわね。"
          },
          {
            "id": "c1m2",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。文学研究、特に作家研究では、作品そのものだけじゃなくて、その作品が世の中にどう広まっていったかを追うことが大事なのだ。同じ作品が雑誌に載って、単行本になって、文庫になって、全集に入って…と、いろんな形で出版されることがあるのだ。"
          },
          {
            "id": "c1m3",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "それを全部、人の手で整理するの? 気が遠くなりそうね。"
          },
          {
            "id": "c1m4",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "まさにそこなのだ。今日紹介する論文は、その「整理する作業」をコンピュータで自動化できないかを、実際のデジタルアーカイブのデータで検証した研究なのだ。タイトルは…【タイトルコール】「デジタルアーカイブの『名寄せ』を自動化できるか?——大江健三郎文庫を題材に5つの手法を比べてみた」。著者は東京大学の阿達藍留さんと大向一輝さん。デジタルアーカイブ学会誌の2025年第3号に掲載された論文なのだ。"
          },
          {
            "id": "c1m5",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "大江健三郎って、ノーベル文学賞を受賞した作家よね。その人の資料を扱うアーカイブが題材なのね。"
          }
        ]
      },
      {
        "id": "chapter2",
        "title": "そもそも「名寄せ」って何なのだ?",
        "messages": [
          {
            "id": "c2m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文の本題に入る前に、まずキーワードを押さえておくのだ。今回の中心になるのが「名寄せ」という作業なのだ。"
          },
          {
            "id": "c2m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なよせ?"
          },
          {
            "id": "c2m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "異なるデータセットに含まれる情報が、実は「同じもの」を指していることを見つけて関連付ける作業のことなのだ。英語ではData Matching、Record Linkage、Entity Resolutionなどと呼ばれているのだ。"
          },
          {
            "id": "c2m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "身近な例で言うとどんな感じになるのかしら。"
          },
          {
            "id": "c2m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "たとえば、顧客名簿が2つあって、片方には「山田太郎」、もう片方には「ヤマダタロウ」と書かれている、みたいな状況なのだ。表記は違うけど同じ人物だと判定して結びつける——これが名寄せなのだ。"
          },
          {
            "id": "c2m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なるほど。コンピュータにとっては、ひと文字でも違えば「別物」だものね。それを「同じもの」だと教えてあげる作業ということね。"
          },
          {
            "id": "c2m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。長年、多くの研究者や企業が取り組んできた古典的な問題で、対象分野や言語によっていろんな手法が考案されてきたのだ。"
          }
        ]
      },
      {
        "id": "chapter3",
        "title": "大江健三郎文庫アーカイブのデータ構造",
        "messages": [
          {
            "id": "c3m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文の対象になっているデータを具体的に見ていくのだ。「大江健三郎文庫自筆原稿デジタルアーカイブ」は、自筆原稿や校正刷を撮影した約18,000枚の画像と、大江氏の著書・作品の詳細情報からなるアーカイブなのだ。東京大学大学院人文社会系研究科・文学部に2023年9月1日に開設された「大江健三郎文庫」の一部として置かれているのだ。"
          },
          {
            "id": "c3m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "今回の論文では、その中のどの部分を扱うの?"
          },
          {
            "id": "c3m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "書籍と作品に関するデータセットを2つ使うのだ。一つ目は「掲載情報」と呼ばれるデータセットで、ある作品がどの書籍に収録されているかを記録しているのだ。例えばこんな1行があるのだ——「『死者の奢り・飼育』1987年5月25日 改版・新潮文庫 pp.7-54」。"
          },
          {
            "id": "c3m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "題名と日付と出版形態とページ数が、決まった形式で並んでいるのね。"
          },
          {
            "id": "c3m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。これが全部で3,457件あるのだ。もう一つが「書籍情報」で、こちらは1冊につき1レコード、書名・出版年月日・出版者と「b430」みたいな一意のIDがついているのだ。こちらは全部で334件なのだ。"
          },
          {
            "id": "c3m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "3,457件の掲載情報のそれぞれを、334件の書籍情報のどれかに結びつける——これが今回の名寄せ作業ね。"
          },
          {
            "id": "c3m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "その通りなのだ。この関連付けは、もともとは専門家の監修のもと、整理作業者が手作業で行ったものなのだ。論文ではその手作業の結果を「正解データ」として、機械的にやったらどこまでこれに近づけるかを検証しているのだ。ぼくたちもこれから、その検証の中身を見ていくのだ。"
          }
        ]
      },
      {
        "id": "chapter4",
        "title": "検証する5つの手法",
        "messages": [
          {
            "id": "c4m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文では、大きく分けて3つの系統、計5つの手法を比較しているのだ。順番に見ていくのだ。"
          },
          {
            "id": "c4m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "お願いするわね。"
          },
          {
            "id": "c4m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "まず「完全一致」系。書誌情報の特定の項目を抜き出して、ぴったり一致する書籍を探す方法なのだ。手法a-1は、二重カギ括弧『〜』で囲まれた部分をタイトルとして抜き出して、書籍情報のタイトルと完全一致するものを列挙する。手法a-2は、「YYYY年MM月DD日」のパターンを刊行日として抜き出して、書籍情報の刊行日と完全一致するものを列挙するのだ。"
          },
          {
            "id": "c4m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "正規表現で機械的に抜くのね。シンプルだけど、表記がぴったり同じじゃないと拾えないわよね。"
          },
          {
            "id": "c4m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "次が「編集距離」系。文字列の似ている度合いを測る尺度を使う方法なのだ。論文ではLevenshtein(レーベンシュタイン)距離を採用しているのだ。"
          },
          {
            "id": "c4m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "れーべんしゅたいん…なんだか難しそうな名前ね。"
          },
          {
            "id": "c4m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "考え方はシンプルなのだ。「ある文字列を別の文字列に変えるには、最低何回の編集——挿入・削除・置換——が必要か」を数えた値なのだ。値が小さいほど似ている、ということなのだ。手法b-1は、掲載情報からタイトルを抜き出して、書籍情報のタイトルとの編集距離が最小の書籍を列挙。手法b-2は、掲載情報の文字列全体と、同じ形式に整形した書籍情報全体との編集距離が最小の書籍を列挙するのだ。"
          },
          {
            "id": "c4m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "完全一致じゃなくて「いちばん近いもの」を選ぶから、表記が少し違っても引っかかってくれるのね。"
          },
          {
            "id": "c4m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そして、本論文の見どころの一つ、LLMを使った手法なのだ。手法c-1は、掲載情報の1件と書籍情報の1件を並べてLLMに見せて、「この2つは同じ書籍を指しているか? TrueかFalseで答えて」と聞く方法。これを総当たりで全部の組み合わせについて行うのだ。手法c-2は、書籍情報の全334件をリスト化してプロンプトに入れて、掲載情報1件に対して「この中で最も近いものはどれか」を1件だけ答えさせる方法なのだ。"
          },
          {
            "id": "c4m10",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "c-1とc-2、ずいぶんアプローチが違うのね。"
          },
          {
            "id": "c4m11",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。c-1は「2つを比べてYes/No」、c-2は「リストから1件選ばせる」なのだ。c-1のプロンプトには、One-shot Promptingという、判断の例を1例だけ含めて示す方法を採用しているのだ。"
          },
          {
            "id": "c4m12",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ちょっと聞きたいんだけど、使われたLLMはどんなモデルなの?"
          },
          {
            "id": "c4m13",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文では予備実験を経て、サイバーエージェント社のCyberAgentLM3-22B-Chatが採用されているのだ。225億パラメータの日本語特化LLMで、論文中では「モデル22B」と呼ばれているのだ。さらに規模の影響を見るために、同じくサイバーエージェント社が公開している、より大きいLlama-3.1-70B-Japanese-Instruct-2407——「モデル70B」も追加で使っているのだ。"
          },
          {
            "id": "c4m14",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ChatGPTみたいなクラウドのサービスは使わなかったの?"
          },
          {
            "id": "c4m15",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文では、モデルがオープンソースであることや、ローカルで動かせるのでデータの機密性が守られることを重視して、APIのみのサービスは検証対象外にしたと書かれているのだ。"
          },
          {
            "id": "c4m16",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なるほど、研究データを外部に出さずに済むという判断なのね。"
          }
        ]
      },
      {
        "id": "chapter5",
        "title": "結果はどうだったのだ?",
        "messages": [
          {
            "id": "c5m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ここからが論文の核心なのだ。3,457件の掲載情報すべてに対して、5つの手法を適用して、それぞれの結果と人手による正解を突き合わせたのだ。"
          },
          {
            "id": "c5m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "評価軸はどうなっているの?"
          },
          {
            "id": "c5m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文では結果を5つに分類しているのだ——「1件かつ正答」「複数件かつ正答を含む」「1件かつ誤答」「複数件かつすべて誤答」「無効」、なのだ。「複数件かつ正答を含む」も評価対象にするのは、現実のアーカイブ構築では候補が複数残っても、人の意思決定の補助としては十分有用、という考え方なのだ。"
          },
          {
            "id": "c5m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "完全自動じゃなくて、人とのチームプレイ前提でも見るということね。"
          },
          {
            "id": "c5m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。それでは結果を見ていくのだ。手法a-1、つまりタイトル完全一致は「1件かつ正答」が15.9%、「無効」が35.5%と、なかなか厳しい結果だったのだ。"
          },
          {
            "id": "c5m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "無効が3割超えって、けっこう多いわね。原因は何だったのかしら?"
          },
          {
            "id": "c5m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文中に、興味深い具体例があるのだ。たとえば「死者の奢り」という作品は、最初は1958年の単行本『死者の奢り』に収録されたのだけど、その後1959年に新潮文庫の『死者の奢り・飼育』、さらに1987年には改版の新潮文庫『死者の奢り・飼育』にも収録されているのだ。"
          },
          {
            "id": "c5m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "あら、書名が変わってるわね。「死者の奢り」と「死者の奢り・飼育」は別物として判定されちゃうのね。"
          },
          {
            "id": "c5m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。さらに同じ「死者の奢り・飼育」でも、文庫初版と改版では書籍情報のレコードが別なのだ。タイトルの完全一致だけでは、これらを区別できないのだ。"
          },
          {
            "id": "c5m10",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ところが手法a-2、刊行日の完全一致は様子が一変するのだ。「1件かつ正答」が87.9%、「正答を含む」まで広げると97.8%という高い数字なのだ。"
          },
          {
            "id": "c5m11",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "えっ、たった日付だけでそんなに当たるの?"
          },
          {
            "id": "c5m12",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "これには理由があるのだ。今回の対象は単一の作家・大江健三郎の著作だけで、一人の作家の本が同じ日に複数刊行されるのは稀なのだ。だから刊行日が重複しにくくて、日付さえ取れればほぼ一意に決まるのだ。"
          },
          {
            "id": "c5m13",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なるほど、データの性質に上手くハマったのね。"
          },
          {
            "id": "c5m14",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文では、この点について「他の著者や異なる状況でも同じように有効とは限らないので、適用範囲には注意が必要」と慎重に書かれているのだ。"
          },
          {
            "id": "c5m15",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "編集距離の手法は、b-1が「1件かつ正答」52.5%、b-2が62.6%という中間的な結果なのだ。完全一致系よりは無効が出にくいけど、その分「1件かつ誤答」も増えているのだ。"
          },
          {
            "id": "c5m16",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "誤答ってどんなふうに間違えるの?"
          },
          {
            "id": "c5m17",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "これも論文に例が出ているのだ。たとえば、b-2は『「雨の木(レイン・ツリー)」を聴く女たち』の掲載情報を、別の本『世界の若者たち』に結びつけてしまっているのだ。"
          },
          {
            "id": "c5m18",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "題名がまるで違うじゃない! どうしてそんな間違いが起きるの?"
          },
          {
            "id": "c5m19",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "編集距離は文字列全体の表面的な近さしか見ないから、「同じ作家の他の本」と「文字数や出版社の表記がたまたま似ている」だけで距離が小さくなってしまうことがあるのだ。人間の目で見れば一目で違うとわかるのに、機械的に文字を数えるだけだと取り違えるのだ。"
          },
          {
            "id": "c5m20",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "LLMを使った手法c-1、モデル22Bは「1件かつ正答」が92.7%で、5つの手法の中で最高精度を記録したのだ。"
          },
          {
            "id": "c5m21",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "すごい! これが優勝ってことかしら?"
          },
          {
            "id": "c5m22",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "…そう簡単な話ではないのだ。実行時間を見ると、ここに大きな落とし穴があるのだ。手法a-1からb-2までは1秒台で終わるのに対して、手法c-1の処理時間は…68.8時間なのだ。"
          },
          {
            "id": "c5m23",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "68.8時間? 一週間近いじゃない!"
          },
          {
            "id": "c5m24",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "1回のLLM比較に約0.2秒かかるのだけど、c-1は3,457件×334件で総当たり、つまり約115万回の比較が必要なのだ。0.2秒×115万回で、3日近くかかる計算なのだ。"
          },
          {
            "id": "c5m25",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "手法c-2の方はどうだったのかしら?"
          },
          {
            "id": "c5m26",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "c-2は書籍情報のリスト全体をプロンプトに入れて1件選ばせる方法なので、比較回数は3,457回で済むのだ。モデル22Bだと8.8時間で正答率30.5%、モデル70Bにすると23.4時間で正答率84.1%まで上がったのだ。"
          },
          {
            "id": "c5m27",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "モデルを大きくしたら正答率が大幅に上がったのね。"
          },
          {
            "id": "c5m28",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そこが面白いところなのだ。一般に、LLMはパラメータ数が多いほど性能が上がるという「スケーリング則」が知られているのだ。手法c-2ではこの傾向どおりだったのだけど…手法c-1にモデル70Bを使うとどうなるかと言うと、計算時間が180時間を超えると推測されたので、論文では検証を行わないことにしたと書かれているのだ。"
          },
          {
            "id": "c5m29",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "180時間…つまり1週間以上ね。実用的じゃないということね。"
          }
        ]
      },
      {
        "id": "chapter6",
        "title": "ハイブリッド手法d——いいとこ取りの工夫",
        "messages": [
          {
            "id": "c6m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ここで著者らは「組み合わせれば良いのでは?」と考えたのだ。それが手法dなのだ。"
          },
          {
            "id": "c6m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "どう組み合わせたの?"
          },
          {
            "id": "c6m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "シンプルなアイデアなのだ。まず手法a-2(刊行日の完全一致)で候補を絞り込んで、候補が複数残った場合だけ手法c-1(LLM)で1件に絞り込む——という2段階の構成なのだ。"
          },
          {
            "id": "c6m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "最初に高速な手法でざっくり絞って、難しい部分だけLLMに任せるのね。"
          },
          {
            "id": "c6m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "結果はどうなったかと言うと、モデル22Bを使った場合、「1件かつ正答」が97.3%まで上昇して、a-2単独の87.9%、c-1単独の92.7%のどちらをも上回ったのだ。しかも実行時間は145秒、つまり約2分半で済むようになったのだ。"
          },
          {
            "id": "c6m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "68.8時間が145秒? すごい改善ね!"
          },
          {
            "id": "c6m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "さらに興味深いのが、モデル70Bを使った場合との比較なのだ。手法dでモデル70Bにすると、実行時間は599秒——約4倍に伸びたのに、正答率は97.0%とほぼ変わらなかったのだ。"
          },
          {
            "id": "c6m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "あら、大きくしても精度はほとんど変わらないのね。"
          },
          {
            "id": "c6m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文ではここから「モデルの規模が大きくなれば必ず性能が向上するわけではなく、計算コストとのバランスを考慮した手法選択が必要」という示唆を導いているのだ。文脈やタスクによっては、より大きいモデルを使う意味が薄い場合があるということなのだ。"
          }
        ]
      },
      {
        "id": "chapter7",
        "title": "著者の考察と限界",
        "messages": [
          {
            "id": "c7m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "著者らの結論を整理するのだ。論文では、「正答率が比較的高く、かつ実行時間が短い手法a-2が最も費用対効果の高い手法」と総括しているのだ。"
          },
          {
            "id": "c7m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "一番ハイテクなLLMじゃなくて、シンプルな日付の一致が「最も費用対効果が高い」って評価なのね。意外だわ。"
          },
          {
            "id": "c7m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ただし著者らは、a-2が高い正答率を出したのは「単一の作家の著作」というデータの特性によるところが大きいと、しっかり断っているのだ。他の作家や異なる状況にそのまま当てはめられるかは別問題なのだ。"
          },
          {
            "id": "c7m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "研究の前提条件をはっきりさせているのね。"
          },
          {
            "id": "c7m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "LLMの実行時間についても、「あくまで他の手法との比較によるもの」「専門家による作業が難しい状況など、時間を要しても高精度が求められる場合には十分有力な選択肢になり得る」と書かれていて、用途次第で評価が変わることが示されているのだ。"
          },
          {
            "id": "c7m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "他に著者が言及している限界はあるかしら。"
          },
          {
            "id": "c7m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "一つ重要なポイントがあるのだ。論文では「客観的な手法の評価のために、人間が作成したデータを基準とした」のだけど、その過程で元データに誤りが含まれていることも確認されたと書かれているのだ。"
          },
          {
            "id": "c7m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "正解データ自体に間違いがあったってこと?"
          },
          {
            "id": "c7m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。ということは、提案手法の出力が「本当は正しいのに、正解データと違うから誤答とカウントされた」例があるかもしれない、ということなのだ。論文では「真の正解を求めることが目的ではなかった」のでそのまま評価を進めたと述べた上で、今後は人間とコンピュータが協力して高品質なデータ生成を目指したい、と結んでいるのだ。"
          }
        ]
      },
      {
        "id": "chapter8",
        "title": "まとめ",
        "messages": [
          {
            "id": "c8m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "今日のポイントをまとめるのだ。まず、デジタルアーカイブのメタデータ整備において、データセット間の関連付け、つまり「名寄せ」は手間のかかる重要な作業なのだ。次に、大江健三郎文庫アーカイブの実データで、完全一致・編集距離・LLMの3系統、計5手法を比較した結果、刊行日の完全一致(手法a-2)が費用対効果で最も優れていたのだ。LLMを使った手法c-1は92.7%という最高精度を出したけど、処理に68.8時間かかるという課題があったのだ。そして、手法a-2で絞り込み、複数候補が残った場合のみLLMで決定するハイブリッド手法dは、正答率97.3%・処理時間145秒という、精度と速度のバランスを実現したのだ。最後に、大きなモデルが必ずしも結果を改善するとは限らず、タスクとモデル規模の組み合わせを慎重に選ぶ必要があるのだ。"
          },
          {
            "id": "c8m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "最先端の技術を使えば一番いい、というわけじゃないのね。データの性質を理解して、シンプルな手法とAIを上手に組み合わせる発想が大事なのね。"
          },
          {
            "id": "c8m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。ちなみに、LLMの分野はこの論文の発表後も急速に進化を続けていて、より高性能なモデルが次々登場しているのだ。論文自身も「将来は最先端のモデルを積極的に調査・導入することが求められる」と書いているのだ。今後また新しい比較が出てくる可能性は十分あるのだ。"
          },
          {
            "id": "c8m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "それでも、「複数手法を組み合わせる」という発想自体は、モデルが変わっても通用しそうね。"
          }
        ]
      },
      {
        "id": "chapter9",
        "title": "エンディング",
        "messages": [
          {
            "id": "c9m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "というわけで、今日はデジタルアーカイブの「名寄せ」自動化の研究を紹介したのだ。"
          },
          {
            "id": "c9m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "動画が役に立ったら、チャンネル登録と高評価をよろしくね。コメントで「あなたの分野ではどんな名寄せがあるか」教えてくれると嬉しいわ。"
          },
          {
            "id": "c9m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "今日紹介した論文は——阿達藍留・大向一輝「デジタルアーカイブにおける複数メタデータセット間の関連付けの自動化に関する検討:『大江健三郎文庫自筆原稿デジタルアーカイブ』を事例として」、デジタルアーカイブ学会誌 第9巻第3号、2025年。オープンアクセスで公開されているので、興味がある人はぜひ原典に当たってみてほしいのだ。"
          },
          {
            "id": "c9m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "それでは、また次の動画でお会いしましょう。"
          },
          {
            "id": "c9m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "バイバイなのだ!"
          }
        ]
      }
    ]
  }
}