地上デジタル放送に​おける​音声と​字幕データを​活用した​放送内容の​テキスト化と​要約手法の​検討
2026年2月1日 阿達 藍留, 塚越 柚季, 大向 一輝 研究報告人文科学と​コンピュータ​(CH)​. 2026, vol. 2026-CH-140, no. 28, p. 1-6.

本研究は、​日本の​地上デジタル放送に​おける​音声​書き​起こしと​字幕データを​LLMに​よって​統合・相互補完し、​放送内容の​高精度な​テキスト化を​行う​手法を​提案する。​さらに、​統合テキストから​キーワード抽出と​要約生成を​行う​ことで、​放送内容の​効率的な​分析や、​デジタルアーカイブに​おける​映像資料の​メタデータ拡充・​検索性向上への​貢献を​目指す。

デジタルアーカイブに​おける​複数メタデータセット間の​関連付けの​自動化に​関する​検討:​「大江健三郎文庫自筆原稿デジタルアーカイブ」を​事例と​して
2025年7月2日 阿達 藍留, 大向 一輝 デジタルアーカイブ学会誌. 2025, vol. 9, no. 3, p. e25-e31.

本研究は、​デジタルアーカイブ構築に​おける​メタデータ作成の​効率化を​目的と​して、​「大江健三郎文庫自筆原稿デジタルアーカイブ」の​実際の​データを​対象に、​複数の​手法で​データセット間の​関連付けの​工程を​再現し専門家に​よる​作業結果との​一致率を​評価した。​書誌情報の​完全一致、​文字列の​類似度の​比較、​大規模言語モデル​(LLM)を​用いた​手法を​比較検証した​結果、​刊行日の​完全一致に​よる​手法が​比較的高い​正答率と​短い​処理時間を​示した。​一方、​LLMを​用いた​手法は​最も​正答率が​高い​反面、​処理時間が​極めて​長いと​いう​課題が​あった。​これらの​知見を​基に、​複数手法を​組み合わせる​ことで、​正答率と​処理時間の​バランスが​改善される​ことを​実証した。