arXivの論文をずんだもんと四国めたんが解説してくれる台本を作るWebアプリ
arXivの論文IDやURLを入力すると、論文の取得・読解・関連情報のWeb検索・日本語による解説台本の生成を肩代わりしてくれるWebアプリを作った報告。
Content tagged with "llm"
arXivの論文IDやURLを入力すると、論文の取得・読解・関連情報のWeb検索・日本語による解説台本の生成を肩代わりしてくれるWebアプリを作った報告。
本研究は、日本の地上デジタル放送における音声書き起こしと字幕データをLLMによって統合・相互補完し、放送内容の高精度なテキスト化を行う手法を提案する。さらに、統合テキストからキーワード抽出と要約生成を行うことで、放送内容の効率的な分析や、デジタルアーカイブにおける映像資料のメタデータ拡充・検索性向上への貢献を目指す。
本研究は、デジタルアーカイブ構築におけるメタデータ作成の効率化を目的として、「大江健三郎文庫自筆原稿デジタルアーカイブ」の実際のデータを対象に、複数の手法でデータセット間の関連付けの工程を再現し専門家による作業結果との一致率を評価した。書誌情報の完全一致、文字列の類似度の比較、大規模言語モデル(LLM)を用いた手法を比較検証した結果、刊行日の完全一致による手法が比較的高い正答率と短い処理時間を示した。一方、LLMを用いた手法は最も正答率が高い反面、処理時間が極めて長いという課題があった。これらの知見を基に、複数手法を組み合わせることで、正答率と処理時間のバランスが改善されることを実証した。