地上デジタル放送に​おける​音声と​字幕データを​活用した​放送内容の​テキスト化と​要約手法の​検討

2026年2月1日 阿達 藍留, 塚越 柚季, 大向 一輝 研究報告人文科学と​コンピュータ​(CH)​. 2026, vol. 2026-CH-140, no. 28, p. 1-6.

解説

この​解説は​Claude Opus 4.6に​よって​生成された​参考用の​内容です。​正確性を​保証する​ものではないため、​必要に​応じて​原文・関連資料を​ご確認ください。

キャラクターイラスト: 坂本アヒル様による ずんだもん立ち絵素材 / 四国めたん立ち絵素材 を使用しています。

1. オープニング

四国めたん

ねえ、​ずんだもん。​最近​テレビを​録画して、​あとで​見返すことが​増えたのだけれど、​内容を​文字で​素早く​確認できたら​いいのに、って​思う​ことがあるのよね。

ずんだもん

わかるのだ。​映像って​情報量は​多いけれど、​検索したり要点だけ​拾ったりするには​向いていないのだ。​今日は​まさに​そういう​問題に​取り組んだ​論文を​紹介するのだ。

四国めたん

あら、​面白そう。​どんな​論文なの​?

ずんだもん

「地上デジタル放送に​おける​音声と​字幕データを​活用した​放送内容の​テキスト化と​要約手法の​検討」と​いう​論文なのだ。​情報処理学会の​研究報告と​して​2025年に​発表された​ものなのだ。

四国めたん

地上デジタル放送…つまり、​ふだん​私た​ちが家で​見ている​テレビね。

ずんだもん

そうなのだ。​地デジの​録画から、​AIに​よる​音声認識と、​放送局が​付けている​字幕データの​両方を​使って、​放送内容を​正確に​テキスト化して、​さらに​要約まで​作ろう、と​いう​研究なのだ。

ずんだもん

【タイトルコール】​「テレビ放送を​“読める​”資料に​変える​―AI音声認識と​字幕を​LLMで​統合する」

2. 論文の​問いと​背景

ずんだもん

まず​背景なのだけれど、​テレビ放送って​実は​歴史的にも​文化的にも​すごく​重要な​記録なのだ。​映像と​音声と​文字が​重なった、​情報密度の​高い​メディアなのだ。

四国めたん

そうね。​あとから​見返したい​貴重な​記録も​たくさん​あるはずだわ。

ずんだもん

でも、​それを​二次利用したり、​デジタルアーカイブに​収めたりするには、​内容を​説明する​「メタデータ」を​付けないと​いけないのだ。

四国めたん

メタデータって、​要は​「この​放送には​何が​映っているか」を​示す説明書のような​ものね。

ずんだもん

その​通りなのだ。​ところが、​詳しい​メタデータを​作るのは​今でも​専業の​オペレーターに​よる​手作業に​頼っていて、​コストも​手間も​かかるのが​大きな​課題に​なっているのだ。

四国めたん

なる​ほど。​それを​自動化できれば、​アーカイブの​世界は​ずいぶん​変わりそうね。

ずんだもん

そうなのだ。​そこで​論文が​注目したのが、​地デジ放送に​既に​付いている​2種類の​テキスト情報なのだ。​一つは​「字幕データ」、​もう​一つは​「AI音声認識に​よる​書き​起こし」なのだ。

四国めたん

字幕は、​聴覚に​障害の​ある​方や、​音を​出せない​場面で​見る​人の​ために​付いている​ものよね。

ずんだもん

そうなのだ。​日本の​地デジでは、​聴覚障害者向けや、​音声を​聴取できない​環境向けに、​字幕データが​広く​付与されているのだ。

四国めたん

ふむふむ。​じゃ​あ字幕データを​そのまま​使えばいいじゃない、と​素朴に​思ってしまうのだけれど、​何か​まずいことがあるのかしら。

ずんだもん

いい​質問なのだ。​論文に​よれば、​字幕データには​3つの​制約が​あるのだ。​第一に、​生放送では​オペレーターが​逐次入力するので、​実際の​音声に​対して​4〜5秒の​遅延が​出るのだ。​第二に、​画面に​焼き込まれた​テロップと​ぶつからないように​したり、​CM前に​データが​切れたり、​送出枠の​制限で​情報が​省かれたりするのだ。

四国めたん

時間に​追われている​分、​どうしても​削られる​部分が​出てくるのね。

ずんだもん

そうなのだ。​第三に、​読みやすさの​ために​口語表現が​整形・​要約されるので、​助詞や​微妙な​ニュアンスまで​含めた​逐語再現には​向かないのだ。

四国めたん

ずいぶん​制約が​あるのね…。​じゃあ、​もう​一方の​AI音声認識の​ほうは​どうなのかしら。

ずんだもん

こちらは​近年​大きく​進歩していて、​特に​OpenAI社の​Whisperのような​大規模モデルの​登場で、​放送音声からの​高精度な​書き起こしが​可能に​なってきたのだ。

四国めたん

名前は​聞いた​ことがあるわ。​何が​得意なの​?

ずんだもん

発話の​タイミングと​同期した​タイムスタンプを​付けられる​こと、​それから​字幕で​省略されが​ちな​部分まで、​逐語的に​拾えるのが​強みなのだ。

四国めたん

じゃ​あAI音声認識だけで​いいのでは​?

ずんだもん

ところが​弱点も​あるのだ。​放送特有の​専門用語や​固有名詞で​同音異義語の​誤変換が​起きたり、​「ハルシネーション」と​呼ばれる​現象で​関係ない​文字列を​出してしまうことがあるのだ。

四国めたん

ハルシネーションって、​AIが​「幻」を​見るような​現象の​ことよね。

ずんだもん

そうなのだ。​論文では​具体例と​して、​放送終了時の​決まり​文句​「ご視聴​ありがとう​ございました」が​勝手に​何度も​挿入されてしまう​ケースが​紹介されているのだ。​これが​ノイズに​なって、​データの​信頼性を​損ねるのだ。

四国めたん

なる​ほど…。​それぞれ得意・​不得意が​あるのね。​それで、​この​論文は​どうしようと​しているの​?

ずんだもん

ここが​この​論文の​ポイントなのだ。​論文では、​字幕と​AI音声認識を​「相補的な​特性を​持つ​2つの​テキストソース」と​捉えているのだ。​つまり、​字幕は​正確だけれど省略が​あって、​AI音声認識は​網羅的だけれど誤変換が​ある。​だったら、​両者を​LLM、​つまり​大規模言語モデルで​統合・補正すれば、​お互いの​弱点を​打ち消し合えるのではないか、と​いうのが​本研究の​アイデアなのだ。

四国めたん

ちなみに、​似たような​研究は​今までに​なかったの​?

ずんだもん

関連研究も​しっかり​整理されているのだ。​たとえば​字幕テキストを​使った​メディア分析と​して、​地デジ字幕から​放送局ごとの​税制報道の​姿勢を​定量分析した​研究や、​国立情報学研究所、​略して​NIIの​テレビ放送アーカイブ​「NII TV-RECS」を​使った​コロナ報道の​解析などが​あるのだ。

四国めたん

字幕を​社会調査に​使う​流れが​あるのね。

ずんだもん

それから​技術的な​方​面では、​BARTと​いう​言語モデルで​音声認識の​誤りを​訂正する​研究や、​テレビ録画の​音声と​字幕の​対応を​とって​大規模な​日本語音声コーパスを​作る​研究も​あるのだ。

四国めたん

ずいぶん​蓄積が​あるのね。​じゃあ、​この​論文は​何が​新しいの​?

ずんだもん

論文自身の​言葉を​借りると、​「正確性に​長ける​字幕データ」と​「網羅性に​優れる​AI音声認識」と​いう​性質の​異なる​二つの​ソースを、​大規模言語モデルで​高度に​統合し、​内容の​要約まで​一貫して​行う、と​いう​点に​更なる​検討の​余地が​あるとされていて、​そこを​埋めるのが​本研究なのだ。

3. 手法・アプローチ

ずんだもん

ここから​具体的な​手法の​話なのだ。

四国めたん

お願い​するわ。​まず、​何の​テレビ番組を​対象に​したのかしら?

ずんだもん

NHK総合テレビが​関東地方​向けに​放送している​「首都圏ニュース845」なのだ。​平日の​20時45分から​21時までの​15分番組で、​前半約10分が​ニュース、​後半約5分が​気象情報と​いう​構成なのだ。

四国めたん

ニュース番組ね。​なぜニュースを​選んだのかしら。

ずんだもん

論文では​明示されていないけれど、​生字幕放送が​実施されていて、​毎日​ほぼ​同じ​構成で​繰り返される​番組は、​評価実験の​対象と​して​扱いやすいのだ。​なお、​後半の​気象情報で​天気図が​出る​場面の​一部には​字幕が​付いていない、と​いう​注釈も​あるのだ。

四国めたん

期間は​どれくらい​?

ずんだもん

2025年11月4日から​12月26日までで、​土日祝日を​除いて​38放送回分を​抽出したのだ。

四国めたん

データの​取り出し方は​?

ずんだもん

まず​録画は​MPEG-2 TSと​いう​形式で​保存されるのだ。​地デジの​放送波​その​ものに​近い​形式なのだ。​そこから​字幕情報を、​Pythonスクリプトの​「assdumper」と​いう​ツールで​抽出するのだ。

四国めたん

あら、​字幕って​放送波の​中に​最初から​入っているのね。

ずんだもん

そうなのだ。​並行して​TSファイルから​FFmpegと​いう​定番の​ツールで​音声を​WAV形式で​取り出して、​それを​「faster-whisper」と​いう​ライブラリの​large-v3モデルで​音声認識するのだ。

四国めたん

その​faster-whisperと​いうのは、​さっき話に​出た​Whisperと​関係​あるのかしら?

ずんだもん

鋭いのだ。​OpenAI社の​Whisperを、​CTranslate2と​いう​高速推論エンジンで​再実装した​ものなのだ。​同じ​精度で​より​速く​動かせるのが​特徴なのだ。​large-v3は​Whisperの​中でも​大規模で​高精度な​モデルで、​2025年時点でも​日本語の​音声認識では​最有力の​選択肢の​一つと​して​評価されているのだ。

四国めたん

両方とも​実績の​ある​ツールを​組み合わせている、と​いう​ことね。

ずんだもん

そして​肝心の​統合・要約の​部分は、​Microsoft Foundryから​提供される​OpenAI社の​LLM​「gpt-5.2-chat」を​使うのだ。​論文では​2025年12月11日版を​使っているのだ。

四国めたん

LLMに​勝手な​フォーマットで​答えられると​後の​処理が​大変そうね。

ずんだもん

そこで​論文では、​OpenAI APIの​「Structured Outputs」と​いう​機能を​使って、​厳密に​定義した​JSON形式で​出力を​強制しているのだ。​処理は​2段階の​パイプラインで​構成されているのだ。

四国めたん

2段階。​順番に​教えて​もらえる​?

ずんだもん

まず第1段階が​「データ統合・補正」なのだ。​AIの​書き​起こし文を​“ベース”に​して、​字幕データを​“辞書”と​して​参照させるのだ。

四国めたん

辞書、って​具体的に​どういう​意味?

ずんだもん

固有名詞や​漢字表記の​正解リファレンスと​して​使う、と​いう​意味なのだ。​たとえば​書き​起こしで​地名が​同音異義語で​誤変換されていたら、​字幕に​ある​正しい​表記を​参照して​直す、と​いう​イメージなのだ。​一方で、​書き​起こしの​内容​その​ものは​“一言一句​漏らさず​保持する​”のが​鉄則と​されているのだ。

四国めたん

あら、​字幕に​揃えるのではなくて、​書き​起こし側を​主に​するのね。

ずんだもん

そこが​重要なのだ。​字幕は​要約されている​ことが​多いから、​字幕に​ないからと​いって​書き​起こしから​削ってしまうと​「データの​毀損」に​なる、と​論文中の​システムプロンプトでも​明示されているのだ。

四国めたん

なる​ほど、​修正するのは​“誤変換だけ”、​と​割り​切っているのね。

ずんだもん

そうなのだ。​さらに​IDや​開始時刻、​終了時刻と​いった​メタデータは​一文字も​変更しない​こと、​暴力や​災害など​不適切に​見える​表現も​「放送された​通りの​記録」と​して​残す​こと、と​いう​ルールも​組み込まれているのだ。

四国めたん

歴史的記録と​しての​扱いを​意識しているのね。

ずんだもん

APIへは​書き起こし結果を​20​件ずつ​入力して、​その​都度字幕データの​全文を​参照させる​形で​処理するのだ。​出力は、​各発話の​ID、​開始時刻、​終了時刻、​修正済みテキストを​含むJSON配列なのだ。

四国めたん

そして​第2段階は​?

ずんだもん

「トピック分割・要約生成」なのだ。​第1段階で​修正した​テキストを​入力に​して、​話題ごとの​セグメンテーション、​内容の​要約、​キーワード抽出、​それぞれの​トピックの​開始・終了時刻の​特定を​行うのだ。

四国めたん

ニュースって​「次の​ニュースです」のように​切り​替わっていく​ものね。

ずんだもん

まさに​そこを​自動で​見つけるのだ。​プロンプトでは​「ニュース編集デスク」と​いう​役を​与えて、​話題が​変わる​タイミングで​分割する​こと、​各トピックに​5〜10個の​キーワードを​付ける​こと、​要約は​「だ・である​調」で​書く​こと、​などを​指示しているのだ。

四国めたん

細かいわね。​一つ​気に​なるのだけれど、​トピックの​「終了時刻」って、​はっきりしない​ものじゃないかしら。

ずんだもん

めたん、​いい​ところに​気づくのだ。​実際、​LLMが​トピックの​終了時刻を​正しく​抽出できなかったので、​論文では​“次の​トピックの​開始時刻”を​“前の​トピックの​終了時刻”とみなす、と​いう​工夫で​対応しているのだ。

四国めたん

なる​ほど、​現実的な​逃げ道を​用意しているのね。

ずんだもん

あと、​プロンプトに​「テキストの​最初には​番組や​サービスの​宣伝が​入る​ことがある」と​書かれているのは、​録画データの​冒頭に​前の​番組の​末尾が​混じる​ことが​あるからなのだ。

四国めたん

ああ、​録画ある​あるね。

ずんだもん

それから、​ここは​実運用上の​重要な​話なのだけれど、​第1段階・第2段階を​3回ずつ、​合計5放送回分の​データに​ついて、​LLMや​Microsoft Foundryの​APIから​「コンテンツフィルターに​抵触する​ため処理できない」と​いう​エラーが​返ってきたのだ。

四国めたん

あら…​どんな​放送回だったの​?

ずんだもん

いずれも​性犯罪に​関する​報道を​含む回で、​それが​原因で​処理が​中断された​と​推測されている、と​論文に​明記されているのだ。​これらの​回は​分析から​除外されて、​最終的に​33放送回分が​実験対象に​なったのだ。

四国めたん

報道は​事実を​そのまま​伝える​性質を​持つ​一方で、​AIサービスの​安全規制と​ぶつかってしまうことがある、と​いう​ことね。

ずんだもん

そうなのだ。​これは​後の​章で​もう​一度​出てくる​重要な​論点なのだ。

4. 結果​・知見

ずんだもん

ここから​結果なのだ。​まず処理時間の​感覚を​共有しておくのだ。

四国めたん

お願い。

ずんだもん

faster-whisperに​よる​AI音声認識は、​15分の​放送に​対して​平均約34秒で​終わるのだ。​gpt-5.2-chatでの​テキスト修正は​放送1回あたり平均約2分、​要約は​平均約20秒なのだ。

四国めたん

ずいぶん​速いのね。​15分の​番組を​だいたい​3分弱で​全部​処理できる​イメージかしら。

ずんだもん

ざっくりとは​そうなのだ。​続いて、​論文に​出てくる​出力例なのだ。​第1段階の​修正後テキストは​こんな​感じなのだ。​発話ID、​開始時刻、​終了時刻、​修正済みテキストの​組が​JSONで​並んでいるのだ。​たとえば、​「こんばんは。​首都圏ニュース845です。​今年8月、​東京八王子市で​実証実験中の​自動運転バスが​街路樹に​ぶつかった​事故で」、​続いて​「自動運転の​システムが​事故の​直前、​誤った​位置情報を​読み込んでいた​ことが都の​調査で​分かりました。」と​いった​発話ごとの​単位なのだ。

四国めたん

時間情報が​残っているから、​映像と​ぴったり同期できるのね。

ずんだもん

そして​第2段階の​要約結果が​こちらなのだ。​同じ​放送回の​トピックの​一つと​して、​「自動運転バスが​街路樹に​衝突 誤った​位置情報が​原因」と​いう​タイトルが​付けられているのだ。​要約文では、​東京・八王子市で​実証実験中の​自動運転バスが​街路樹に​衝突し乗客3人が​軽いけがを​した​こと、​事故直前に​システムが​誤った​位置情報を​読み込んでいた​こと、​東京都が​同種の​実証実験を​中断して​不具合を​確認の​うえ再開する​方針である​ことなどが、​だ・である​調で​記述されているのだ。

四国めたん

事実関係が​きれいに​整理されているわね。

ずんだもん

キーワードと​しては、​自動運転バス、​八王子市、​実証実験、​街路樹衝突、​位置情報、​東京都、​事故原因、​実験中断などが​並んでいるのだ。

四国めたん

この​キーワードが​あれば、​後で​検索する​ときに​すごく​便利そうね。

ずんだもん

そうなのだ。​さて、​ここからが​定量評価の​お話なのだ。​論文では​33放送回から​ランダムに​選んだ​5回分に​ついて、​テキスト品質を​2つの​指標で​評価しているのだ。

四国めたん

2つの​指標、と​いうと​?

ずんだもん

1つ目が、​文字誤り率​「CER」、​Character Error Rateなのだ。​2つ目が、​固有名詞の​再現率​「Recall」なのだ。

四国めたん

CERから​教えて​もらえる​?

ずんだもん

CERは​音声認識や​OCRの​精度評価で​よく​使われる​指標で、​対象テキストと​正解テキストとの​間の​編集距離を、​正解の​総文字数で​割った​値なのだ。

四国めたん

編集距離、と​いうのは​?

ずんだもん

ある​文字列を​別の​文字列に​変えるのに​必要な、​置換・削除・挿入の​最小回数の​ことなのだ。​論文では​Levenshtein距離を​使っているのだ。​CERが​低いほど​正確、と​いう​ことなのだ。

四国めたん

ふむふむ。​それで、​結果は​どうだったの​?

ずんだもん

表1に​示されているのだけれど、​AI音声認識単独の​平均CERが​11.17%、​字幕データ単独の​平均CERが​18.31%だったのに​対し、​提案手法で​統合した​テキストの​平均CERは​6.47%まで​下がっているのだ。

四国めたん

あら、​字幕より​音声認識の​ほうが​正確だった、と​いうのが​意外だわ。

ずんだもん

ここが​ポイントなのだ。​字幕は​固有名詞や​漢字は​正しいけれど、​口語が​整形されたり情報が​省かれたりするので、​放送音声を​「逐語的に​再現する​テキスト」と​して​比べると、​CERは​高めに​出る​傾向が​あるのだ。

四国めたん

なる​ほど。​CERは​“どれだけ忠実に​書き起こせているか”を​見る​指標だから、​要約された​字幕は​不利に​なるのね。

ずんだもん

そうなのだ。​そして​統合テキストは、​AI音声認識の​網羅性を​保ちつつ、​字幕を​辞書と​して​誤変換を​直した​ことで、​両者よりも​大幅に​低い​文字誤り率を​達成しているのだ。

四国めたん

2つ目の​指標、​固有名詞再現率は​どうだったのかしら?

ずんだもん

こちらは​アーカイブの​検索性に​直結する​重要な​指標なのだ。​正解テキストに​含まれる​人名・地名・組織名などの​固有表現を、​対象テキストが​どれだけ​漏れなく​拾えているかを​見るのだ。

四国めたん

具体的には​どう​測ったの​?

ずんだもん

正解テキストと​対象テキストの​両方から、​自然言語処理ライブラリの​spaCy(スパイシー)と、​その​日本語モデルである​ja_ginza(ジャ・ギンザ)を​使って​固有表現を​抽出しているのだ。

四国めたん

spaCyと​GiNZAって、​どんな​ものなの​?

ずんだもん

spaCyは​多言語対応の​自然言語処理ライブラリで、​固有表現抽出や​品詞タグ付けなどを​統合的に​扱えるのだ。​GiNZAは​spaCyを​フレームワークと​して​使う、​メガゴンラボと​国立国語研究所が​開発した​日本語向けの​ライブラリなのだ。​日本語の​固有表現抽出では​よく​使われる​組み合わせなのだ。

四国めたん

ありがとう。​それで、​ラベルは​どう​絞ったの​?

ずんだもん

Facility(施設)、​GPE(地政学的実体)、​Org(組織)、​Person(人物)の​4つの​いずれかに​該当する​固有表現を​抽出して、​正解と​提案手法で​重なる​割合を​Recallと​して​計算しているのだ。

四国めたん

で、​結果は​?

ずんだもん

表2に​よると、​AI音声認識単独では​平均再現率が​47.61%だったのに​対し、​統合テキストでは​94.83%に​向上しているのだ。

四国めたん

ほぼ倍ね…​!

ずんだもん

特に​効いているのは、​字幕を​「固有名詞の​正解リファレンス」と​して​使った​点なのだ。​これに​よって​誤変換や​聞き取りミスが​大幅に​減って、​検索の​キーに​なる​人名・地名・組織名が​しっかり​残るようになったのだ。

四国めたん

アーカイブで​「あの​ニュースを​もう​一度​見たい」と​探すとき、​人名や​地名で​検索する​人は​多いだろうから、​現実的な​意味でも​大きい改善ね。

5. 考察・意義

ずんだもん

ここまでの​結果から、​論文が​どんな​意義を​主張しているか​整理するのだ。

四国めたん

お願い。

ずんだもん

まず、​「正確だけれど省略の​ある​字幕」と​「網羅的だけれど誤変換の​ある​AI音声認識」を、​LLMで​統合すると​いう​発想自体が、​放送の​テキスト化に​おいて​有効に​機能する​ことを、​定量的に​示した​点なのだ。

四国めたん

2つの​弱点を、​お互いの​強みで​埋め合わせる​構図が、​数字でちゃんと​裏付けられた​わけね。

ずんだもん

そうなのだ。​さらに、​修正済みテキストから​トピック分割・要約・キーワード抽出までを​一貫して​行う​ことで、​放送内容の​効率的な​分析だけでなく、​デジタルアーカイブに​おける​映像資料の​メタデータ拡充や​検索性の​向上に​寄与する​ことが​期待される、と​論文は​述べているのだ。

四国めたん

さきほどの​「メタデータ作成は​手作業で​コストが​高い」と​いう​最初の​問題意識に、​ちゃんと​戻ってくる​流れね。

ずんだもん

ここで、​解説者である​ぼくからの​補足なのだけれど、​論文に​直接書かれているわけではない​ものの、​こういう​ワークフローは​放送局の​アーカイブだけでなく、​研究者が​放送資料を​分析する​場面でも​応用が​利きやすいと​考えられるのだ。

四国めたん

た​とえば、​社会学の​研究で​長期間の​報道を​分析するような​場合ね。

ずんだもん

そういう​ケースでは、​文字に​起こす​こと​自体が​大きな​コストに​なっていたので、​こうした​自動化手法は​大きな​助けに​なりうるのだ。​ただし、​これは​あくまで​補足で、​論文自身は​具体的な​応用先を​限定的に​しか​述べていないのだ。

6. 限界と​今後の​展望

ずんだもん

論文では、​課題と​展望も​かなり​率直に​書かれているのだ。​3つ​あるのだ。

四国めたん

1つ目は​?

ずんだもん

商用LLMに​付随する​安全規制上の​制約なのだ。​先ほども​触れた​通り、​性犯罪に​関する​機微な​内容を​含むニュースが、​コンテンツフィルターに​引っかかって​処理を​拒絶される​事例が​起きたのだ。

四国めたん

報道は​本来、​社会の​出来事を​そのまま​記録する​役割を​持つから、​画一的な​フィルタリングと​相性が​悪いのね。

ずんだもん

論文も、​広範な​社会事象を​扱う​報道コンテンツの​アーカイブ化に​おいて、​商用サービスの​画一的な​フィルタリング基準は​大きな​障壁に​なり得る、と​指摘しているのだ。​今後は​フィルタリングを​柔軟に​調整できる​ローカルLLMや、​報道の​公共性に​配慮した​特化型モデルの​検討が​不可欠だ、​と​述べているのだ。

四国めたん

2つ目は​?

ずんだもん

対象コンテンツの​拡張なのだ。​今回の​対象は、​放送時間も​構成も​決まっている​ニュース番組だったのだ。

四国めたん

特番や​バラエティ番組は​どうなのかしら?

ずんだもん

長時間の​特番や​非定型な​構成の​番組では、​計算リソースや​LLMの​コンテキストウィンドウの​制限が​課題に​なるのだ。

四国めたん

コンテキストウィンドウって、​LLMが​一度に​扱える​テキストの​長さの​ことよね。

ずんだもん

その​通りなのだ。​それから、​バラエティ番組のように​複数人が​同時に​話したり、​BGMや​効果音が​重なる​環境では、​音声認識の​精度が​大きく​落ちる​懸念が​あるのだ。​話者分離技術の​高度​化や、​背景音に​頑健な​モデルの​導入が​必要、と​論文は​述べているのだ。

四国めたん

それから、​画面の​中の​文字情報は​使えないのかしら?

ずんだもん

論文でも​触れられていて、​今後は​音声と​字幕に​加えて、​映像内の​テロップ、​いわゆる​焼き込み文字を​OCRで​抽出して​統合する​マルチモーダルな​解析を​入れる​ことで、​さらに​精度を​高められるだろう、と​展望されているのだ。

四国めたん

3つ目は​?

ずんだもん

評価手法​その​ものの​改善なのだ。​今回は​文字の​再現精度を​中心に​評価していて、​自動生成された​要約や​話題分​割が、​ニュースと​しての​要点を​どれだけ正確に​射抜いているか、と​いう​質的な​評価や、​情報の​圧縮率や​網羅性の​量的指標は​十分でない、と​論文自身が​認めているのだ。

四国めたん

要約が​「正しい​言葉で​書かれているか」と​「ニュースの​肝を​捉えているか」は、​別の​話だものね。

ずんだもん

そうなのだ。​今後は、​人間に​よる​要約との​比較評価や、​実際の​アーカイブ検索での​利便性向上を、​定量的・​多角的に​検証していく​必要が​ある、とまとめられているのだ。

四国めたん

将来的な​広がりは​どう​?

ずんだもん

最終的には、​テレビ放送の​枠を​超えて、​近年急速に​増えている​映像主体の​デジタルアーカイブ全般の​メタデータ作成支援への​応用を​目指したい、と​述べられているのだ。​放送・音声・映像の​各情報を​相補的に​統合する​手法を​汎用化する​ことで、​文化資源の​効率的な​活用と、​情報の​アクセシビリティ向上に​寄与する​ことが​期待される、と​いうのが​論文の​締めくくり方なのだ。

四国めたん

最初の​問題意識から、​最後の​展望まできれいに​つながっているのね。

7. まとめ

ずんだもん

最後に​要点を​まとめるのだ。​論文は、​地デジ放送の​「字幕」と​「AI音声認識」と​いう​相補的な​2つの​テキストを、​大規模言語モデルで​統合・補正する​手法を​提案したのだ。

ずんだもん

対象は​NHK​「首都圏ニュース845」の​33放送回分。​faster-whisper large-v3と​gpt-5.2-chatを​組み合わせた​2段階の​パイプラインを​構築したのだ。​第1段階で​誤変換を​字幕で​直しつつ、​書き​起こしの​内容は​完全保持。​第2段階で​トピック分割と​要約、​キーワード抽出を​行ったのだ。

ずんだもん

評価では、​平均文字誤り率が​AI単独の​11.17%、​字幕単独の​18.31%から、​統合後は​6.47%まで​低下。​固有名詞再現率は​47.61%から​94.83%へと​大きく​改善したのだ。​一方で、​商用LLMの​コンテンツフィルターに​よる​処理拒絶や、​定型的でない​番組への​適用、​要約の​質的評価などが​今後の​課題と​して​明示されているのだ。

四国めたん

2つの​不完全な​ソースを​組み合わせて、​それぞれ単独より​良い​結果を​引き出す―と​いう​アイデアが、​ちゃんと​数字に​結びついているのが​印象的だったわ。​これからの​放送アーカイブの​世界が​どう​変わっていくのか、​楽しみね。

8. エンディング

ずんだもん

と​いうわけで、​今回は​放送の​テキスト化と​要約に​取り組んだ​論文を​紹介したのだ。

四国めたん

チャンネル登録、​高評価、​コメントよろしく​お願いしますね。​気に​なった​点や、​解説して​ほしい​論文が​あれば、​ぜひコメント欄で​教えてくださいな。

ずんだもん

今回の​出典は、​阿達藍留・塚越柚季・​大向一輝​「地上デジタル放送に​おける​音声と​字幕データを​活用した​放送内容の​テキスト化と​要約手法の​検討」、​情報処理学会研究報告、​2025年なのだ。​気に​なった​人は​ぜひ原典に​当たって​ほしいのだ。

四国めたん

それでは、​また​次回お会いしましょう。

ずんだもん

ばいばいなのだ。

JSON台本
{
  "renderJson": {
    "chapters": [
      {
        "id": "chapter1",
        "title": "オープニング",
        "messages": [
          {
            "id": "c1m1",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ねえ、ずんだもん。最近テレビを録画して、あとで見返すことが増えたのだけれど、内容を文字で素早く確認できたらいいのに、って思うことがあるのよね。"
          },
          {
            "id": "c1m2",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "わかるのだ。映像って情報量は多いけれど、検索したり要点だけ拾ったりするには向いていないのだ。今日はまさにそういう問題に取り組んだ論文を紹介するのだ。"
          },
          {
            "id": "c1m3",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "あら、面白そう。どんな論文なの?"
          },
          {
            "id": "c1m4",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "「地上デジタル放送における音声と字幕データを活用した放送内容のテキスト化と要約手法の検討」という論文なのだ。情報処理学会の研究報告として2025年に発表されたものなのだ。"
          },
          {
            "id": "c1m5",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "地上デジタル放送…つまり、ふだん私たちが家で見ているテレビね。"
          },
          {
            "id": "c1m6",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。地デジの録画から、AIによる音声認識と、放送局が付けている字幕データの両方を使って、放送内容を正確にテキスト化して、さらに要約まで作ろう、という研究なのだ。"
          },
          {
            "id": "c1m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "【タイトルコール】「テレビ放送を“読める”資料に変える―AI音声認識と字幕をLLMで統合する」"
          }
        ]
      },
      {
        "id": "chapter2",
        "title": "論文の問いと背景",
        "messages": [
          {
            "id": "c2m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "まず背景なのだけれど、テレビ放送って実は歴史的にも文化的にもすごく重要な記録なのだ。映像と音声と文字が重なった、情報密度の高いメディアなのだ。"
          },
          {
            "id": "c2m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "そうね。あとから見返したい貴重な記録もたくさんあるはずだわ。"
          },
          {
            "id": "c2m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "でも、それを二次利用したり、デジタルアーカイブに収めたりするには、内容を説明する「メタデータ」を付けないといけないのだ。"
          },
          {
            "id": "c2m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "メタデータって、要は「この放送には何が映っているか」を示す説明書のようなものね。"
          },
          {
            "id": "c2m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "その通りなのだ。ところが、詳しいメタデータを作るのは今でも専業のオペレーターによる手作業に頼っていて、コストも手間もかかるのが大きな課題になっているのだ。"
          },
          {
            "id": "c2m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なるほど。それを自動化できれば、アーカイブの世界はずいぶん変わりそうね。"
          },
          {
            "id": "c2m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。そこで論文が注目したのが、地デジ放送に既に付いている2種類のテキスト情報なのだ。一つは「字幕データ」、もう一つは「AI音声認識による書き起こし」なのだ。"
          },
          {
            "id": "c2m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "字幕は、聴覚に障害のある方や、音を出せない場面で見る人のために付いているものよね。"
          },
          {
            "id": "c2m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。日本の地デジでは、聴覚障害者向けや、音声を聴取できない環境向けに、字幕データが広く付与されているのだ。"
          },
          {
            "id": "c2m10",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ふむふむ。じゃあ字幕データをそのまま使えばいいじゃない、と素朴に思ってしまうのだけれど、何かまずいことがあるのかしら。"
          },
          {
            "id": "c2m11",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "いい質問なのだ。論文によれば、字幕データには3つの制約があるのだ。第一に、生放送ではオペレーターが逐次入力するので、実際の音声に対して4〜5秒の遅延が出るのだ。第二に、画面に焼き込まれたテロップとぶつからないようにしたり、CM前にデータが切れたり、送出枠の制限で情報が省かれたりするのだ。"
          },
          {
            "id": "c2m12",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "時間に追われている分、どうしても削られる部分が出てくるのね。"
          },
          {
            "id": "c2m13",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。第三に、読みやすさのために口語表現が整形・要約されるので、助詞や微妙なニュアンスまで含めた逐語再現には向かないのだ。"
          },
          {
            "id": "c2m14",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ずいぶん制約があるのね…。じゃあ、もう一方のAI音声認識のほうはどうなのかしら。"
          },
          {
            "id": "c2m15",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "こちらは近年大きく進歩していて、特にOpenAI社のWhisperのような大規模モデルの登場で、放送音声からの高精度な書き起こしが可能になってきたのだ。"
          },
          {
            "id": "c2m16",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "名前は聞いたことがあるわ。何が得意なの?"
          },
          {
            "id": "c2m17",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "発話のタイミングと同期したタイムスタンプを付けられること、それから字幕で省略されがちな部分まで、逐語的に拾えるのが強みなのだ。"
          },
          {
            "id": "c2m18",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "じゃあAI音声認識だけでいいのでは?"
          },
          {
            "id": "c2m19",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ところが弱点もあるのだ。放送特有の専門用語や固有名詞で同音異義語の誤変換が起きたり、「ハルシネーション」と呼ばれる現象で関係ない文字列を出してしまうことがあるのだ。"
          },
          {
            "id": "c2m20",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ハルシネーションって、AIが「幻」を見るような現象のことよね。"
          },
          {
            "id": "c2m21",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。論文では具体例として、放送終了時の決まり文句「ご視聴ありがとうございました」が勝手に何度も挿入されてしまうケースが紹介されているのだ。これがノイズになって、データの信頼性を損ねるのだ。"
          },
          {
            "id": "c2m22",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なるほど…。それぞれ得意・不得意があるのね。それで、この論文はどうしようとしているの?"
          },
          {
            "id": "c2m23",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ここがこの論文のポイントなのだ。論文では、字幕とAI音声認識を「相補的な特性を持つ2つのテキストソース」と捉えているのだ。つまり、字幕は正確だけれど省略があって、AI音声認識は網羅的だけれど誤変換がある。だったら、両者をLLM、つまり大規模言語モデルで統合・補正すれば、お互いの弱点を打ち消し合えるのではないか、というのが本研究のアイデアなのだ。"
          },
          {
            "id": "c2m24",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ちなみに、似たような研究は今までになかったの?"
          },
          {
            "id": "c2m25",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "関連研究もしっかり整理されているのだ。たとえば字幕テキストを使ったメディア分析として、地デジ字幕から放送局ごとの税制報道の姿勢を定量分析した研究や、国立情報学研究所、略してNIIのテレビ放送アーカイブ「NII TV-RECS」を使ったコロナ報道の解析などがあるのだ。"
          },
          {
            "id": "c2m26",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "字幕を社会調査に使う流れがあるのね。"
          },
          {
            "id": "c2m27",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "それから技術的な方面では、BARTという言語モデルで音声認識の誤りを訂正する研究や、テレビ録画の音声と字幕の対応をとって大規模な日本語音声コーパスを作る研究もあるのだ。"
          },
          {
            "id": "c2m28",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ずいぶん蓄積があるのね。じゃあ、この論文は何が新しいの?"
          },
          {
            "id": "c2m29",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文自身の言葉を借りると、「正確性に長ける字幕データ」と「網羅性に優れるAI音声認識」という性質の異なる二つのソースを、大規模言語モデルで高度に統合し、内容の要約まで一貫して行う、という点に更なる検討の余地があるとされていて、そこを埋めるのが本研究なのだ。"
          }
        ]
      },
      {
        "id": "chapter3",
        "title": "手法・アプローチ",
        "messages": [
          {
            "id": "c3m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ここから具体的な手法の話なのだ。"
          },
          {
            "id": "c3m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "お願いするわ。まず、何のテレビ番組を対象にしたのかしら?"
          },
          {
            "id": "c3m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "NHK総合テレビが関東地方向けに放送している「首都圏ニュース845」なのだ。平日の20時45分から21時までの15分番組で、前半約10分がニュース、後半約5分が気象情報という構成なのだ。"
          },
          {
            "id": "c3m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ニュース番組ね。なぜニュースを選んだのかしら。"
          },
          {
            "id": "c3m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文では明示されていないけれど、生字幕放送が実施されていて、毎日ほぼ同じ構成で繰り返される番組は、評価実験の対象として扱いやすいのだ。なお、後半の気象情報で天気図が出る場面の一部には字幕が付いていない、という注釈もあるのだ。"
          },
          {
            "id": "c3m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "期間はどれくらい?"
          },
          {
            "id": "c3m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "2025年11月4日から12月26日までで、土日祝日を除いて38放送回分を抽出したのだ。"
          },
          {
            "id": "c3m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "データの取り出し方は?"
          },
          {
            "id": "c3m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "まず録画はMPEG-2 TSという形式で保存されるのだ。地デジの放送波そのものに近い形式なのだ。そこから字幕情報を、Pythonスクリプトの「assdumper」というツールで抽出するのだ。"
          },
          {
            "id": "c3m10",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "あら、字幕って放送波の中に最初から入っているのね。"
          },
          {
            "id": "c3m11",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。並行してTSファイルからFFmpegという定番のツールで音声をWAV形式で取り出して、それを「faster-whisper」というライブラリのlarge-v3モデルで音声認識するのだ。"
          },
          {
            "id": "c3m12",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "そのfaster-whisperというのは、さっき話に出たWhisperと関係あるのかしら?"
          },
          {
            "id": "c3m13",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "鋭いのだ。OpenAI社のWhisperを、CTranslate2という高速推論エンジンで再実装したものなのだ。同じ精度でより速く動かせるのが特徴なのだ。large-v3はWhisperの中でも大規模で高精度なモデルで、2025年時点でも日本語の音声認識では最有力の選択肢の一つとして評価されているのだ。"
          },
          {
            "id": "c3m14",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "両方とも実績のあるツールを組み合わせている、ということね。"
          },
          {
            "id": "c3m15",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そして肝心の統合・要約の部分は、Microsoft Foundryから提供されるOpenAI社のLLM「gpt-5.2-chat」を使うのだ。論文では2025年12月11日版を使っているのだ。"
          },
          {
            "id": "c3m16",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "LLMに勝手なフォーマットで答えられると後の処理が大変そうね。"
          },
          {
            "id": "c3m17",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そこで論文では、OpenAI APIの「Structured Outputs」という機能を使って、厳密に定義したJSON形式で出力を強制しているのだ。処理は2段階のパイプラインで構成されているのだ。"
          },
          {
            "id": "c3m18",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "2段階。順番に教えてもらえる?"
          },
          {
            "id": "c3m19",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "まず第1段階が「データ統合・補正」なのだ。AIの書き起こし文を“ベース”にして、字幕データを“辞書”として参照させるのだ。"
          },
          {
            "id": "c3m20",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "辞書、って具体的にどういう意味?"
          },
          {
            "id": "c3m21",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "固有名詞や漢字表記の正解リファレンスとして使う、という意味なのだ。たとえば書き起こしで地名が同音異義語で誤変換されていたら、字幕にある正しい表記を参照して直す、というイメージなのだ。一方で、書き起こしの内容そのものは“一言一句漏らさず保持する”のが鉄則とされているのだ。"
          },
          {
            "id": "c3m22",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "あら、字幕に揃えるのではなくて、書き起こし側を主にするのね。"
          },
          {
            "id": "c3m23",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そこが重要なのだ。字幕は要約されていることが多いから、字幕にないからといって書き起こしから削ってしまうと「データの毀損」になる、と論文中のシステムプロンプトでも明示されているのだ。"
          },
          {
            "id": "c3m24",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なるほど、修正するのは“誤変換だけ”、と割り切っているのね。"
          },
          {
            "id": "c3m25",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。さらにIDや開始時刻、終了時刻といったメタデータは一文字も変更しないこと、暴力や災害など不適切に見える表現も「放送された通りの記録」として残すこと、というルールも組み込まれているのだ。"
          },
          {
            "id": "c3m26",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "歴史的記録としての扱いを意識しているのね。"
          },
          {
            "id": "c3m27",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "APIへは書き起こし結果を20件ずつ入力して、その都度字幕データの全文を参照させる形で処理するのだ。出力は、各発話のID、開始時刻、終了時刻、修正済みテキストを含むJSON配列なのだ。"
          },
          {
            "id": "c3m28",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "そして第2段階は?"
          },
          {
            "id": "c3m29",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "「トピック分割・要約生成」なのだ。第1段階で修正したテキストを入力にして、話題ごとのセグメンテーション、内容の要約、キーワード抽出、それぞれのトピックの開始・終了時刻の特定を行うのだ。"
          },
          {
            "id": "c3m30",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ニュースって「次のニュースです」のように切り替わっていくものね。"
          },
          {
            "id": "c3m31",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "まさにそこを自動で見つけるのだ。プロンプトでは「ニュース編集デスク」という役を与えて、話題が変わるタイミングで分割すること、各トピックに5〜10個のキーワードを付けること、要約は「だ・である調」で書くこと、などを指示しているのだ。"
          },
          {
            "id": "c3m32",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "細かいわね。一つ気になるのだけれど、トピックの「終了時刻」って、はっきりしないものじゃないかしら。"
          },
          {
            "id": "c3m33",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "めたん、いいところに気づくのだ。実際、LLMがトピックの終了時刻を正しく抽出できなかったので、論文では“次のトピックの開始時刻”を“前のトピックの終了時刻”とみなす、という工夫で対応しているのだ。"
          },
          {
            "id": "c3m34",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なるほど、現実的な逃げ道を用意しているのね。"
          },
          {
            "id": "c3m35",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "あと、プロンプトに「テキストの最初には番組やサービスの宣伝が入ることがある」と書かれているのは、録画データの冒頭に前の番組の末尾が混じることがあるからなのだ。"
          },
          {
            "id": "c3m36",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ああ、録画あるあるね。"
          },
          {
            "id": "c3m37",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "それから、ここは実運用上の重要な話なのだけれど、第1段階・第2段階を3回ずつ、合計5放送回分のデータについて、LLMやMicrosoft FoundryのAPIから「コンテンツフィルターに抵触するため処理できない」というエラーが返ってきたのだ。"
          },
          {
            "id": "c3m38",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "あら…どんな放送回だったの?"
          },
          {
            "id": "c3m39",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "いずれも性犯罪に関する報道を含む回で、それが原因で処理が中断されたと推測されている、と論文に明記されているのだ。これらの回は分析から除外されて、最終的に33放送回分が実験対象になったのだ。"
          },
          {
            "id": "c3m40",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "報道は事実をそのまま伝える性質を持つ一方で、AIサービスの安全規制とぶつかってしまうことがある、ということね。"
          },
          {
            "id": "c3m41",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。これは後の章でもう一度出てくる重要な論点なのだ。"
          }
        ]
      },
      {
        "id": "chapter4",
        "title": "結果・知見",
        "messages": [
          {
            "id": "c4m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ここから結果なのだ。まず処理時間の感覚を共有しておくのだ。"
          },
          {
            "id": "c4m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "お願い。"
          },
          {
            "id": "c4m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "faster-whisperによるAI音声認識は、15分の放送に対して平均約34秒で終わるのだ。gpt-5.2-chatでのテキスト修正は放送1回あたり平均約2分、要約は平均約20秒なのだ。"
          },
          {
            "id": "c4m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ずいぶん速いのね。15分の番組をだいたい3分弱で全部処理できるイメージかしら。"
          },
          {
            "id": "c4m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ざっくりとはそうなのだ。続いて、論文に出てくる出力例なのだ。第1段階の修正後テキストはこんな感じなのだ。発話ID、開始時刻、終了時刻、修正済みテキストの組がJSONで並んでいるのだ。たとえば、「こんばんは。首都圏ニュース845です。今年8月、東京八王子市で実証実験中の自動運転バスが街路樹にぶつかった事故で」、続いて「自動運転のシステムが事故の直前、誤った位置情報を読み込んでいたことが都の調査で分かりました。」といった発話ごとの単位なのだ。"
          },
          {
            "id": "c4m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "時間情報が残っているから、映像とぴったり同期できるのね。"
          },
          {
            "id": "c4m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そして第2段階の要約結果がこちらなのだ。同じ放送回のトピックの一つとして、「自動運転バスが街路樹に衝突 誤った位置情報が原因」というタイトルが付けられているのだ。要約文では、東京・八王子市で実証実験中の自動運転バスが街路樹に衝突し乗客3人が軽いけがをしたこと、事故直前にシステムが誤った位置情報を読み込んでいたこと、東京都が同種の実証実験を中断して不具合を確認のうえ再開する方針であることなどが、だ・である調で記述されているのだ。"
          },
          {
            "id": "c4m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "事実関係がきれいに整理されているわね。"
          },
          {
            "id": "c4m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "キーワードとしては、自動運転バス、八王子市、実証実験、街路樹衝突、位置情報、東京都、事故原因、実験中断などが並んでいるのだ。"
          },
          {
            "id": "c4m10",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "このキーワードがあれば、後で検索するときにすごく便利そうね。"
          },
          {
            "id": "c4m11",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。さて、ここからが定量評価のお話なのだ。論文では33放送回からランダムに選んだ5回分について、テキスト品質を2つの指標で評価しているのだ。"
          },
          {
            "id": "c4m12",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "2つの指標、というと?"
          },
          {
            "id": "c4m13",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "1つ目が、文字誤り率「CER」、Character Error Rateなのだ。2つ目が、固有名詞の再現率「Recall」なのだ。"
          },
          {
            "id": "c4m14",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "CERから教えてもらえる?"
          },
          {
            "id": "c4m15",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "CERは音声認識やOCRの精度評価でよく使われる指標で、対象テキストと正解テキストとの間の編集距離を、正解の総文字数で割った値なのだ。"
          },
          {
            "id": "c4m16",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "編集距離、というのは?"
          },
          {
            "id": "c4m17",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ある文字列を別の文字列に変えるのに必要な、置換・削除・挿入の最小回数のことなのだ。論文ではLevenshtein距離を使っているのだ。CERが低いほど正確、ということなのだ。"
          },
          {
            "id": "c4m18",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ふむふむ。それで、結果はどうだったの?"
          },
          {
            "id": "c4m19",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "表1に示されているのだけれど、AI音声認識単独の平均CERが11.17%、字幕データ単独の平均CERが18.31%だったのに対し、提案手法で統合したテキストの平均CERは6.47%まで下がっているのだ。"
          },
          {
            "id": "c4m20",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "あら、字幕より音声認識のほうが正確だった、というのが意外だわ。"
          },
          {
            "id": "c4m21",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ここがポイントなのだ。字幕は固有名詞や漢字は正しいけれど、口語が整形されたり情報が省かれたりするので、放送音声を「逐語的に再現するテキスト」として比べると、CERは高めに出る傾向があるのだ。"
          },
          {
            "id": "c4m22",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なるほど。CERは“どれだけ忠実に書き起こせているか”を見る指標だから、要約された字幕は不利になるのね。"
          },
          {
            "id": "c4m23",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。そして統合テキストは、AI音声認識の網羅性を保ちつつ、字幕を辞書として誤変換を直したことで、両者よりも大幅に低い文字誤り率を達成しているのだ。"
          },
          {
            "id": "c4m24",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "2つ目の指標、固有名詞再現率はどうだったのかしら?"
          },
          {
            "id": "c4m25",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "こちらはアーカイブの検索性に直結する重要な指標なのだ。正解テキストに含まれる人名・地名・組織名などの固有表現を、対象テキストがどれだけ漏れなく拾えているかを見るのだ。"
          },
          {
            "id": "c4m26",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "具体的にはどう測ったの?"
          },
          {
            "id": "c4m27",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "正解テキストと対象テキストの両方から、自然言語処理ライブラリのspaCy(スパイシー)と、その日本語モデルであるja_ginza(ジャ・ギンザ)を使って固有表現を抽出しているのだ。"
          },
          {
            "id": "c4m28",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "spaCyとGiNZAって、どんなものなの?"
          },
          {
            "id": "c4m29",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "spaCyは多言語対応の自然言語処理ライブラリで、固有表現抽出や品詞タグ付けなどを統合的に扱えるのだ。GiNZAはspaCyをフレームワークとして使う、メガゴンラボと国立国語研究所が開発した日本語向けのライブラリなのだ。日本語の固有表現抽出ではよく使われる組み合わせなのだ。"
          },
          {
            "id": "c4m30",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ありがとう。それで、ラベルはどう絞ったの?"
          },
          {
            "id": "c4m31",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "Facility(施設)、GPE(地政学的実体)、Org(組織)、Person(人物)の4つのいずれかに該当する固有表現を抽出して、正解と提案手法で重なる割合をRecallとして計算しているのだ。"
          },
          {
            "id": "c4m32",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "で、結果は?"
          },
          {
            "id": "c4m33",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "表2によると、AI音声認識単独では平均再現率が47.61%だったのに対し、統合テキストでは94.83%に向上しているのだ。"
          },
          {
            "id": "c4m34",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ほぼ倍ね…!"
          },
          {
            "id": "c4m35",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "特に効いているのは、字幕を「固有名詞の正解リファレンス」として使った点なのだ。これによって誤変換や聞き取りミスが大幅に減って、検索のキーになる人名・地名・組織名がしっかり残るようになったのだ。"
          },
          {
            "id": "c4m36",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "アーカイブで「あのニュースをもう一度見たい」と探すとき、人名や地名で検索する人は多いだろうから、現実的な意味でも大きい改善ね。"
          }
        ]
      },
      {
        "id": "chapter5",
        "title": "考察・意義",
        "messages": [
          {
            "id": "c5m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ここまでの結果から、論文がどんな意義を主張しているか整理するのだ。"
          },
          {
            "id": "c5m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "お願い。"
          },
          {
            "id": "c5m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "まず、「正確だけれど省略のある字幕」と「網羅的だけれど誤変換のあるAI音声認識」を、LLMで統合するという発想自体が、放送のテキスト化において有効に機能することを、定量的に示した点なのだ。"
          },
          {
            "id": "c5m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "2つの弱点を、お互いの強みで埋め合わせる構図が、数字でちゃんと裏付けられたわけね。"
          },
          {
            "id": "c5m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。さらに、修正済みテキストからトピック分割・要約・キーワード抽出までを一貫して行うことで、放送内容の効率的な分析だけでなく、デジタルアーカイブにおける映像資料のメタデータ拡充や検索性の向上に寄与することが期待される、と論文は述べているのだ。"
          },
          {
            "id": "c5m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "さきほどの「メタデータ作成は手作業でコストが高い」という最初の問題意識に、ちゃんと戻ってくる流れね。"
          },
          {
            "id": "c5m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ここで、解説者であるぼくからの補足なのだけれど、論文に直接書かれているわけではないものの、こういうワークフローは放送局のアーカイブだけでなく、研究者が放送資料を分析する場面でも応用が利きやすいと考えられるのだ。"
          },
          {
            "id": "c5m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "たとえば、社会学の研究で長期間の報道を分析するような場合ね。"
          },
          {
            "id": "c5m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そういうケースでは、文字に起こすこと自体が大きなコストになっていたので、こうした自動化手法は大きな助けになりうるのだ。ただし、これはあくまで補足で、論文自身は具体的な応用先を限定的にしか述べていないのだ。"
          }
        ]
      },
      {
        "id": "chapter6",
        "title": "限界と今後の展望",
        "messages": [
          {
            "id": "c6m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文では、課題と展望もかなり率直に書かれているのだ。3つあるのだ。"
          },
          {
            "id": "c6m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "1つ目は?"
          },
          {
            "id": "c6m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "商用LLMに付随する安全規制上の制約なのだ。先ほども触れた通り、性犯罪に関する機微な内容を含むニュースが、コンテンツフィルターに引っかかって処理を拒絶される事例が起きたのだ。"
          },
          {
            "id": "c6m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "報道は本来、社会の出来事をそのまま記録する役割を持つから、画一的なフィルタリングと相性が悪いのね。"
          },
          {
            "id": "c6m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文も、広範な社会事象を扱う報道コンテンツのアーカイブ化において、商用サービスの画一的なフィルタリング基準は大きな障壁になり得る、と指摘しているのだ。今後はフィルタリングを柔軟に調整できるローカルLLMや、報道の公共性に配慮した特化型モデルの検討が不可欠だ、と述べているのだ。"
          },
          {
            "id": "c6m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "2つ目は?"
          },
          {
            "id": "c6m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "対象コンテンツの拡張なのだ。今回の対象は、放送時間も構成も決まっているニュース番組だったのだ。"
          },
          {
            "id": "c6m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "特番やバラエティ番組はどうなのかしら?"
          },
          {
            "id": "c6m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "長時間の特番や非定型な構成の番組では、計算リソースやLLMのコンテキストウィンドウの制限が課題になるのだ。"
          },
          {
            "id": "c6m10",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "コンテキストウィンドウって、LLMが一度に扱えるテキストの長さのことよね。"
          },
          {
            "id": "c6m11",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "その通りなのだ。それから、バラエティ番組のように複数人が同時に話したり、BGMや効果音が重なる環境では、音声認識の精度が大きく落ちる懸念があるのだ。話者分離技術の高度化や、背景音に頑健なモデルの導入が必要、と論文は述べているのだ。"
          },
          {
            "id": "c6m12",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "それから、画面の中の文字情報は使えないのかしら?"
          },
          {
            "id": "c6m13",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文でも触れられていて、今後は音声と字幕に加えて、映像内のテロップ、いわゆる焼き込み文字をOCRで抽出して統合するマルチモーダルな解析を入れることで、さらに精度を高められるだろう、と展望されているのだ。"
          },
          {
            "id": "c6m14",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "3つ目は?"
          },
          {
            "id": "c6m15",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "評価手法そのものの改善なのだ。今回は文字の再現精度を中心に評価していて、自動生成された要約や話題分割が、ニュースとしての要点をどれだけ正確に射抜いているか、という質的な評価や、情報の圧縮率や網羅性の量的指標は十分でない、と論文自身が認めているのだ。"
          },
          {
            "id": "c6m16",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "要約が「正しい言葉で書かれているか」と「ニュースの肝を捉えているか」は、別の話だものね。"
          },
          {
            "id": "c6m17",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。今後は、人間による要約との比較評価や、実際のアーカイブ検索での利便性向上を、定量的・多角的に検証していく必要がある、とまとめられているのだ。"
          },
          {
            "id": "c6m18",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "将来的な広がりはどう?"
          },
          {
            "id": "c6m19",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "最終的には、テレビ放送の枠を超えて、近年急速に増えている映像主体のデジタルアーカイブ全般のメタデータ作成支援への応用を目指したい、と述べられているのだ。放送・音声・映像の各情報を相補的に統合する手法を汎用化することで、文化資源の効率的な活用と、情報のアクセシビリティ向上に寄与することが期待される、というのが論文の締めくくり方なのだ。"
          },
          {
            "id": "c6m20",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "最初の問題意識から、最後の展望まできれいにつながっているのね。"
          }
        ]
      },
      {
        "id": "chapter7",
        "title": "まとめ",
        "messages": [
          {
            "id": "c7m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "最後に要点をまとめるのだ。論文は、地デジ放送の「字幕」と「AI音声認識」という相補的な2つのテキストを、大規模言語モデルで統合・補正する手法を提案したのだ。"
          },
          {
            "id": "c7m2",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "対象はNHK「首都圏ニュース845」の33放送回分。faster-whisper large-v3とgpt-5.2-chatを組み合わせた2段階のパイプラインを構築したのだ。第1段階で誤変換を字幕で直しつつ、書き起こしの内容は完全保持。第2段階でトピック分割と要約、キーワード抽出を行ったのだ。"
          },
          {
            "id": "c7m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "評価では、平均文字誤り率がAI単独の11.17%、字幕単独の18.31%から、統合後は6.47%まで低下。固有名詞再現率は47.61%から94.83%へと大きく改善したのだ。一方で、商用LLMのコンテンツフィルターによる処理拒絶や、定型的でない番組への適用、要約の質的評価などが今後の課題として明示されているのだ。"
          },
          {
            "id": "c7m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "2つの不完全なソースを組み合わせて、それぞれ単独より良い結果を引き出す―というアイデアが、ちゃんと数字に結びついているのが印象的だったわ。これからの放送アーカイブの世界がどう変わっていくのか、楽しみね。"
          }
        ]
      },
      {
        "id": "chapter8",
        "title": "エンディング",
        "messages": [
          {
            "id": "c8m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "というわけで、今回は放送のテキスト化と要約に取り組んだ論文を紹介したのだ。"
          },
          {
            "id": "c8m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "チャンネル登録、高評価、コメントよろしくお願いしますね。気になった点や、解説してほしい論文があれば、ぜひコメント欄で教えてくださいな。"
          },
          {
            "id": "c8m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "今回の出典は、阿達藍留・塚越柚季・大向一輝「地上デジタル放送における音声と字幕データを活用した放送内容のテキスト化と要約手法の検討」、情報処理学会研究報告、2025年なのだ。気になった人はぜひ原典に当たってほしいのだ。"
          },
          {
            "id": "c8m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "それでは、また次回お会いしましょう。"
          },
          {
            "id": "c8m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ばいばいなのだ。"
          }
        ]
      }
    ]
  }
}