地上デジタル放送における音声と字幕データを活用した放送内容のテキスト化と要約手法の検討

2026年2月1日阿達藍留, 塚越柚季, 大向一輝研究報告人文科学とコンピュータ（CH）. 2026, vol. 2026-CH-140, no. 28, p. 1-6.

#テレビ放送 #LLM

解説

この解説はClaude Opus 4.6によって生成された参考用の内容です。正確性を保証するものではないため、必要に応じて原文・関連資料をご確認ください。

キャラクターイラスト: 坂本アヒル様によるずんだもん立ち絵素材 / 四国めたん立ち絵素材を使用しています。

1. オープニング

め

四国めたん

ねえ、ずんだもん。最近テレビを録画して、あとで見返すことが増えたのだけれど、内容を文字で素早く確認できたらいいのに、って思うことがあるのよね。

ず

ずんだもん

わかるのだ。映像って情報量は多いけれど、検索したり要点だけ拾ったりするには向いていないのだ。今日はまさにそういう問題に取り組んだ論文を紹介するのだ。

め

四国めたん

あら、面白そう。どんな論文なの?

ず

ずんだもん

「地上デジタル放送における音声と字幕データを活用した放送内容のテキスト化と要約手法の検討」という論文なのだ。情報処理学会の研究報告として2025年に発表されたものなのだ。

め

四国めたん

地上デジタル放送…つまり、ふだん私たちが家で見ているテレビね。

ず

ずんだもん

そうなのだ。地デジの録画から、AIによる音声認識と、放送局が付けている字幕データの両方を使って、放送内容を正確にテキスト化して、さらに要約まで作ろう、という研究なのだ。

ず

ずんだもん

【タイトルコール】「テレビ放送を“読める”資料に変える―AI音声認識と字幕をLLMで統合する」

2. 論文の問いと背景

ず

ずんだもん

まず背景なのだけれど、テレビ放送って実は歴史的にも文化的にもすごく重要な記録なのだ。映像と音声と文字が重なった、情報密度の高いメディアなのだ。

め

四国めたん

そうね。あとから見返したい貴重な記録もたくさんあるはずだわ。

ず

ずんだもん

でも、それを二次利用したり、デジタルアーカイブに収めたりするには、内容を説明する「メタデータ」を付けないといけないのだ。

め

四国めたん

メタデータって、要は「この放送には何が映っているか」を示す説明書のようなものね。

ず

ずんだもん

その通りなのだ。ところが、詳しいメタデータを作るのは今でも専業のオペレーターによる手作業に頼っていて、コストも手間もかかるのが大きな課題になっているのだ。

め

四国めたん

なるほど。それを自動化できれば、アーカイブの世界はずいぶん変わりそうね。

ず

ずんだもん

そうなのだ。そこで論文が注目したのが、地デジ放送に既に付いている2種類のテキスト情報なのだ。一つは「字幕データ」、もう一つは「AI音声認識による書き起こし」なのだ。

め

四国めたん

字幕は、聴覚に障害のある方や、音を出せない場面で見る人のために付いているものよね。

ず

ずんだもん

そうなのだ。日本の地デジでは、聴覚障害者向けや、音声を聴取できない環境向けに、字幕データが広く付与されているのだ。

め

四国めたん

ふむふむ。じゃあ字幕データをそのまま使えばいいじゃない、と素朴に思ってしまうのだけれど、何かまずいことがあるのかしら。

ず

ずんだもん

いい質問なのだ。論文によれば、字幕データには3つの制約があるのだ。第一に、生放送ではオペレーターが逐次入力するので、実際の音声に対して4〜5秒の遅延が出るのだ。第二に、画面に焼き込まれたテロップとぶつからないようにしたり、CM前にデータが切れたり、送出枠の制限で情報が省かれたりするのだ。

め

四国めたん

時間に追われている分、どうしても削られる部分が出てくるのね。

ず

ずんだもん

そうなのだ。第三に、読みやすさのために口語表現が整形・要約されるので、助詞や微妙なニュアンスまで含めた逐語再現には向かないのだ。

め

四国めたん

ずいぶん制約があるのね…。じゃあ、もう一方のAI音声認識のほうはどうなのかしら。

ず

ずんだもん

こちらは近年大きく進歩していて、特にOpenAI社のWhisperのような大規模モデルの登場で、放送音声からの高精度な書き起こしが可能になってきたのだ。

め

四国めたん

名前は聞いたことがあるわ。何が得意なの?

ず

ずんだもん

発話のタイミングと同期したタイムスタンプを付けられること、それから字幕で省略されがちな部分まで、逐語的に拾えるのが強みなのだ。

め

四国めたん

じゃあAI音声認識だけでいいのでは?

ず

ずんだもん

ところが弱点もあるのだ。放送特有の専門用語や固有名詞で同音異義語の誤変換が起きたり、「ハルシネーション」と呼ばれる現象で関係ない文字列を出してしまうことがあるのだ。

め

四国めたん

ハルシネーションって、AIが「幻」を見るような現象のことよね。

ず

ずんだもん

そうなのだ。論文では具体例として、放送終了時の決まり文句「ご視聴ありがとうございました」が勝手に何度も挿入されてしまうケースが紹介されているのだ。これがノイズになって、データの信頼性を損ねるのだ。

め

四国めたん

なるほど…。それぞれ得意・不得意があるのね。それで、この論文はどうしようとしているの?

ず

ずんだもん

ここがこの論文のポイントなのだ。論文では、字幕とAI音声認識を「相補的な特性を持つ2つのテキストソース」と捉えているのだ。つまり、字幕は正確だけれど省略があって、AI音声認識は網羅的だけれど誤変換がある。だったら、両者をLLM、つまり大規模言語モデルで統合・補正すれば、お互いの弱点を打ち消し合えるのではないか、というのが本研究のアイデアなのだ。

め

四国めたん

ちなみに、似たような研究は今までになかったの?

ず

ずんだもん

関連研究もしっかり整理されているのだ。たとえば字幕テキストを使ったメディア分析として、地デジ字幕から放送局ごとの税制報道の姿勢を定量分析した研究や、国立情報学研究所、略してNIIのテレビ放送アーカイブ「NII TV-RECS」を使ったコロナ報道の解析などがあるのだ。

め

四国めたん

字幕を社会調査に使う流れがあるのね。

ず

ずんだもん

それから技術的な方面では、BARTという言語モデルで音声認識の誤りを訂正する研究や、テレビ録画の音声と字幕の対応をとって大規模な日本語音声コーパスを作る研究もあるのだ。

め

四国めたん

ずいぶん蓄積があるのね。じゃあ、この論文は何が新しいの?

ず

ずんだもん

論文自身の言葉を借りると、「正確性に長ける字幕データ」と「網羅性に優れるAI音声認識」という性質の異なる二つのソースを、大規模言語モデルで高度に統合し、内容の要約まで一貫して行う、という点に更なる検討の余地があるとされていて、そこを埋めるのが本研究なのだ。

3. 手法・アプローチ

ず

ずんだもん

ここから具体的な手法の話なのだ。

め

四国めたん

お願いするわ。まず、何のテレビ番組を対象にしたのかしら?

ず

ずんだもん

NHK総合テレビが関東地方向けに放送している「首都圏ニュース845」なのだ。平日の20時45分から21時までの15分番組で、前半約10分がニュース、後半約5分が気象情報という構成なのだ。

め

四国めたん

ニュース番組ね。なぜニュースを選んだのかしら。

ず

ずんだもん

論文では明示されていないけれど、生字幕放送が実施されていて、毎日ほぼ同じ構成で繰り返される番組は、評価実験の対象として扱いやすいのだ。なお、後半の気象情報で天気図が出る場面の一部には字幕が付いていない、という注釈もあるのだ。

め

四国めたん

期間はどれくらい?

ず

ずんだもん

2025年11月4日から12月26日までで、土日祝日を除いて38放送回分を抽出したのだ。

め

四国めたん

データの取り出し方は?

ず

ずんだもん

まず録画はMPEG-2 TSという形式で保存されるのだ。地デジの放送波そのものに近い形式なのだ。そこから字幕情報を、Pythonスクリプトの「assdumper」というツールで抽出するのだ。

め

四国めたん

あら、字幕って放送波の中に最初から入っているのね。

ず

ずんだもん

そうなのだ。並行してTSファイルからFFmpegという定番のツールで音声をWAV形式で取り出して、それを「faster-whisper」というライブラリのlarge-v3モデルで音声認識するのだ。

め

四国めたん

そのfaster-whisperというのは、さっき話に出たWhisperと関係あるのかしら?

ず

ずんだもん

鋭いのだ。OpenAI社のWhisperを、CTranslate2という高速推論エンジンで再実装したものなのだ。同じ精度でより速く動かせるのが特徴なのだ。large-v3はWhisperの中でも大規模で高精度なモデルで、2025年時点でも日本語の音声認識では最有力の選択肢の一つとして評価されているのだ。

め

四国めたん

両方とも実績のあるツールを組み合わせている、ということね。

ず

ずんだもん

そして肝心の統合・要約の部分は、Microsoft Foundryから提供されるOpenAI社のLLM「gpt-5.2-chat」を使うのだ。論文では2025年12月11日版を使っているのだ。

め

四国めたん

LLMに勝手なフォーマットで答えられると後の処理が大変そうね。

ず

ずんだもん

そこで論文では、OpenAI APIの「Structured Outputs」という機能を使って、厳密に定義したJSON形式で出力を強制しているのだ。処理は2段階のパイプラインで構成されているのだ。

め

四国めたん

2段階。順番に教えてもらえる?

ず

ずんだもん

まず第1段階が「データ統合・補正」なのだ。AIの書き起こし文を“ベース”にして、字幕データを“辞書”として参照させるのだ。

め

四国めたん

辞書、って具体的にどういう意味?

ず

ずんだもん

固有名詞や漢字表記の正解リファレンスとして使う、という意味なのだ。たとえば書き起こしで地名が同音異義語で誤変換されていたら、字幕にある正しい表記を参照して直す、というイメージなのだ。一方で、書き起こしの内容そのものは“一言一句漏らさず保持する”のが鉄則とされているのだ。

め

四国めたん

あら、字幕に揃えるのではなくて、書き起こし側を主にするのね。

ず

ずんだもん

そこが重要なのだ。字幕は要約されていることが多いから、字幕にないからといって書き起こしから削ってしまうと「データの毀損」になる、と論文中のシステムプロンプトでも明示されているのだ。

め

四国めたん

なるほど、修正するのは“誤変換だけ”、と割り切っているのね。

ず

ずんだもん

そうなのだ。さらにIDや開始時刻、終了時刻といったメタデータは一文字も変更しないこと、暴力や災害など不適切に見える表現も「放送された通りの記録」として残すこと、というルールも組み込まれているのだ。

め

四国めたん

歴史的記録としての扱いを意識しているのね。

ず

ずんだもん

APIへは書き起こし結果を20件ずつ入力して、その都度字幕データの全文を参照させる形で処理するのだ。出力は、各発話のID、開始時刻、終了時刻、修正済みテキストを含むJSON配列なのだ。

め

四国めたん

そして第2段階は?

ず

ずんだもん

「トピック分割・要約生成」なのだ。第1段階で修正したテキストを入力にして、話題ごとのセグメンテーション、内容の要約、キーワード抽出、それぞれのトピックの開始・終了時刻の特定を行うのだ。

め

四国めたん

ニュースって「次のニュースです」のように切り替わっていくものね。

ず

ずんだもん

まさにそこを自動で見つけるのだ。プロンプトでは「ニュース編集デスク」という役を与えて、話題が変わるタイミングで分割すること、各トピックに5〜10個のキーワードを付けること、要約は「だ・である調」で書くこと、などを指示しているのだ。

め

四国めたん

細かいわね。一つ気になるのだけれど、トピックの「終了時刻」って、はっきりしないものじゃないかしら。

ず

ずんだもん

めたん、いいところに気づくのだ。実際、LLMがトピックの終了時刻を正しく抽出できなかったので、論文では“次のトピックの開始時刻”を“前のトピックの終了時刻”とみなす、という工夫で対応しているのだ。

め

四国めたん

なるほど、現実的な逃げ道を用意しているのね。

ず

ずんだもん

あと、プロンプトに「テキストの最初には番組やサービスの宣伝が入ることがある」と書かれているのは、録画データの冒頭に前の番組の末尾が混じることがあるからなのだ。

め

四国めたん

ああ、録画あるあるね。

ず

ずんだもん

それから、ここは実運用上の重要な話なのだけれど、第1段階・第2段階を3回ずつ、合計5放送回分のデータについて、LLMやMicrosoft FoundryのAPIから「コンテンツフィルターに抵触するため処理できない」というエラーが返ってきたのだ。

め

四国めたん

あら…どんな放送回だったの?

ず

ずんだもん

いずれも性犯罪に関する報道を含む回で、それが原因で処理が中断されたと推測されている、と論文に明記されているのだ。これらの回は分析から除外されて、最終的に33放送回分が実験対象になったのだ。

め

四国めたん

報道は事実をそのまま伝える性質を持つ一方で、AIサービスの安全規制とぶつかってしまうことがある、ということね。

ず

ずんだもん

そうなのだ。これは後の章でもう一度出てくる重要な論点なのだ。

4. 結果・知見

ず

ずんだもん

ここから結果なのだ。まず処理時間の感覚を共有しておくのだ。

め

四国めたん

お願い。

ず

ずんだもん

faster-whisperによるAI音声認識は、15分の放送に対して平均約34秒で終わるのだ。gpt-5.2-chatでのテキスト修正は放送1回あたり平均約2分、要約は平均約20秒なのだ。

め

四国めたん

ずいぶん速いのね。15分の番組をだいたい3分弱で全部処理できるイメージかしら。

ず

ずんだもん

ざっくりとはそうなのだ。続いて、論文に出てくる出力例なのだ。第1段階の修正後テキストはこんな感じなのだ。発話ID、開始時刻、終了時刻、修正済みテキストの組がJSONで並んでいるのだ。たとえば、「こんばんは。首都圏ニュース845です。今年8月、東京八王子市で実証実験中の自動運転バスが街路樹にぶつかった事故で」、続いて「自動運転のシステムが事故の直前、誤った位置情報を読み込んでいたことが都の調査で分かりました。」といった発話ごとの単位なのだ。

め

四国めたん

時間情報が残っているから、映像とぴったり同期できるのね。

ず

ずんだもん

そして第2段階の要約結果がこちらなのだ。同じ放送回のトピックの一つとして、「自動運転バスが街路樹に衝突誤った位置情報が原因」というタイトルが付けられているのだ。要約文では、東京・八王子市で実証実験中の自動運転バスが街路樹に衝突し乗客3人が軽いけがをしたこと、事故直前にシステムが誤った位置情報を読み込んでいたこと、東京都が同種の実証実験を中断して不具合を確認のうえ再開する方針であることなどが、だ・である調で記述されているのだ。

め

四国めたん

事実関係がきれいに整理されているわね。

ず

ずんだもん

キーワードとしては、自動運転バス、八王子市、実証実験、街路樹衝突、位置情報、東京都、事故原因、実験中断などが並んでいるのだ。

め

四国めたん

このキーワードがあれば、後で検索するときにすごく便利そうね。

ず

ずんだもん

そうなのだ。さて、ここからが定量評価のお話なのだ。論文では33放送回からランダムに選んだ5回分について、テキスト品質を2つの指標で評価しているのだ。

め

四国めたん

2つの指標、というと?

ず

ずんだもん

1つ目が、文字誤り率「CER」、Character Error Rateなのだ。2つ目が、固有名詞の再現率「Recall」なのだ。

め

四国めたん

CERから教えてもらえる?

ず

ずんだもん

CERは音声認識やOCRの精度評価でよく使われる指標で、対象テキストと正解テキストとの間の編集距離を、正解の総文字数で割った値なのだ。

め

四国めたん

編集距離、というのは?

ず

ずんだもん

ある文字列を別の文字列に変えるのに必要な、置換・削除・挿入の最小回数のことなのだ。論文ではLevenshtein距離を使っているのだ。CERが低いほど正確、ということなのだ。

め

四国めたん

ふむふむ。それで、結果はどうだったの?

ず

ずんだもん

表1に示されているのだけれど、AI音声認識単独の平均CERが11.17%、字幕データ単独の平均CERが18.31%だったのに対し、提案手法で統合したテキストの平均CERは6.47%まで下がっているのだ。

め

四国めたん

あら、字幕より音声認識のほうが正確だった、というのが意外だわ。

ず

ずんだもん

ここがポイントなのだ。字幕は固有名詞や漢字は正しいけれど、口語が整形されたり情報が省かれたりするので、放送音声を「逐語的に再現するテキスト」として比べると、CERは高めに出る傾向があるのだ。

め

四国めたん

なるほど。CERは“どれだけ忠実に書き起こせているか”を見る指標だから、要約された字幕は不利になるのね。

ず

ずんだもん

そうなのだ。そして統合テキストは、AI音声認識の網羅性を保ちつつ、字幕を辞書として誤変換を直したことで、両者よりも大幅に低い文字誤り率を達成しているのだ。

め

四国めたん

2つ目の指標、固有名詞再現率はどうだったのかしら?

ず

ずんだもん

こちらはアーカイブの検索性に直結する重要な指標なのだ。正解テキストに含まれる人名・地名・組織名などの固有表現を、対象テキストがどれだけ漏れなく拾えているかを見るのだ。

め

四国めたん

具体的にはどう測ったの?

ず

ずんだもん

正解テキストと対象テキストの両方から、自然言語処理ライブラリのspaCy(スパイシー)と、その日本語モデルであるja_ginza(ジャ・ギンザ)を使って固有表現を抽出しているのだ。

め

四国めたん

spaCyとGiNZAって、どんなものなの?

ず

ずんだもん

spaCyは多言語対応の自然言語処理ライブラリで、固有表現抽出や品詞タグ付けなどを統合的に扱えるのだ。GiNZAはspaCyをフレームワークとして使う、メガゴンラボと国立国語研究所が開発した日本語向けのライブラリなのだ。日本語の固有表現抽出ではよく使われる組み合わせなのだ。

め

四国めたん

ありがとう。それで、ラベルはどう絞ったの?

ず

ずんだもん

Facility(施設)、GPE(地政学的実体)、Org(組織)、Person(人物)の4つのいずれかに該当する固有表現を抽出して、正解と提案手法で重なる割合をRecallとして計算しているのだ。

め

四国めたん

で、結果は?

ず

ずんだもん

表2によると、AI音声認識単独では平均再現率が47.61%だったのに対し、統合テキストでは94.83%に向上しているのだ。

め

四国めたん

ほぼ倍ね…!

ず

ずんだもん

特に効いているのは、字幕を「固有名詞の正解リファレンス」として使った点なのだ。これによって誤変換や聞き取りミスが大幅に減って、検索のキーになる人名・地名・組織名がしっかり残るようになったのだ。

め

四国めたん

アーカイブで「あのニュースをもう一度見たい」と探すとき、人名や地名で検索する人は多いだろうから、現実的な意味でも大きい改善ね。

5. 考察・意義

ず

ずんだもん

ここまでの結果から、論文がどんな意義を主張しているか整理するのだ。

め

四国めたん

お願い。

ず

ずんだもん

まず、「正確だけれど省略のある字幕」と「網羅的だけれど誤変換のあるAI音声認識」を、LLMで統合するという発想自体が、放送のテキスト化において有効に機能することを、定量的に示した点なのだ。

め

四国めたん

2つの弱点を、お互いの強みで埋め合わせる構図が、数字でちゃんと裏付けられたわけね。

ず

ずんだもん

そうなのだ。さらに、修正済みテキストからトピック分割・要約・キーワード抽出までを一貫して行うことで、放送内容の効率的な分析だけでなく、デジタルアーカイブにおける映像資料のメタデータ拡充や検索性の向上に寄与することが期待される、と論文は述べているのだ。

め

四国めたん

さきほどの「メタデータ作成は手作業でコストが高い」という最初の問題意識に、ちゃんと戻ってくる流れね。

ず

ずんだもん

ここで、解説者であるぼくからの補足なのだけれど、論文に直接書かれているわけではないものの、こういうワークフローは放送局のアーカイブだけでなく、研究者が放送資料を分析する場面でも応用が利きやすいと考えられるのだ。

め

四国めたん

たとえば、社会学の研究で長期間の報道を分析するような場合ね。

ず

ずんだもん

そういうケースでは、文字に起こすこと自体が大きなコストになっていたので、こうした自動化手法は大きな助けになりうるのだ。ただし、これはあくまで補足で、論文自身は具体的な応用先を限定的にしか述べていないのだ。

6. 限界と今後の展望

ず

ずんだもん

論文では、課題と展望もかなり率直に書かれているのだ。3つあるのだ。

め

四国めたん

1つ目は?

ず

ずんだもん

商用LLMに付随する安全規制上の制約なのだ。先ほども触れた通り、性犯罪に関する機微な内容を含むニュースが、コンテンツフィルターに引っかかって処理を拒絶される事例が起きたのだ。

め

四国めたん

報道は本来、社会の出来事をそのまま記録する役割を持つから、画一的なフィルタリングと相性が悪いのね。

ず

ずんだもん

論文も、広範な社会事象を扱う報道コンテンツのアーカイブ化において、商用サービスの画一的なフィルタリング基準は大きな障壁になり得る、と指摘しているのだ。今後はフィルタリングを柔軟に調整できるローカルLLMや、報道の公共性に配慮した特化型モデルの検討が不可欠だ、と述べているのだ。

め

四国めたん

2つ目は?

ず

ずんだもん

対象コンテンツの拡張なのだ。今回の対象は、放送時間も構成も決まっているニュース番組だったのだ。

め

四国めたん

特番やバラエティ番組はどうなのかしら?

ず

ずんだもん

長時間の特番や非定型な構成の番組では、計算リソースやLLMのコンテキストウィンドウの制限が課題になるのだ。

め

四国めたん

コンテキストウィンドウって、LLMが一度に扱えるテキストの長さのことよね。

ず

ずんだもん

その通りなのだ。それから、バラエティ番組のように複数人が同時に話したり、BGMや効果音が重なる環境では、音声認識の精度が大きく落ちる懸念があるのだ。話者分離技術の高度化や、背景音に頑健なモデルの導入が必要、と論文は述べているのだ。

め

四国めたん

それから、画面の中の文字情報は使えないのかしら?

ず

ずんだもん

論文でも触れられていて、今後は音声と字幕に加えて、映像内のテロップ、いわゆる焼き込み文字をOCRで抽出して統合するマルチモーダルな解析を入れることで、さらに精度を高められるだろう、と展望されているのだ。

め

四国めたん

3つ目は?

ず

ずんだもん

評価手法そのものの改善なのだ。今回は文字の再現精度を中心に評価していて、自動生成された要約や話題分割が、ニュースとしての要点をどれだけ正確に射抜いているか、という質的な評価や、情報の圧縮率や網羅性の量的指標は十分でない、と論文自身が認めているのだ。

め

四国めたん

要約が「正しい言葉で書かれているか」と「ニュースの肝を捉えているか」は、別の話だものね。

ず

ずんだもん

そうなのだ。今後は、人間による要約との比較評価や、実際のアーカイブ検索での利便性向上を、定量的・多角的に検証していく必要がある、とまとめられているのだ。

め

四国めたん

将来的な広がりはどう?

ず

ずんだもん

最終的には、テレビ放送の枠を超えて、近年急速に増えている映像主体のデジタルアーカイブ全般のメタデータ作成支援への応用を目指したい、と述べられているのだ。放送・音声・映像の各情報を相補的に統合する手法を汎用化することで、文化資源の効率的な活用と、情報のアクセシビリティ向上に寄与することが期待される、というのが論文の締めくくり方なのだ。

め

四国めたん

最初の問題意識から、最後の展望まできれいにつながっているのね。

7. まとめ

ず

ずんだもん

最後に要点をまとめるのだ。論文は、地デジ放送の「字幕」と「AI音声認識」という相補的な2つのテキストを、大規模言語モデルで統合・補正する手法を提案したのだ。

ず

ずんだもん

対象はNHK「首都圏ニュース845」の33放送回分。faster-whisper large-v3とgpt-5.2-chatを組み合わせた2段階のパイプラインを構築したのだ。第1段階で誤変換を字幕で直しつつ、書き起こしの内容は完全保持。第2段階でトピック分割と要約、キーワード抽出を行ったのだ。

ず

ずんだもん

評価では、平均文字誤り率がAI単独の11.17%、字幕単独の18.31%から、統合後は6.47%まで低下。固有名詞再現率は47.61%から94.83%へと大きく改善したのだ。一方で、商用LLMのコンテンツフィルターによる処理拒絶や、定型的でない番組への適用、要約の質的評価などが今後の課題として明示されているのだ。

め

四国めたん

2つの不完全なソースを組み合わせて、それぞれ単独より良い結果を引き出す―というアイデアが、ちゃんと数字に結びついているのが印象的だったわ。これからの放送アーカイブの世界がどう変わっていくのか、楽しみね。

8. エンディング

ず

ずんだもん

というわけで、今回は放送のテキスト化と要約に取り組んだ論文を紹介したのだ。

め

四国めたん

チャンネル登録、高評価、コメントよろしくお願いしますね。気になった点や、解説してほしい論文があれば、ぜひコメント欄で教えてくださいな。

ず

ずんだもん

今回の出典は、阿達藍留・塚越柚季・大向一輝「地上デジタル放送における音声と字幕データを活用した放送内容のテキスト化と要約手法の検討」、情報処理学会研究報告、2025年なのだ。気になった人はぜひ原典に当たってほしいのだ。

め

四国めたん

それでは、また次回お会いしましょう。

ず

ずんだもん

ばいばいなのだ。

JSON台本

{
  "renderJson": {
    "chapters": [
      {
        "id": "chapter1",
        "title": "オープニング",
        "messages": [
          {
            "id": "c1m1",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ねえ、ずんだもん。最近テレビを録画して、あとで見返すことが増えたのだけれど、内容を文字で素早く確認できたらいいのに、って思うことがあるのよね。"
          },
          {
            "id": "c1m2",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "わかるのだ。映像って情報量は多いけれど、検索したり要点だけ拾ったりするには向いていないのだ。今日はまさにそういう問題に取り組んだ論文を紹介するのだ。"
          },
          {
            "id": "c1m3",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "あら、面白そう。どんな論文なの?"
          },
          {
            "id": "c1m4",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "「地上デジタル放送における音声と字幕データを活用した放送内容のテキスト化と要約手法の検討」という論文なのだ。情報処理学会の研究報告として2025年に発表されたものなのだ。"
          },
          {
            "id": "c1m5",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "地上デジタル放送…つまり、ふだん私たちが家で見ているテレビね。"
          },
          {
            "id": "c1m6",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。地デジの録画から、AIによる音声認識と、放送局が付けている字幕データの両方を使って、放送内容を正確にテキスト化して、さらに要約まで作ろう、という研究なのだ。"
          },
          {
            "id": "c1m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "【タイトルコール】「テレビ放送を“読める”資料に変える―AI音声認識と字幕をLLMで統合する」"
          }
        ]
      },
      {
        "id": "chapter2",
        "title": "論文の問いと背景",
        "messages": [
          {
            "id": "c2m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "まず背景なのだけれど、テレビ放送って実は歴史的にも文化的にもすごく重要な記録なのだ。映像と音声と文字が重なった、情報密度の高いメディアなのだ。"
          },
          {
            "id": "c2m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "そうね。あとから見返したい貴重な記録もたくさんあるはずだわ。"
          },
          {
            "id": "c2m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "でも、それを二次利用したり、デジタルアーカイブに収めたりするには、内容を説明する「メタデータ」を付けないといけないのだ。"
          },
          {
            "id": "c2m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "メタデータって、要は「この放送には何が映っているか」を示す説明書のようなものね。"
          },
          {
            "id": "c2m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "その通りなのだ。ところが、詳しいメタデータを作るのは今でも専業のオペレーターによる手作業に頼っていて、コストも手間もかかるのが大きな課題になっているのだ。"
          },
          {
            "id": "c2m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なるほど。それを自動化できれば、アーカイブの世界はずいぶん変わりそうね。"
          },
          {
            "id": "c2m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。そこで論文が注目したのが、地デジ放送に既に付いている2種類のテキスト情報なのだ。一つは「字幕データ」、もう一つは「AI音声認識による書き起こし」なのだ。"
          },
          {
            "id": "c2m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "字幕は、聴覚に障害のある方や、音を出せない場面で見る人のために付いているものよね。"
          },
          {
            "id": "c2m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。日本の地デジでは、聴覚障害者向けや、音声を聴取できない環境向けに、字幕データが広く付与されているのだ。"
          },
          {
            "id": "c2m10",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ふむふむ。じゃあ字幕データをそのまま使えばいいじゃない、と素朴に思ってしまうのだけれど、何かまずいことがあるのかしら。"
          },
          {
            "id": "c2m11",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "いい質問なのだ。論文によれば、字幕データには3つの制約があるのだ。第一に、生放送ではオペレーターが逐次入力するので、実際の音声に対して4〜5秒の遅延が出るのだ。第二に、画面に焼き込まれたテロップとぶつからないようにしたり、CM前にデータが切れたり、送出枠の制限で情報が省かれたりするのだ。"
          },
          {
            "id": "c2m12",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "時間に追われている分、どうしても削られる部分が出てくるのね。"
          },
          {
            "id": "c2m13",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。第三に、読みやすさのために口語表現が整形・要約されるので、助詞や微妙なニュアンスまで含めた逐語再現には向かないのだ。"
          },
          {
            "id": "c2m14",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ずいぶん制約があるのね…。じゃあ、もう一方のAI音声認識のほうはどうなのかしら。"
          },
          {
            "id": "c2m15",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "こちらは近年大きく進歩していて、特にOpenAI社のWhisperのような大規模モデルの登場で、放送音声からの高精度な書き起こしが可能になってきたのだ。"
          },
          {
            "id": "c2m16",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "名前は聞いたことがあるわ。何が得意なの?"
          },
          {
            "id": "c2m17",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "発話のタイミングと同期したタイムスタンプを付けられること、それから字幕で省略されがちな部分まで、逐語的に拾えるのが強みなのだ。"
          },
          {
            "id": "c2m18",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "じゃあAI音声認識だけでいいのでは?"
          },
          {
            "id": "c2m19",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ところが弱点もあるのだ。放送特有の専門用語や固有名詞で同音異義語の誤変換が起きたり、「ハルシネーション」と呼ばれる現象で関係ない文字列を出してしまうことがあるのだ。"
          },
          {
            "id": "c2m20",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ハルシネーションって、AIが「幻」を見るような現象のことよね。"
          },
          {
            "id": "c2m21",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。論文では具体例として、放送終了時の決まり文句「ご視聴ありがとうございました」が勝手に何度も挿入されてしまうケースが紹介されているのだ。これがノイズになって、データの信頼性を損ねるのだ。"
          },
          {
            "id": "c2m22",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なるほど…。それぞれ得意・不得意があるのね。それで、この論文はどうしようとしているの?"
          },
          {
            "id": "c2m23",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ここがこの論文のポイントなのだ。論文では、字幕とAI音声認識を「相補的な特性を持つ2つのテキストソース」と捉えているのだ。つまり、字幕は正確だけれど省略があって、AI音声認識は網羅的だけれど誤変換がある。だったら、両者をLLM、つまり大規模言語モデルで統合・補正すれば、お互いの弱点を打ち消し合えるのではないか、というのが本研究のアイデアなのだ。"
          },
          {
            "id": "c2m24",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ちなみに、似たような研究は今までになかったの?"
          },
          {
            "id": "c2m25",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "関連研究もしっかり整理されているのだ。たとえば字幕テキストを使ったメディア分析として、地デジ字幕から放送局ごとの税制報道の姿勢を定量分析した研究や、国立情報学研究所、略してNIIのテレビ放送アーカイブ「NII TV-RECS」を使ったコロナ報道の解析などがあるのだ。"
          },
          {
            "id": "c2m26",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "字幕を社会調査に使う流れがあるのね。"
          },
          {
            "id": "c2m27",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "それから技術的な方面では、BARTという言語モデルで音声認識の誤りを訂正する研究や、テレビ録画の音声と字幕の対応をとって大規模な日本語音声コーパスを作る研究もあるのだ。"
          },
          {
            "id": "c2m28",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ずいぶん蓄積があるのね。じゃあ、この論文は何が新しいの?"
          },
          {
            "id": "c2m29",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文自身の言葉を借りると、「正確性に長ける字幕データ」と「網羅性に優れるAI音声認識」という性質の異なる二つのソースを、大規模言語モデルで高度に統合し、内容の要約まで一貫して行う、という点に更なる検討の余地があるとされていて、そこを埋めるのが本研究なのだ。"
          }
        ]
      },
      {
        "id": "chapter3",
        "title": "手法・アプローチ",
        "messages": [
          {
            "id": "c3m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ここから具体的な手法の話なのだ。"
          },
          {
            "id": "c3m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "お願いするわ。まず、何のテレビ番組を対象にしたのかしら?"
          },
          {
            "id": "c3m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "NHK総合テレビが関東地方向けに放送している「首都圏ニュース845」なのだ。平日の20時45分から21時までの15分番組で、前半約10分がニュース、後半約5分が気象情報という構成なのだ。"
          },
          {
            "id": "c3m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ニュース番組ね。なぜニュースを選んだのかしら。"
          },
          {
            "id": "c3m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文では明示されていないけれど、生字幕放送が実施されていて、毎日ほぼ同じ構成で繰り返される番組は、評価実験の対象として扱いやすいのだ。なお、後半の気象情報で天気図が出る場面の一部には字幕が付いていない、という注釈もあるのだ。"
          },
          {
            "id": "c3m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "期間はどれくらい?"
          },
          {
            "id": "c3m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "2025年11月4日から12月26日までで、土日祝日を除いて38放送回分を抽出したのだ。"
          },
          {
            "id": "c3m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "データの取り出し方は?"
          },
          {
            "id": "c3m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "まず録画はMPEG-2 TSという形式で保存されるのだ。地デジの放送波そのものに近い形式なのだ。そこから字幕情報を、Pythonスクリプトの「assdumper」というツールで抽出するのだ。"
          },
          {
            "id": "c3m10",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "あら、字幕って放送波の中に最初から入っているのね。"
          },
          {
            "id": "c3m11",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。並行してTSファイルからFFmpegという定番のツールで音声をWAV形式で取り出して、それを「faster-whisper」というライブラリのlarge-v3モデルで音声認識するのだ。"
          },
          {
            "id": "c3m12",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "そのfaster-whisperというのは、さっき話に出たWhisperと関係あるのかしら?"
          },
          {
            "id": "c3m13",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "鋭いのだ。OpenAI社のWhisperを、CTranslate2という高速推論エンジンで再実装したものなのだ。同じ精度でより速く動かせるのが特徴なのだ。large-v3はWhisperの中でも大規模で高精度なモデルで、2025年時点でも日本語の音声認識では最有力の選択肢の一つとして評価されているのだ。"
          },
          {
            "id": "c3m14",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "両方とも実績のあるツールを組み合わせている、ということね。"
          },
          {
            "id": "c3m15",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そして肝心の統合・要約の部分は、Microsoft Foundryから提供されるOpenAI社のLLM「gpt-5.2-chat」を使うのだ。論文では2025年12月11日版を使っているのだ。"
          },
          {
            "id": "c3m16",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "LLMに勝手なフォーマットで答えられると後の処理が大変そうね。"
          },
          {
            "id": "c3m17",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そこで論文では、OpenAI APIの「Structured Outputs」という機能を使って、厳密に定義したJSON形式で出力を強制しているのだ。処理は2段階のパイプラインで構成されているのだ。"
          },
          {
            "id": "c3m18",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "2段階。順番に教えてもらえる?"
          },
          {
            "id": "c3m19",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "まず第1段階が「データ統合・補正」なのだ。AIの書き起こし文を“ベース”にして、字幕データを“辞書”として参照させるのだ。"
          },
          {
            "id": "c3m20",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "辞書、って具体的にどういう意味?"
          },
          {
            "id": "c3m21",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "固有名詞や漢字表記の正解リファレンスとして使う、という意味なのだ。たとえば書き起こしで地名が同音異義語で誤変換されていたら、字幕にある正しい表記を参照して直す、というイメージなのだ。一方で、書き起こしの内容そのものは“一言一句漏らさず保持する”のが鉄則とされているのだ。"
          },
          {
            "id": "c3m22",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "あら、字幕に揃えるのではなくて、書き起こし側を主にするのね。"
          },
          {
            "id": "c3m23",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そこが重要なのだ。字幕は要約されていることが多いから、字幕にないからといって書き起こしから削ってしまうと「データの毀損」になる、と論文中のシステムプロンプトでも明示されているのだ。"
          },
          {
            "id": "c3m24",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なるほど、修正するのは“誤変換だけ”、と割り切っているのね。"
          },
          {
            "id": "c3m25",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。さらにIDや開始時刻、終了時刻といったメタデータは一文字も変更しないこと、暴力や災害など不適切に見える表現も「放送された通りの記録」として残すこと、というルールも組み込まれているのだ。"
          },
          {
            "id": "c3m26",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "歴史的記録としての扱いを意識しているのね。"
          },
          {
            "id": "c3m27",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "APIへは書き起こし結果を20件ずつ入力して、その都度字幕データの全文を参照させる形で処理するのだ。出力は、各発話のID、開始時刻、終了時刻、修正済みテキストを含むJSON配列なのだ。"
          },
          {
            "id": "c3m28",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "そして第2段階は?"
          },
          {
            "id": "c3m29",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "「トピック分割・要約生成」なのだ。第1段階で修正したテキストを入力にして、話題ごとのセグメンテーション、内容の要約、キーワード抽出、それぞれのトピックの開始・終了時刻の特定を行うのだ。"
          },
          {
            "id": "c3m30",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ニュースって「次のニュースです」のように切り替わっていくものね。"
          },
          {
            "id": "c3m31",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "まさにそこを自動で見つけるのだ。プロンプトでは「ニュース編集デスク」という役を与えて、話題が変わるタイミングで分割すること、各トピックに5〜10個のキーワードを付けること、要約は「だ・である調」で書くこと、などを指示しているのだ。"
          },
          {
            "id": "c3m32",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "細かいわね。一つ気になるのだけれど、トピックの「終了時刻」って、はっきりしないものじゃないかしら。"
          },
          {
            "id": "c3m33",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "めたん、いいところに気づくのだ。実際、LLMがトピックの終了時刻を正しく抽出できなかったので、論文では“次のトピックの開始時刻”を“前のトピックの終了時刻”とみなす、という工夫で対応しているのだ。"
          },
          {
            "id": "c3m34",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なるほど、現実的な逃げ道を用意しているのね。"
          },
          {
            "id": "c3m35",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "あと、プロンプトに「テキストの最初には番組やサービスの宣伝が入ることがある」と書かれているのは、録画データの冒頭に前の番組の末尾が混じることがあるからなのだ。"
          },
          {
            "id": "c3m36",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ああ、録画あるあるね。"
          },
          {
            "id": "c3m37",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "それから、ここは実運用上の重要な話なのだけれど、第1段階・第2段階を3回ずつ、合計5放送回分のデータについて、LLMやMicrosoft FoundryのAPIから「コンテンツフィルターに抵触するため処理できない」というエラーが返ってきたのだ。"
          },
          {
            "id": "c3m38",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "あら…どんな放送回だったの?"
          },
          {
            "id": "c3m39",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "いずれも性犯罪に関する報道を含む回で、それが原因で処理が中断されたと推測されている、と論文に明記されているのだ。これらの回は分析から除外されて、最終的に33放送回分が実験対象になったのだ。"
          },
          {
            "id": "c3m40",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "報道は事実をそのまま伝える性質を持つ一方で、AIサービスの安全規制とぶつかってしまうことがある、ということね。"
          },
          {
            "id": "c3m41",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。これは後の章でもう一度出てくる重要な論点なのだ。"
          }
        ]
      },
      {
        "id": "chapter4",
        "title": "結果・知見",
        "messages": [
          {
            "id": "c4m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ここから結果なのだ。まず処理時間の感覚を共有しておくのだ。"
          },
          {
            "id": "c4m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "お願い。"
          },
          {
            "id": "c4m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "faster-whisperによるAI音声認識は、15分の放送に対して平均約34秒で終わるのだ。gpt-5.2-chatでのテキスト修正は放送1回あたり平均約2分、要約は平均約20秒なのだ。"
          },
          {
            "id": "c4m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ずいぶん速いのね。15分の番組をだいたい3分弱で全部処理できるイメージかしら。"
          },
          {
            "id": "c4m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ざっくりとはそうなのだ。続いて、論文に出てくる出力例なのだ。第1段階の修正後テキストはこんな感じなのだ。発話ID、開始時刻、終了時刻、修正済みテキストの組がJSONで並んでいるのだ。たとえば、「こんばんは。首都圏ニュース845です。今年8月、東京八王子市で実証実験中の自動運転バスが街路樹にぶつかった事故で」、続いて「自動運転のシステムが事故の直前、誤った位置情報を読み込んでいたことが都の調査で分かりました。」といった発話ごとの単位なのだ。"
          },
          {
            "id": "c4m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "時間情報が残っているから、映像とぴったり同期できるのね。"
          },
          {
            "id": "c4m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そして第2段階の要約結果がこちらなのだ。同じ放送回のトピックの一つとして、「自動運転バスが街路樹に衝突 誤った位置情報が原因」というタイトルが付けられているのだ。要約文では、東京・八王子市で実証実験中の自動運転バスが街路樹に衝突し乗客3人が軽いけがをしたこと、事故直前にシステムが誤った位置情報を読み込んでいたこと、東京都が同種の実証実験を中断して不具合を確認のうえ再開する方針であることなどが、だ・である調で記述されているのだ。"
          },
          {
            "id": "c4m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "事実関係がきれいに整理されているわね。"
          },
          {
            "id": "c4m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "キーワードとしては、自動運転バス、八王子市、実証実験、街路樹衝突、位置情報、東京都、事故原因、実験中断などが並んでいるのだ。"
          },
          {
            "id": "c4m10",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "このキーワードがあれば、後で検索するときにすごく便利そうね。"
          },
          {
            "id": "c4m11",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。さて、ここからが定量評価のお話なのだ。論文では33放送回からランダムに選んだ5回分について、テキスト品質を2つの指標で評価しているのだ。"
          },
          {
            "id": "c4m12",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "2つの指標、というと?"
          },
          {
            "id": "c4m13",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "1つ目が、文字誤り率「CER」、Character Error Rateなのだ。2つ目が、固有名詞の再現率「Recall」なのだ。"
          },
          {
            "id": "c4m14",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "CERから教えてもらえる?"
          },
          {
            "id": "c4m15",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "CERは音声認識やOCRの精度評価でよく使われる指標で、対象テキストと正解テキストとの間の編集距離を、正解の総文字数で割った値なのだ。"
          },
          {
            "id": "c4m16",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "編集距離、というのは?"
          },
          {
            "id": "c4m17",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ある文字列を別の文字列に変えるのに必要な、置換・削除・挿入の最小回数のことなのだ。論文ではLevenshtein距離を使っているのだ。CERが低いほど正確、ということなのだ。"
          },
          {
            "id": "c4m18",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ふむふむ。それで、結果はどうだったの?"
          },
          {
            "id": "c4m19",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "表1に示されているのだけれど、AI音声認識単独の平均CERが11.17%、字幕データ単独の平均CERが18.31%だったのに対し、提案手法で統合したテキストの平均CERは6.47%まで下がっているのだ。"
          },
          {
            "id": "c4m20",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "あら、字幕より音声認識のほうが正確だった、というのが意外だわ。"
          },
          {
            "id": "c4m21",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ここがポイントなのだ。字幕は固有名詞や漢字は正しいけれど、口語が整形されたり情報が省かれたりするので、放送音声を「逐語的に再現するテキスト」として比べると、CERは高めに出る傾向があるのだ。"
          },
          {
            "id": "c4m22",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "なるほど。CERは“どれだけ忠実に書き起こせているか”を見る指標だから、要約された字幕は不利になるのね。"
          },
          {
            "id": "c4m23",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。そして統合テキストは、AI音声認識の網羅性を保ちつつ、字幕を辞書として誤変換を直したことで、両者よりも大幅に低い文字誤り率を達成しているのだ。"
          },
          {
            "id": "c4m24",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "2つ目の指標、固有名詞再現率はどうだったのかしら?"
          },
          {
            "id": "c4m25",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "こちらはアーカイブの検索性に直結する重要な指標なのだ。正解テキストに含まれる人名・地名・組織名などの固有表現を、対象テキストがどれだけ漏れなく拾えているかを見るのだ。"
          },
          {
            "id": "c4m26",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "具体的にはどう測ったの?"
          },
          {
            "id": "c4m27",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "正解テキストと対象テキストの両方から、自然言語処理ライブラリのspaCy(スパイシー)と、その日本語モデルであるja_ginza(ジャ・ギンザ)を使って固有表現を抽出しているのだ。"
          },
          {
            "id": "c4m28",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "spaCyとGiNZAって、どんなものなの?"
          },
          {
            "id": "c4m29",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "spaCyは多言語対応の自然言語処理ライブラリで、固有表現抽出や品詞タグ付けなどを統合的に扱えるのだ。GiNZAはspaCyをフレームワークとして使う、メガゴンラボと国立国語研究所が開発した日本語向けのライブラリなのだ。日本語の固有表現抽出ではよく使われる組み合わせなのだ。"
          },
          {
            "id": "c4m30",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ありがとう。それで、ラベルはどう絞ったの?"
          },
          {
            "id": "c4m31",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "Facility(施設)、GPE(地政学的実体)、Org(組織)、Person(人物)の4つのいずれかに該当する固有表現を抽出して、正解と提案手法で重なる割合をRecallとして計算しているのだ。"
          },
          {
            "id": "c4m32",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "で、結果は?"
          },
          {
            "id": "c4m33",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "表2によると、AI音声認識単独では平均再現率が47.61%だったのに対し、統合テキストでは94.83%に向上しているのだ。"
          },
          {
            "id": "c4m34",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "ほぼ倍ね…!"
          },
          {
            "id": "c4m35",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "特に効いているのは、字幕を「固有名詞の正解リファレンス」として使った点なのだ。これによって誤変換や聞き取りミスが大幅に減って、検索のキーになる人名・地名・組織名がしっかり残るようになったのだ。"
          },
          {
            "id": "c4m36",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "アーカイブで「あのニュースをもう一度見たい」と探すとき、人名や地名で検索する人は多いだろうから、現実的な意味でも大きい改善ね。"
          }
        ]
      },
      {
        "id": "chapter5",
        "title": "考察・意義",
        "messages": [
          {
            "id": "c5m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ここまでの結果から、論文がどんな意義を主張しているか整理するのだ。"
          },
          {
            "id": "c5m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "お願い。"
          },
          {
            "id": "c5m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "まず、「正確だけれど省略のある字幕」と「網羅的だけれど誤変換のあるAI音声認識」を、LLMで統合するという発想自体が、放送のテキスト化において有効に機能することを、定量的に示した点なのだ。"
          },
          {
            "id": "c5m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "2つの弱点を、お互いの強みで埋め合わせる構図が、数字でちゃんと裏付けられたわけね。"
          },
          {
            "id": "c5m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。さらに、修正済みテキストからトピック分割・要約・キーワード抽出までを一貫して行うことで、放送内容の効率的な分析だけでなく、デジタルアーカイブにおける映像資料のメタデータ拡充や検索性の向上に寄与することが期待される、と論文は述べているのだ。"
          },
          {
            "id": "c5m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "さきほどの「メタデータ作成は手作業でコストが高い」という最初の問題意識に、ちゃんと戻ってくる流れね。"
          },
          {
            "id": "c5m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ここで、解説者であるぼくからの補足なのだけれど、論文に直接書かれているわけではないものの、こういうワークフローは放送局のアーカイブだけでなく、研究者が放送資料を分析する場面でも応用が利きやすいと考えられるのだ。"
          },
          {
            "id": "c5m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "たとえば、社会学の研究で長期間の報道を分析するような場合ね。"
          },
          {
            "id": "c5m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そういうケースでは、文字に起こすこと自体が大きなコストになっていたので、こうした自動化手法は大きな助けになりうるのだ。ただし、これはあくまで補足で、論文自身は具体的な応用先を限定的にしか述べていないのだ。"
          }
        ]
      },
      {
        "id": "chapter6",
        "title": "限界と今後の展望",
        "messages": [
          {
            "id": "c6m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文では、課題と展望もかなり率直に書かれているのだ。3つあるのだ。"
          },
          {
            "id": "c6m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "1つ目は?"
          },
          {
            "id": "c6m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "商用LLMに付随する安全規制上の制約なのだ。先ほども触れた通り、性犯罪に関する機微な内容を含むニュースが、コンテンツフィルターに引っかかって処理を拒絶される事例が起きたのだ。"
          },
          {
            "id": "c6m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "報道は本来、社会の出来事をそのまま記録する役割を持つから、画一的なフィルタリングと相性が悪いのね。"
          },
          {
            "id": "c6m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文も、広範な社会事象を扱う報道コンテンツのアーカイブ化において、商用サービスの画一的なフィルタリング基準は大きな障壁になり得る、と指摘しているのだ。今後はフィルタリングを柔軟に調整できるローカルLLMや、報道の公共性に配慮した特化型モデルの検討が不可欠だ、と述べているのだ。"
          },
          {
            "id": "c6m6",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "2つ目は?"
          },
          {
            "id": "c6m7",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "対象コンテンツの拡張なのだ。今回の対象は、放送時間も構成も決まっているニュース番組だったのだ。"
          },
          {
            "id": "c6m8",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "特番やバラエティ番組はどうなのかしら?"
          },
          {
            "id": "c6m9",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "長時間の特番や非定型な構成の番組では、計算リソースやLLMのコンテキストウィンドウの制限が課題になるのだ。"
          },
          {
            "id": "c6m10",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "コンテキストウィンドウって、LLMが一度に扱えるテキストの長さのことよね。"
          },
          {
            "id": "c6m11",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "その通りなのだ。それから、バラエティ番組のように複数人が同時に話したり、BGMや効果音が重なる環境では、音声認識の精度が大きく落ちる懸念があるのだ。話者分離技術の高度化や、背景音に頑健なモデルの導入が必要、と論文は述べているのだ。"
          },
          {
            "id": "c6m12",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "それから、画面の中の文字情報は使えないのかしら?"
          },
          {
            "id": "c6m13",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "論文でも触れられていて、今後は音声と字幕に加えて、映像内のテロップ、いわゆる焼き込み文字をOCRで抽出して統合するマルチモーダルな解析を入れることで、さらに精度を高められるだろう、と展望されているのだ。"
          },
          {
            "id": "c6m14",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "3つ目は?"
          },
          {
            "id": "c6m15",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "評価手法そのものの改善なのだ。今回は文字の再現精度を中心に評価していて、自動生成された要約や話題分割が、ニュースとしての要点をどれだけ正確に射抜いているか、という質的な評価や、情報の圧縮率や網羅性の量的指標は十分でない、と論文自身が認めているのだ。"
          },
          {
            "id": "c6m16",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "要約が「正しい言葉で書かれているか」と「ニュースの肝を捉えているか」は、別の話だものね。"
          },
          {
            "id": "c6m17",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "そうなのだ。今後は、人間による要約との比較評価や、実際のアーカイブ検索での利便性向上を、定量的・多角的に検証していく必要がある、とまとめられているのだ。"
          },
          {
            "id": "c6m18",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "将来的な広がりはどう?"
          },
          {
            "id": "c6m19",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "最終的には、テレビ放送の枠を超えて、近年急速に増えている映像主体のデジタルアーカイブ全般のメタデータ作成支援への応用を目指したい、と述べられているのだ。放送・音声・映像の各情報を相補的に統合する手法を汎用化することで、文化資源の効率的な活用と、情報のアクセシビリティ向上に寄与することが期待される、というのが論文の締めくくり方なのだ。"
          },
          {
            "id": "c6m20",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "最初の問題意識から、最後の展望まできれいにつながっているのね。"
          }
        ]
      },
      {
        "id": "chapter7",
        "title": "まとめ",
        "messages": [
          {
            "id": "c7m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "最後に要点をまとめるのだ。論文は、地デジ放送の「字幕」と「AI音声認識」という相補的な2つのテキストを、大規模言語モデルで統合・補正する手法を提案したのだ。"
          },
          {
            "id": "c7m2",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "対象はNHK「首都圏ニュース845」の33放送回分。faster-whisper large-v3とgpt-5.2-chatを組み合わせた2段階のパイプラインを構築したのだ。第1段階で誤変換を字幕で直しつつ、書き起こしの内容は完全保持。第2段階でトピック分割と要約、キーワード抽出を行ったのだ。"
          },
          {
            "id": "c7m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "評価では、平均文字誤り率がAI単独の11.17%、字幕単独の18.31%から、統合後は6.47%まで低下。固有名詞再現率は47.61%から94.83%へと大きく改善したのだ。一方で、商用LLMのコンテンツフィルターによる処理拒絶や、定型的でない番組への適用、要約の質的評価などが今後の課題として明示されているのだ。"
          },
          {
            "id": "c7m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "2つの不完全なソースを組み合わせて、それぞれ単独より良い結果を引き出す―というアイデアが、ちゃんと数字に結びついているのが印象的だったわ。これからの放送アーカイブの世界がどう変わっていくのか、楽しみね。"
          }
        ]
      },
      {
        "id": "chapter8",
        "title": "エンディング",
        "messages": [
          {
            "id": "c8m1",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "というわけで、今回は放送のテキスト化と要約に取り組んだ論文を紹介したのだ。"
          },
          {
            "id": "c8m2",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "チャンネル登録、高評価、コメントよろしくお願いしますね。気になった点や、解説してほしい論文があれば、ぜひコメント欄で教えてくださいな。"
          },
          {
            "id": "c8m3",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "今回の出典は、阿達藍留・塚越柚季・大向一輝「地上デジタル放送における音声と字幕データを活用した放送内容のテキスト化と要約手法の検討」、情報処理学会研究報告、2025年なのだ。気になった人はぜひ原典に当たってほしいのだ。"
          },
          {
            "id": "c8m4",
            "speaker": "metan",
            "speakerLabel": "四国めたん",
            "text": "それでは、また次回お会いしましょう。"
          },
          {
            "id": "c8m5",
            "speaker": "zundamon",
            "speakerLabel": "ずんだもん",
            "text": "ばいばいなのだ。"
          }
        ]
      }
    ]
  }
}

地上デジタル放送に​おける​音声と​字幕データを​活用した​放送内容の​テキスト化と​要約手法の​検討

1. オープニング

2. 論文の​問いと​背景

3. 手法・アプローチ

4. 結果​・知見

5. 考察・意義

6. 限界と​今後の​展望

7. まとめ

8. エンディング

地上デジタル放送における音声と字幕データを活用した放送内容のテキスト化と要約手法の検討

2. 論文の問いと背景

4. 結果・知見

6. 限界と今後の展望