実は面倒な音声文字起こしを、AIによって解決。「P-VoT」は自動文字起こしから現場の働き方改革を目指す

パナソニック社員を招いて、ソリューションについて聞いてみる連載コラム。今回のテーマは、自動文字起こしサービス「P-VoT」です。

連日テレビで放送されているニュース番組。事件や事故、災害を伝えるニュースキャスターの裏には、現地で取材する記者やスタッフが奔走しています。そんな取材で得られた生の情報をニュース原稿に落とし込むためには、映像や音声から人の言葉を聞き取り、その内容を文章に直す「文字起こし」が欠かせません。

文字起こしにかかる時間は、「元の音声の3倍~5倍」ともいわれ、この作業は、ただでさえ忙しいスタッフの作業時間をさらに圧迫してしまいます。報道現場の速報性や正確性が求められる一方で、長時間労働の是正が課題となり、文字起こしを「早く」「正確に」終わらせたいというのは、報道関係者の強い願いなのではないでしょうか。

これに応えるサービスとして、2019年11月より正式にサービスインしたのがパナソニックの「P-VoT」です。放送業界にて蓄積された音声認識のノウハウを活用し、クラウドを活用した自動文字起こしサービスを提供しています。

「P-VoT」は、どのようにして現場の課題を解決しているのでしょうか。また、音声認識技術によってどんなソリューションが可能になるのでしょうか。パブリック事業本部 システム開発本部 サービスプラットフォーム部の勢志仁に話を聞きました。

(聞き手:井上マサキ)

写真:担当者

勢志 仁

パブリック事業本部 システム開発本部 サービスプラットフォーム部
1999年入社。研究開発部門と事業部門の両足でIPネットワークでの映像伝送の技術開発、設計を行う。その後、放送の新規事業の一環としてNTTグループ向けのIP放送・映像配信事業の立上げを推進。現在はパブリック事業本部のサービス事業への変革に向け、新規サービスの企画から開発、サービス訴求を行うとともに、推進体制づくり、サービスPF化を推進

日本語の音声認識が「100%」にならない理由

今日は「放送局向け文字起こしサービス」ということですが……。「文字起こし」については我々ライター業としても気になるトピックなんですよ。

いやあ、本当に大変な作業ですよね、文字起こしは。

取材した音声を聞いて文字に起こすのって、想像以上に時間と手間がかかるんですよね。音声を再生して、聞いて、再生を止めて、文字を打って、また聞いて、いま何て言ったっけ?といって音声を巻き戻して……。

これは、報道の現場でも同じことが起こっているんですよ。ニュースを作るときは、取材で得た情報をもとに実際に読む原稿を作るため、その音声を一度文字に起こすんです。この作業を音声認識で楽にしようと立ち上げたのが「P-VoT(ピーボット)」です。

最近はスマホの文字入力にも音声認識が使えますし、音声を勝手に文字にしてくれたら楽ですよね……。でも思った通りに認識されないことも、結構多いじゃないですか。

そもそも、日本語の音声認識はとても難しいんですよ。AIの登場でだいぶ認識精度は向上しましたが、なかなか認識率100%とまではいかないんです。

日本語だと音声認識が難しい理由って、なにかあるんですか?

主語述語がない文章があることと、同音異義語が多いことですね。例えば「はしのはしにたつ」という音を聞いたとき、私たちは「橋の端に立つ」をスッとイメージできますよね。でも、それがAIには難しい。主語が無い文書で、前後の文脈を考えないといけませんから。

僕らは「箸の橋に竜」なんて言葉はあり得ないことがわかりますけど、AIは「0%ではないな……」と思っちゃう、ってことですよね。

それに、ギリギリ場所を表す「端の端に立つ」というとらえ方もあるので。人でさえ理解が違う場合もありますから……。

あと、一般の方は語尾まではっきり発音しないことが多いんです。英語は「Not」が文の前半で入りますが、日本語は最後までしっかり聞き取らないと、肯定なのか否定なのか分からないんですね。AIは、語尾をはっきり言ってもらわないと文脈を予測できない。最も、P-VoTは取材の音声を元にしているので、この問題は起きにくいのですが。

「現場から逃走した男は現在ゴニョゴニョ……」ってレポートしたら怒られますもんね。P-VoTは「放送局向け」ですから、元の音声もクリアに取れているでしょうし、音声認識の精度も高いんじゃないですか?

そうですね。例えば地震速報のような「定型」がある文章なら、ほぼ100%認識できます。この単語の次はこの単語、という予測がしやすいんですね。一般的な音声認識システムでは、こうした文書を作る上で必要な予測をまとめた「辞書」を持っていて、P-VoTの辞書は放送局向けに特化されています。P-VoTの辞書にはもうひとつ特徴があって……。

なんですか。「不可能」という文字が入ってないとか……。

いえいえ、ナポレオンではなく、放送禁止用語が入っていないんです。うっかり変換したら大変なことになりますから。あとは、放送局向けなので時事に合わせて辞書をアップデートするんです。前回のアップデートでは「令和」に対応しました。

確かに、それまでは「れいわ」って言っても「令和」にはならないですもんね……!

テキスト化の精度を見越し、あえて「間違いを前提」のシステムにする

では実際、「P-VoT」はどのように使えば音声を文字起こしできるのでしょうか?

取材先で撮影した映像や音声を、その場でパナソニックのクラウドサービスにアップロードすれば、すぐに文字起こしが始まります。専用ソフトは不要で、Webブラウザからファイルのアップロードが可能です。

ネットさえつながればすぐ使えるのはいいですね。文字起こしにはどれくらいの時間がかかるんですか。

元の収録時間の約半分なので、1時間の音声なら30分くらいですね。現場からファイルをアップロードすれば、局に戻るころには文字起こしが終わっています。

夢のようなシステムじゃないですか……! でも、テキスト化の精度は100%、というわけではないんですよね。システムが間違えてしまったときはどうするんですか?

大丈夫です。ここからは実際にご覧いただいたほうがいいですね。こちらが動画から文字起こしをした画面です。

(写真:「P-VoT」の編集画面)

ほぼ完璧に起こせていますが……。やっぱり間違っているところもありますね。

ここの画面で、間違えている部分の文字をクリックすると、文字起こしした音声の該当箇所のちょっと手前から、映像を見直すことができるんです。その場で音声を聞き直して、人の手で修正する、という感じですね。どうしても間違う部分はあるので、「間違うことを前提にした作り」にしています。

なるほど! 該当する箇所まで巻き戻すのって手間ですから、こうしてクリックするだけで聞き返せるのって便利ですね。他にも工夫されているところはありますか?

長時間にわたる映像の文字起こしを、チームで分担して確認・修正しやすくしています。P-VoTはクラウドを利用していますので、複数人が同時に編集することも可能なんです。ひとりが文字を修正すると、他のメンバーの画面にリアルタイムに反映されます。

分担して修正を行えるのは、クラウドの強みですよね。でもこういうのって、あとから修正した人のものが最後に残っちゃうんですよね。

そうならないよう、一定のブロックごとにユーザが編集をロックし、他のユーザが修正できないようにする機能も備えています。

至れり尽くせりですね……。

言葉を教えれば教えるほどAIが賢くなる……わけではない!

そういえば、そもそも音声認識のAI自体は、パナソニックさんが開発されたものなんですか?

AIはNHKから技術指導を受けて共同開発したものです。もともとパナソニックは、音声認識を利用して生放送の字幕を作るシステムに携わってきたんです。そのノウハウをP-VoTに活かしているんですよ。

そうなんですね! 「生放送の字幕」って、番組中に出るテロップのことですか?

いえいえ、地上デジタル放送になってから、リモコンの「字幕」ボタンで字幕が出るようになりましたよね。あの字幕です。生放送のニュースを音声認識でリアルタイムに字幕にしているんですよ。約1秒で音声を認識してテキスト化、それを人が4~5秒で確認と修正するので、だいたい7秒遅れで字幕が出ます。アナウンサーがひとりで話すだけなら、ほぼ修正がいらないレベルです。

あの字幕にそんな裏側があるとは……。いまテレビの字幕って全部音声認識で作られているんですか?

全部ではありませんね。いろんなやり方があります。特殊なキーボードでリアルタイムに字幕を打つ業者さんもいますよ。

自動で文字起こしをするシステムに、高速で打てる特殊なキーボード……。今日の取材はライターの僕がほしいものばかり出てきますね……。字幕のシステムはいつごろから開発されていたんですか。

共同開発が始まったのは20年ほど前ですが、当時はまだ認識精度が悪く、現場では使いものにならなかったんですよ。そこから少しずつ精度を向上させていって、AIの登場によって、ここ数年でさらに飛躍的に向上した印象があります。

どの時点で「これなら現場でも使える!」と判断されたんですか。

実戦に投入したのは10年ほど前だったと思います。あるとき、急な生放送で字幕を打つ業者さんが放送局に来ることができなくて、「じゃぁ音声認識でやってみよう」ということになったんです。そこで「意外といいね」と評価され、徐々に使われるようになりました。

なるほど……。急に出番が回ってきた主人公が活躍するという、少年漫画のような展開ですね。それだけ年月をかけて学習していけば、AIも賢くなりそうですね。どんどん言葉を教えてあげればいいわけですし。

いえ、言葉も一気にたくさん教えればいいわけじゃないんですよ。既存の辞書に新しい言葉を足すと、今まで認識できていた言葉ができなくなることがあるんです。

え? 「新しいことを覚えると、古い記憶がなくなる」みたいな感じですか? おとといの晩ご飯がなんだったか思い出せない、みたいな……。

そういうレベルの話ではなくてですね。

そうですよね。

例えば5月にアップデートした「令和」ですが、これまで「元号は○○」に入る言葉って「平成」が確率的にトップだったわけです。そこに「令和」が入ってきたので、「平成」が出る確率が変わってしまった。AIが「平成」なのか「令和」なのか、迷うようになったんです。

新しい言葉が入ると迷いが生じるんですね……! ということは、むやみやたらに言葉を教え込ませるのは必ずプラスになるとは限らない?

限らないですね。辞書を新しくするときは慎重に検証しています。ただ不思議なもので、逆に「なぜこれがうまく認識できたのかわからない」ということもあるんですよ。雑音がひどい音源から正確に認識できたり……。

「なんかやってみたらできたんですよね」って感じ、すごく人間っぽいですよね。

繊細だし、なにを考えているのかわからないし……。気むずかしいですよね(笑)

「地味でつまらない作業は、機械にやってもらったらいい」

こうしてお話を聞いていると、勢志さんご自身がすごく放送業界の現場に寄り添われていますよね。どうすれば現場が楽になるか、すごく考えてらっしゃって。

もともと私は放送業界に関わりたくてパナソニックに入社したんです。衛星中継が主流だった時代に、ネットワーク経由で大阪から東京まで甲子園の映像を流すなど、ずっと放送関連のプロジェクトに携わってきました。個人的に映像を編集することもあるんです。登山が趣味なので、その様子を撮影して編集したり。

なるほど。それで「なにが大変か」「どうすれば楽か」を理解されているんですね。

そうかもしれませんね。映像を編集しているうちは楽しいんですが、文字起こしって地味な作業だし、正直言ってつまらないんですよ(笑)。そういうことは機械にやらせたらいいんです。

まさしく、おっしゃる通りです……! 「P-VoT」は2019年6月からベータ版として無償で利用が可能でした。反響はいかがですか?

約80社に申し込みいただいて、うち7割ほどが報道関連、2割ほどが新聞や出版社でした。営業に同行してヒアリングをした際には「かなり楽になる」という意見もいただきましたね。メディア系以外だと、議事録を文字起こしして残したいというニーズもありました。

文字にしておくと、あとから検索するのも簡単になりますもんね。でも「P-VoT」は放送局に特化されていますから、難しかったりするんでしょうか……?

業界ごとに辞書を特化させれば、放送以外の分野でも精度を高めることができます。例えば鉄道やトラックで使われている無線もそうですね。音質が悪いので、音声認識にも少なからず影響するのですが、専門用語に特化した辞書を作ればより精度があがるはずです。

音声認識を入り口に、他のシステムと連携した使い方もできそうですね。

ひとつ考えているのは「ファイルベースシステム」ですね。ファイル管理を一元管理するもので、映像のアーカイブに使えるのではと考えています。放送局にはこれまで撮影された映像がたくさん保管されていますが、それらを探す手段はテープに貼られたラベルでしかなかったりするんですよ。映像を音声認識で文字おこしして、出演者の情報と合わせてデータ化すれば、活用の幅も広がるでしょう。

今まではラベルをひとつひとつ見て映像を探していたわけですから……。これもまた、ひとつの「働き方改革」ですね。

そうですね。2019年11月にリリースした正式版では、ベータ版でいただいた声を元に編集画面などを改良しています。制作現場に寄り添ったシステムとして、少しでも放送業界の働き方に貢献できたらと思います。

今日はありがとうございました。このインタビューの音声も、自動で文字起こしができればいいんですが……。

ぜひご相談ください(笑)