先生の写真2万枚で機械学習 カメラの「自動追尾システム」は、映像制作の省人化を実現するか

パナソニック社員を招いて、ソリューションについて聞いてみる連載コラム。今回のテーマは、「自動追尾ソフトウェア」です。

教育分野へのICT導入が進むなか、講義をネット配信する大学や予備校も増えてきています。リアルタイム配信や映像コンテンツ化によって、遠隔地に住む受講者にも教育の機会が与えられるほか、スマホでの視聴など多様な受講スタイルも可能になりました。

ただ、講義を撮影するには人手が必要です。登壇者のしぐさや表情も映像に収めるには、その動きに合わせてカメラを操作する必要があります。「リモートカメラ」によって離れた場所からも操作は可能ですが、なるべくなら省人化したいというニーズがありました。

現場からの声を受け、2016年に商品化されたのが「自動追尾システム」です。バージョンアップを重ね、2019年にはディープラーニングによって登壇者の動きを正確にとらえ、追尾が可能になりました。

「自動追尾システム」はどのように人物を認識しているのでしょうか。また、今後どのような展開が見込まれるのでしょうか。メディアエンターテインメント事業部 テクノロジーセンターの櫻井康二に話を聞きました。

(聞き手:井上マサキ)

写真:担当者

櫻井 康二

メディアエンターテインメント事業部 テクノロジーセンター ソフト設計部 ソフト設計5課
1993年入社。カメラやレコーダー等の放送機器のソフトウェア開発を経て、2015年より自動追尾ソフトウェアに携わる。

「どうして、カメラの操作を自動化させる必要があるんですか?」

今日はよろしくお願いします。今回の「自動追尾システム」はカメラが人を追いかける……と聞いたのですが、ちょっとわからないことがあって……。

なんでしょう?

このシステムは、大学の講義や企業のセミナーなどで使われるんですよね? 登壇者を撮影して、リアルタイム配信をしたり、映像コンテンツとして残したりするために。

そうですね。最近そうしたニーズが増えてきたんです。ただ、登壇者によっては室内を自由に動き回ります。こうした映像は、やはり登壇者の姿や表情も見たいものですから……。

そのため、カメラは被写体を追いかけないといけないと。これまでは人がカメラを操作して追いかけていたわけですよね。

はい。パナソニックには「リモートカメラ」という製品がありまして、離れた場所からリモートコントローラーやアプリケーションを通じてカメラを操作することができます。自動追尾システムは、これまで人が操作していた部分を自動化して、登壇者の動きに追従するようリモートカメラが動くようになるものです。

そこなんですが、カメラを操作して先生の動きを追うのってそんなに大変なものなんでしょうか。素早く動くわけでもないし、特別なスキルもいらないでしょう。自動化させるほど負荷の大きな仕事じゃないような気がして……。

確かに専門技術が求められるわけでもないですし、1部屋だけならそうかもしれませんね。

どういうことでしょうか……?

最近だと、2019年に開催されたCiscoシステムズ社のイベント(Cisco Live!)では、催し物の撮影にパナソニックのリモートカメラと自動追尾ソフトウェアが使われました。幕張メッセほどの広さの会場を細かくブースに区切って、セミナーが行われたんです。

かなり大規模なイベントですね。ブースはどのくらいの数だったのでしょうか?

「Cisco Live!」の様子 (https://youtu.be/--LGi8ZT5WI

合計63箇所です。各部屋のセミナーを撮影するために、登壇者の動きを人力で追うことになったらどうでしょう?

……カメラを操作するのに63人必要ってことですか。

そうなんです。撮影のため、カメラの台数分だけオペレーターを配備しないといけない。CiscoLive!では、実際には、複数台のカメラを一人のオペレータで操作していたのですが、それって大変ですよね。

なるほど……。大学だってたくさん講義室がありますから、全部屋を同時に人力で操作するとなったら大変ですもんね。

自動追尾システムを導入する大きなメリットが「省人化」です。リモートカメラが登壇者の動きを追従して、その様子をライブ配信するなり、録画してクラウドにアップする。一連の流れを自動的にスムーズに行うのが、このシステムの狙いなんです。

2万枚の「先生コレクション」から、AIに人の形を学習させる

自動追尾が必要な理由はわかりました。では実際、どうやって登壇者の動きをとらえているんでしょうか?

ひとつは顔認証ですね。事前に登壇者の顔を登録しておけば、その顔が画面内に登場したときに認識して追いかけるようになります。登録していない顔や講義の最中であっても、画面内の顔をクリックすればその顔を追いかけるよう設定しなおすことも可能です。

パナソニックの顔認証については、以前「KPAS」や「FacePRO」の回でも認識率が非常に高いと聞きました。でも講義となると、先生が黒板に向かったらカメラに背を向けてしまいますよね。常に顔を追いかけるのは難しいのでは?

その通りです。顔が見えなくなることが多いので、顔認証だけでは追うことはできません。そこで登場するのが機械学習のひとつである「ディープラーニング」です。学校の先生の「形」を学習することで、背を向けていてもAIが「ここに学校の先生がいる」と認識できるようにしました。

今さらっと「学校の先生の形」とおっしゃいましたけど、いったい何をAIに見せたんでしょう……?

学校の先生の写真をひたすら見せて、形とその傾向をAIに覚えてもらうんです。約2万枚の写真を機械学習にかけました。実際には、画像処理で明るさなどを変更した画像を含めるとさらに量が増えますね。

ものすごい数の「学校の先生コレクション」ですね……。

かき集めましたね(笑)

しかし、それだけの数があると機械が先生の形を間違えて覚えてしまったりしないんですか? 手に指し棒を持っている写真を見て、某少年漫画のゴム人間みたいに「すごく手の長い人!」と認識してしまう、というように。

それは、アノテーションと呼ばれる手法で、それぞれの写真に「こういう写真だったらここを検出しなさい」という枠をつけるんです。指し棒を持っていても、手先までを人体として枠を作ります。こうして学校の先生を検出するネットワークを作り、姿勢や手の動きまで含め、いろんなアクションに対応することができました。

他に、検出精度を高めるためのどのような仕組みがあるのでしょう?

他には、時間あたりで映像から先生を検出する回数ですかね。最大で1秒間に20回、検出するようにしています。

0.05秒に1回! そこまで早く検出しないと捕らえられないくらい、素早く動く先生がいる……?

そういうわけではなくて。登壇者が画面から出たことに素早く気づくためです。リモートカメラは手動でズームイン・ズームアウトができるのですが、ズームインすると少しの動きでも先生が画面からはみ出してしまうことがあるんです。

なるほど! 「いない!」と分かったらどうするんですか?

オペレーター宛に警告を表示して、カメラはホームポジションに戻ります。また登壇者を見つけたら追尾しますし、オペレーターが手動で登壇者を指定することもできます。先ほどのCiscoLive!では、8台のカメラを1人で操作して、ズームイン・ズームアウトやトラブルの対応を行っていました。

▲ シスコシステムズ(英: Cisco Systems, Inc.)様 - 事例 - Panasonic
https://biz.panasonic.com/jp-ja/case-studies/cisco-systems

無人化とまではいかなくても、も63人用意するよりはるかに少ないですね。反響はいかがですか?

おかげさまでディープラーニングを採用してからは好評をいただくようになりました。でも実はここまで来るには、いろいろ歴史があったんです……。

その話、じっくり聞かせてください!

自動追尾のカメラが、教室の隅を写したまま動かない!

そもそも、自動追尾システムの開発に着手されたのはいつごろなんですか?

2015年くらいですね。大学から「自動追尾で、講義を自動で撮影したい」と、リモートカメラに関する要望があったんです。私は開発メンバーとしてプロトタイプ開発から携わりました。完成した試作品を抱えて、欧米の大学を10校くらい回り、非常に評判が良かったんですよ。そこで2016年に商品化したのですが……。

が……?

これが全く売れなかったんです。

そんな……! だって、プロトタイプは評判がよかったんですよね。当時からディープラーニングは使っていたんですか?

いえ、この時は「テンプレートマッチング」と呼ばれる方式でした。あらかじめ用意したフィルターで人の形を検出し、画像の変化を時系列で見ながら「次はどこに移動した」と、動きを追いかけます。

聞く限り、その方式でも問題なさそうですが……。

テンプレートマッチングでも先生の動きに追従できるのですが、特定の条件下、例えば、黒板の角などの全く関係ない部分を「人だ」と勘違いしてしまうと、ずっとそこをターゲットととらえてしまうんです。もしかしたら、人の肩と勘違いしているのかもしれないんですが、そうなるともうそこから抜け出せなくなってしまって。

なんでもないモノを人と勘違いしてるから、「この人、動かないな?」ってじっと見ちゃうってことですか。

そうなんです。販社のメンバーに各地域の大学を回ってもらったんですが、やはり「認識が外れてしまう」と。そこで2017年度に顔認証技術を採用しました。顔が映っているあいだは完璧だったんですが、結局顔が見えなくなると、また教室の隅から抜け出せず……。

顔以外の部分で「人」を検出しないといけない……。そこにディープラーニングの出番が来るわけですね。

2018年にAIやディープラーニングが注目されて、社内で先行開発している部隊に相談しました。顔認証で顔を、ディープラーニングで全身を検出することで、ようやく評価が上向いてきたんです。技術部門や販社メンバーなど各所と密に連携して、ここまで来ることが出来ました。

この先もさらに精度を高めていくのでしょうか。

そうですね。ディープラーニングを採用したあとも「顔が見えない状態で複数人が存在する」という状況だと、やはり検出が難しくなってしまうんです。

あぁ、「生徒全員が教壇に提出物を出しにくる」とかありますよね。

そうなると服装で区別するのか、でも似たような服装の人がいたらどうなるか、など考えないといけません。アクティブラーニングなど、通常と異なる形式の講義も難しいです。課題はまだ残っていますね。

逆に、そういう状況でもなぜ人間は区別ができるのか、改めて不思議に思えますね……。

飛行機、パンダ、テニス……新たな自動追尾の可能性

お客さまからの反響はいかがでしょうか?

一番要望されているのは、さらなる省人化ですね。今はスタートボタンを押して起動する必要があるのですが、これすら省きたい、登録した顔が入ってきたら勝手に追従して録画して、いなくなったら終わってほしいと。こちらは追って対応する予定です。

省人化が進んで、精度も上がっていけば、教育現場以外でも使えそうですね。

放送業界からも要望がありますね。「空港を離発着する飛行機を追尾したい」とか、「競馬や競艇の撮影で使えないか」とか、「動物園のパンダに追従できないか」とか。

人以外のものも追従できるんですか!?

先生の画像で学習したように、それぞれの場合について改めて機械学習をすれば大丈夫ですよ。

今度は2万枚のパンダコレクションが必要になるんですね。それだけでも見たいですが……。

他に、スポーツの需要もあります。サッカーなどの団体競技は別の仕組みが必要ですが、フェンシングや相撲、テニスなど1体1の競技なら検討の余地があると思います。

飛行機、ウマ、力士、パンダ……。学習さえすれば、なんでも追尾できちゃうじゃないですか。

ただ、途中でルールやシチュエーションが変わったら学習もやり直しです。先生がコンビで授業するようになったり、相撲が4人同時対戦になったりしたら……。

すぐには心配いらないと思いますが……。

そうそう、「アイドルのライブ撮影を省人化したい」という要望を受けて、秋葉原まで撮影に行ったこともありますよ。

地下アイドルまで! どうでしたか?

惨敗です(笑)。会場が暗いし、動きも複雑で、とても追従できませんでした……。大勢の中から「歌っている人」を抽出するのは難しいですが、「顔の近くにマイクを持ってきている人」を検出できたら、歌っている人をピックアップしてズームができると思うんです。

こうして聞いていると、自動追尾ができることで、教育や放送業界の新たなニーズを掘り起こしているとも言えますね。

「モノ売り」から「コト売り」へと、ビジネスがシフトしている結果でもあると思います。映像分野において、これまでパナソニックの商材は「撮る」と「映す」がメインだったんです。しかしその中心には「創る」がある。

自動追尾ソフトウェアは、まさにその「創る」の部分だと。

そうですね。リモートカメラという「モノ」と、自動追尾という「コト」を合わせて、「創る」により付加価値を持たせられるようなソリューションを提供できればと思います。

テンプレートマッチングからディープラーニングへと進化したわけですから、さらに進化と遂げればアイドルが歌って踊る様子だって認識できそうですね。

あのとき録画した映像は機械学習に使ってよいと言われたので、さっそく全てアノテーションにかけました。

技術者の意地を感じます……。

今は自動でカメラを動かすだけですが、さらなる省人化のため、自動で映像を切り替える「オートスイッチング」が必要になると思っているんです。他にも、アプリケーションを通すのではなく、カメラを設置するだけで同様の機能が使えるようにするなど、お客様により価値を提供するにはどうするべきかは、引き続き考えていきたいですね。