【機械記事翻訳】Amazon、Echoデバイスに搭載された新しいエッジAIチップで生体認証機能とプライバシーの向上を目指す

www.biometricupdate.com

 アマゾンの最新世代のEchoデバイスに搭載された新しいプロセッサは、Alexaアシスタントに魅力的な機能を与え、消費者に音声ベースのインタラクションをより自然に体験させると同社は述べています。また、新たな生体認証データの保存やプライバシーの問題を発生させずに新しい機能を提供するために、音の定位やコンピュータビジョンの科学的な研究も数多く行われており、バイスのエッジ処理が鍵を握っています。

 アマゾンが発表した2020年秋のデバイスとサービスの発表では、家庭内を飛び回るドローンや新しいオンラインゲームサービスが注目を集めました。しかし、同社の新しいEchoデバイスのデビューは、生体認証関連の開発という点で、より大きな意味を持っています。

 地球儀型のEchoと真新しいEcho Show 10の内部では、AZ1ニューラル・エッジ・プロセッサが、新しく更新された音声およびコンピュータ・ビジョン・アルゴリズムの実行を担当しています。

 Amazon Echoの副社長であるMiriam Daniel氏は製品発表イベントでこのように述べています。

「音声処理ではミリ秒単位(での反応)が重要です。例えば、アレクサに電気をつけるように頼んだときに、光が点くのが少し遅れることを想像してみてください。私たちのチームは、Alexaの応答時間を何百ミリ秒も短縮するために努力し、全く新しいAZ1ニューラル・エッジ・プロセッサを開発しました。このシリコンモジュールは、エッジ上で機械学習アルゴリズムを実行するために特別に作られたものです」

f:id:kikidiary:20201007014835p:plain

(The interior of the 4th Gen Echo. Source: Amazon)

 Alexaの副社長兼ヘッドサイエンティストであるRohit Prasad氏は、「Alexaの目標は、Alexaとのインタラクションを人間と話すのと同じように自然なものにすることです」と述べ、AIの進歩がAmazonをそのビジョンに近づけていることをさらに指摘しました。 現在の機能の中には、フィードバック検索アルゴリズムを利用して、ユーザーのフィードバック(「アレクサ、それは間違っている」)を受け止め、インタラクションを利用して間違いをアクションで修正するというものがあります。新たな機能としては、モバイルアプリやオンラインポータルを介してではなく、音声で直接Alexaアシスタントに教えて新しい機能を設定することができます。

 新しいEcho Show 10では、ビデオ通話中により自然なインタラクションを実現するために、ディスプレイとカメラの向きを変えて、部屋の中の現在のスピーカーに向けることができるようになっています。これは、誰かが話したりビデオを見たりしながら部屋の中を移動しているときに便利ですが、顔や声の形で生体情報や個人を特定できる情報を保存しないでこれを行うのはかなり難しいことがわかりました。

 「私たちは顔認識ではなく、人間がどのような姿をしているかを理解し、それを三角測量しています。この技術の素晴らしいところは、すべてローカルで実行されていることであり、何もクラウドを経由しません。すべてはニューラルプロセッサ上でローカルに実行され、デバイスから離れることはありません」

 

と彼は付け加えました。

f:id:kikidiary:20201007014921p:plain

(A visualization of the non-reversible process Echo 10 uses to convert images into a higher-level abstraction to support motion. Source: Amazon)

 AZ1プロセッサを斬新な方法で使用して、声の方向を理解し、カメラの調整をどこで、いつ、どのくらいの速さで行うかを決定しています。Amazon Scienceブログの投稿によると、Echo Show 10は、コンピュータビジョン(CV)を使った音源探査(SSL)を使って、視野内の物体や人間を識別し、どの音が人から聞こえているのか、どの音が壁に反射しているだけの音なのかを把握しているといいます。

 

アマゾンの新チップの詳細

 このチップはMediaTekと共同で設計された。MediaTekのMT8512はプロセッサのベースとなるもので、MediaTekによると「ハイエンドのオーディオ処理や音声アシスタントアプリケーション向けに設計されている」といいます。

 MT8512は、2GHzのデュアルコアCPU、超高音質オーディオ処理専用の各種周辺機器接続、Bluetooth 5.0とWi-Fi 5のデュアルバンド接続をサポートしています。MediaTekによると、高性能音声DSP(デジタル・シグナル・プロセッサ)が搭載されており、音声コマンドのウェイクワードやキーワードを高速かつ正確に検出することができるといいます。

 また、このチップは12ナノメートル(nm)プロセスで製造されていますが、ノートPCやデスクトップPCで使用されているIntelの主流プロセッサの多くは14ナノメートルプロセスで製造されているのに対し、最新技術の絶対的なものは5ナノメートルとなっています。一般的には、トランジスタが小さくなればなるほど、同じ「パッケージ」スペースに多くのトランジスタを詰め込むことができ、エネルギー効率が向上します。言い換えれば、低コストのスタンドアロン・デバイスで使用するために、MediaTekチップは、電力、効率、単価のバランスが取れているように見えます。