読者です 読者をやめる 読者になる 読者になる

人工知能伝習所

〜 AI x Big Data x IoTなトピックを、非エンジニアにも分かりやすくお届け 〜

Googleの人工知能技術の粋を集めたGoogle Assistant。その実力を垣間みられる5つの動画

活用事例:ホーム

f:id:data_papa:20161006031207p:plain

ついに噂通りに発表されましたね。Googleの新型スマートフォンPixelスマホとしてのスペック(特にカメラとストレージ!)も魅力的ですが、当ブログとしてはパーソナルアシスタントのGoogle Assistantに触れないわけにはいかないので、速報レベルですが、その実力が垣間みられる動画を5つピックアップしてみます。


まずは、Google Assistantが搭載されたGoogle Homeのコンセプト動画から。
www.youtube.com


いや〜、BGMのカントリーロードいいですね〜。いや、感心するところはそこではないか。


どこかから帰宅した女性が「OK, Google。ライトをつけて」と言うとライトをつけるところから始まり、場面は誰かの誕生パーティーに。ざわつく会場の中で「OK, Google。キャラメルの代わりに何を入れたらいい?」という質問に「シナモンとナツメグ」と回答。


絵本の読み聞かせのシーンでは、「OK, Google。クジラはどんな風に鳴くの?」とお父さんがきくと、クジラの鳴き声を再生。その後も、矢継ぎ早に天気を聞いたり、スペイン語で「はじめまして」は何と言うか通訳したり。


そして最後はケーキのろうそくを消す前に「OK, Google。電気を暗くして」と呼びかけるのですが、これがなんとも自然な感じで、機械に命令しているのではなく、その場に集まっている仲間に呼びかけているように聞こえます。音声認識する時には、静かな場所にマイクを置き、身構えてゆっくりはっきり発音するのが当たり前だった時代を体験した身としては、最後のシーンには感動しました。


次は、Google Assistantそのもののコンセプト動画です。
www.youtube.com


Googleが元々は汎用サーチエンジンから始まった歴史をふまえて、「昔はみんなに同じ検索画面を出して、世界中の情報を探してきてました」でも「今はあなた用にパーソナライズされた画面があって、あなたの世界(写真やスケジュールやメッセージ)の中から必要なものを取り出すんですよ」そして「それがGoogle Assistantなんです」というアピールから始まります。対比がうまいですね。


一日の始まりにToDoリストを確認したり、家から目的地までの行き方を地図で確認したり、さらに、その目的地でのオススメレストランを調べたり、そのレストランに予約を入れたり、といった一連の流れがよどみない会話で進んでいきます。これは、どんな会話をしているかという文脈(コンテキスト)を理解しているからできることですね。


さて、上記はあくまでコンセプト動画。実際のところはどうなんでしょうか。次は、展示会場で記者にデモしている動画です。
www.youtube.com


かなり騒がしい会場ですが、近くのレストランを検索して、営業時間を確認して、そこまでの経路をナビゲーションさせるのを、コンテキストを保持しながらうまくできていますね。


こちらは、別の人によるもう少し長いデモ。
www.youtube.com


Google Assistantが持っている知識(ナレッジ・グラフ)を試すようなデモになっています。


例えば、サンフランシスコを歩いていて、見かけた橋が何年に建設されたかを聞いたり。さらに、その会話の文脈で、その橋でのニュー・イヤー・イベントの際の花火の写真を検索したりします。写真の検索結果の後には、次の想定質問が並んでいて、「あなたが、次に聞きたいのはこれでしょう?分かってますよ」と言わんばかりです。


検索対象はWebだけではありません。スマホの中の写真やスケジュールも検索可能です。それも、「◯◯に行ったときの写真見せて」と言えば出てくる。これは、裏で画像認識して、自動的にキーワードをタグ付けできているからですね。


他にも、Web上のアプリと連携させることができるので、Gmailに届いているフライトスケジュールを確認したり、シュワルツェネッガーTwitterアカウントを呼び出したり、NRLのグランドファイナルをYouTubeで呼び出したりといったことが可能です。

メッセージは「エマに『朝ご飯食べよう』とメッセージして」と一言で送信。スケジュールも一言で入力。雑談もこなすし、リクエストに応じて音楽も流します。



最後の動画は、サンダー・ピチャイCEOによる、「Google Assistantを支える技術」の紹介動画です。
www.youtube.com

(1)ナレッジ・グラフ、(2)自然言語処理、(3)翻訳、(4)音声認識、(5)画像認識の5つの要素技術に対して、それぞれディープラーニングを適用し、従来よりも一段高い精度を達成しています。特に改善が著しいのが画像にキャプションをつけるタスクでした。また、翻訳では、小さなフレーズ単位で翻訳していたのに対して、自己学習型ディープラーニングを適用することで、文章単位での翻訳が可能になり、人間の翻訳レベルにまた一歩近づいたとのことです。音声合成でも、ディープラーニングのモデルを適用することで、人間レベルの自然さに近づきました。音声認識は、将来的に細かい方言を見分けたり、発話者の感情も認識できるようになります。

そして、機械学習の手法を使うことで、使われれば使われるほど継続して改善されていきます。最初は想定していなかった質問に対する答えも、どんどん追加されていきます。


残念ながら、Google Pixel、Google Homeの日本での発売は未定とのことですが、「未来」はもうそこまで来ている感がありますね。日本語でGoogle Assistantが使える日が待ち遠しいです。