人工知能伝習所

〜 AI x Big Data x IoTなトピックを、非エンジニアにも分かりやすくお届け 〜

Googleの人工知能技術の粋を集めたGoogle Assistant。その実力を垣間みられる5つの動画

f:id:data_papa:20161006031207p:plain

ついに噂通りに発表されましたね。Googleの新型スマートフォンPixelスマホとしてのスペック(特にカメラとストレージ!)も魅力的ですが、当ブログとしてはパーソナルアシスタントのGoogle Assistantに触れないわけにはいかないので、速報レベルですが、その実力が垣間みられる動画を5つピックアップしてみます。


まずは、Google Assistantが搭載されたGoogle Homeのコンセプト動画から。
www.youtube.com


いや〜、BGMのカントリーロードいいですね〜。いや、感心するところはそこではないか。


どこかから帰宅した女性が「OK, Google。ライトをつけて」と言うとライトをつけるところから始まり、場面は誰かの誕生パーティーに。ざわつく会場の中で「OK, Google。キャラメルの代わりに何を入れたらいい?」という質問に「シナモンとナツメグ」と回答。


絵本の読み聞かせのシーンでは、「OK, Google。クジラはどんな風に鳴くの?」とお父さんがきくと、クジラの鳴き声を再生。その後も、矢継ぎ早に天気を聞いたり、スペイン語で「はじめまして」は何と言うか通訳したり。


そして最後はケーキのろうそくを消す前に「OK, Google。電気を暗くして」と呼びかけるのですが、これがなんとも自然な感じで、機械に命令しているのではなく、その場に集まっている仲間に呼びかけているように聞こえます。音声認識する時には、静かな場所にマイクを置き、身構えてゆっくりはっきり発音するのが当たり前だった時代を体験した身としては、最後のシーンには感動しました。


次は、Google Assistantそのもののコンセプト動画です。
www.youtube.com


Googleが元々は汎用サーチエンジンから始まった歴史をふまえて、「昔はみんなに同じ検索画面を出して、世界中の情報を探してきてました」でも「今はあなた用にパーソナライズされた画面があって、あなたの世界(写真やスケジュールやメッセージ)の中から必要なものを取り出すんですよ」そして「それがGoogle Assistantなんです」というアピールから始まります。対比がうまいですね。


一日の始まりにToDoリストを確認したり、家から目的地までの行き方を地図で確認したり、さらに、その目的地でのオススメレストランを調べたり、そのレストランに予約を入れたり、といった一連の流れがよどみない会話で進んでいきます。これは、どんな会話をしているかという文脈(コンテキスト)を理解しているからできることですね。


さて、上記はあくまでコンセプト動画。実際のところはどうなんでしょうか。次は、展示会場で記者にデモしている動画です。
www.youtube.com


かなり騒がしい会場ですが、近くのレストランを検索して、営業時間を確認して、そこまでの経路をナビゲーションさせるのを、コンテキストを保持しながらうまくできていますね。


こちらは、別の人によるもう少し長いデモ。
www.youtube.com


Google Assistantが持っている知識(ナレッジ・グラフ)を試すようなデモになっています。


例えば、サンフランシスコを歩いていて、見かけた橋が何年に建設されたかを聞いたり。さらに、その会話の文脈で、その橋でのニュー・イヤー・イベントの際の花火の写真を検索したりします。写真の検索結果の後には、次の想定質問が並んでいて、「あなたが、次に聞きたいのはこれでしょう?分かってますよ」と言わんばかりです。


検索対象はWebだけではありません。スマホの中の写真やスケジュールも検索可能です。それも、「◯◯に行ったときの写真見せて」と言えば出てくる。これは、裏で画像認識して、自動的にキーワードをタグ付けできているからですね。


他にも、Web上のアプリと連携させることができるので、Gmailに届いているフライトスケジュールを確認したり、シュワルツェネッガーTwitterアカウントを呼び出したり、NRLのグランドファイナルをYouTubeで呼び出したりといったことが可能です。

メッセージは「エマに『朝ご飯食べよう』とメッセージして」と一言で送信。スケジュールも一言で入力。雑談もこなすし、リクエストに応じて音楽も流します。



最後の動画は、サンダー・ピチャイCEOによる、「Google Assistantを支える技術」の紹介動画です。
www.youtube.com

(1)ナレッジ・グラフ、(2)自然言語処理、(3)翻訳、(4)音声認識、(5)画像認識の5つの要素技術に対して、それぞれディープラーニングを適用し、従来よりも一段高い精度を達成しています。特に改善が著しいのが画像にキャプションをつけるタスクでした。また、翻訳では、小さなフレーズ単位で翻訳していたのに対して、自己学習型ディープラーニングを適用することで、文章単位での翻訳が可能になり、人間の翻訳レベルにまた一歩近づいたとのことです。音声合成でも、ディープラーニングのモデルを適用することで、人間レベルの自然さに近づきました。音声認識は、将来的に細かい方言を見分けたり、発話者の感情も認識できるようになります。

そして、機械学習の手法を使うことで、使われれば使われるほど継続して改善されていきます。最初は想定していなかった質問に対する答えも、どんどん追加されていきます。


残念ながら、Google Pixel、Google Homeの日本での発売は未定とのことですが、「未来」はもうそこまで来ている感がありますね。日本語でGoogle Assistantが使える日が待ち遠しいです。

ネット通販やオークションサイトの海賊版/偽物ブランド品を監視・摘発する人工知能

先日、iPhone 7が発売されましたが、中国では早速、本物とまったく見分けがつかないiPhone 7 Plusのニセモノが出回っているようですね。


最近は偽造品の製造技術レベルが向上しており、本物そっくりのニセモノは「スーパーコピー」と呼ばれるほどです。現在急成長中のメルカリでも、最近は精巧な偽物を送りつけられるケースが増えており東京都が注意喚起するほどの事態になっています。


一方で、逆にソフトバンクショップで買った正規品のiPhoneを修理に持ち込んだのに「ニセモノ扱い」された、という珍騒動まで起こっています。ここまで来ると、売り手も買い手も、何を信頼すればいいのか分からなくなってしまいますね。



Don't know how to title this


iPhoneに限らず、偽造品による企業の被害は結構な割合を占めています。特許庁が発表している2015年度模倣被害調査報告書によると、調査に回答した約4000社のうち、偽造品の被害にあっている企業は約900社と、2割以上の企業が何らかの模倣被害にあっています。被害総額は年間約1000億円にのぼります。


国・地域別に見ると、圧倒的に中国が多く、その後に台湾、韓国が続きます。また、6割以上の企業がネット上で被害を受けています。海外での模倣品被害については、経済協力開発機構(OECD)の調査によると、世界の偽ブランド品・海賊版商品の流通総額は約4600億ドル(約50兆円相当)で、世界貿易額の最大2.5%相当に上るとのことです。


今年6月には、中国・アリババ会長が「偽物は本物より高品質」と発言し、国際的に物議をかもしました。また、先月22日には、日中経済協会、経団連、日本商工会議所でつくる訪中団が中国に模造品対策を要求したりしていますが、結局のところ、企業自身が「もぐら叩き」的に模造品対策を行うしか手がないのが現状です。


米国シカゴのスタートアップ3PM Marketplace Solutionsは、そんな企業の「もぐら叩き」を人工知能で支援しようとしています。人間の代わりに人工知能にネット通販やオークションサイトを巡回させ、偽物が出品されていないか監視し、怪しい出品があれば、企業担当者に通知するのです。


具体的にどのように偽物を判定するのかの詳細は「企業秘密」として明らかにされていませんが、built in chicagoの記事によると、出品者の取引のレーティングや、その出品者が出品している商品の種類、レビューの信憑性などを考慮して判定するようです。人工知能から通知を受けたクライアント企業の担当者は偽物が出品されているサイトに連絡し、出品を取り下げてもらいます。


3PM社の監視の対象は、DVDからヘルスケア用品、化粧品、認可済み薬品など多岐にわたります。彼らの最初の顧客はアメリカのケーブルテレビ局大手HBOとの海賊版DVD取り締まりですが、創業者のRob Dunkel氏によると、彼らのソリューションは大手ブランドだけのものではなく、あらゆるサイズの企業が利用可能である、とのことです。


Dunkel氏は前職はアルゴリズム・トレードの会社に所属していましたが、2013年に創業。以来、MITのポスドクシカゴ大学機械学習専攻の修士、ロシアの航空宇宙学技術者などの専門家を引き入れてチームを結成しています。また、技術・事業両面のアドバイザーとして、ソニー・ピクチャーズ・ホーム・エンターテイメントの元社長も参画しているそうです。

あわせて読んでね

artificial-intelligence.hateblo.jp

ハリウッド映画音楽の作曲家、人工知能に作曲を教える

昨日に引き続き、今日も音楽を作曲する人工知能についてご紹介します。


Day 34


Amper Music社は、ハリウッドで映画音楽の作曲をしていたDrew Silverstein氏が立ち上げたスタートアップで、人工知能で映画やCMに使える音楽を作曲するサービスを提供しています。


開発のきっかけは、厳しい予算をやりくりしなければならず、作曲家を雇う余裕のない映画のプロデューサーからの依頼でした。最初はなんと、マイクロソフトのExcelでアルゴリズムを実装していた(!)らしいです。


人間の作曲家による作曲プロセスが高価で時間がかかるものだったのに対し、Amper Musicでは、無料の音楽が数秒で手に入ります。ブラウザでAmper社のWebサイトにアクセスし、「Dark Epic(暗くて壮大な曲)」とか「Happy Rock(ごきげんなロック)」などの短い文章を入力するだけで、それっぽい曲を数秒で作ってくれるのです。作成された曲は、フリーに利用可能で、人間がブラインドテストしても、人工知能が作ったとは分からないレベルです。


例1:「Dark Epick(暗くて壮大な曲)」
soundcloud.com


例2:「Happy Rock(ごきげんなロック)」
soundcloud.com



Amper Musicは、作曲家の仕事を脅かすことになるのでしょうか。Drew Silerstein氏は「そうはならない」といいます。Amper Musicの音楽は、「表現のための音楽」ではなく「コモディティとしての音楽」だからです。


人工知能による作曲といえば、昨日ご紹介したソニーCSLやアクセンチュアのプロジェクトのほかにも、GoogleオープンソースプロジェクトMagentaや、イギリスのスタートアップJukedeckなどが存在します。しかし、Silversteinは、彼らを競合とは考えておらず、むしろ「実際のニーズがあることの証左」であると考えているようです。


既に米国大手メディア企業とのパイロットプログラムも進行中だそうです。近いうちに、人工知能が作曲したサウンドトラックで映画を観る日が来るかもしれませんね。


あわせて読んでね

artificial-intelligence.hateblo.jp

アクセンチュアの人工知能、ビジネスの機微をオーケストラで表現

先日、ソニーコンピュータサイエンス研究所Sony CSL)が、人工知能による作曲プロジェクト「FLOW MACHINES」で作曲したビートルズ風の新曲をYouTubeで公開して話題になりましたね

Wall-E robot by Brian Chan folded by Artur,Violin by Hagiwara Gen folded by Chris Hui.

今度は、テクノロジ系に強いコンサル企業、アクセンチュアが、人工知能による作曲プロジェクト「Symphonologie」で、人工知能が作曲した交響曲をパリのルーブル美術館で披露しました。

まずは、先入観なしでその曲を聴いてみてください。
youtu.be


いかがでしたか?結構、エモーショナルな響きのあるオーケストラの音楽に仕上がってますよね。

実は、この曲、単に人工知能がゼロから作り出したのではなく、「人工知能にビジネスやテクノロジのニュース記事を読み込ませ、そこから抽出された感情を使って書かれた曲」なんです。

作曲の手順は、下記の通りです。

(1) ビジネス/テクノロジ系の重要記事(600ページの書籍一冊分程度)を人工知能に読み込ませ、「感情」にまつわるキーワードを抽出する。

(2) 抽出された感情語を8つのカテゴリに分類する。このカテゴリそれぞれに対して、テンポ、音階、長さなどの音楽的要素に変換し、MIDIの音楽ファイルとして出力される。その際、どんな楽器で演奏すべきかも指定する。

(3) 人間の作曲家が音楽ファイルを聞いて、音楽のモチーフを決め、表現された感情を「曲」としてまとめていく。(あ、そこ、人間がやっちゃうんだ・・・)

(4) 人間のデータビジュアリストが、曲の中で感情が表現されるタイミングで、その元になった記事のキーワードを映像にマッピングする

このプロジェクトは、アクセンチュア・ストラテジのMark Knickrehm氏が、「デジタルとテクノロジの時代に何が起こっているのか」を、「文化を超えて表現する」ことを考えた時に、「音楽」が一番良い手段だと考えたことがきっかけだそうです。

アクセンチュアは、この活動を通じて「人工知能とは何か、戦略にどのように使えるのか、クラウドはどのように強化されるのかを話したい」としています。

また、アクセンチュアは最近のレポートで、「2035年までに人工知能による年間経済成長は先進国で2倍に。労働者の生産性を40%向上する」という、強気の予測を発表しています。あわせてごらん下さい。

リーンスタートアップでIoTプロジェクトを成功に導く方法

はじめてのIoTプロジェクトの教科書

はじめてのIoTプロジェクトの教科書

2020年には1.7兆ドル規模にまで成長すると予測されているIoT(Internet of Things:モノのインターネット)市場ですが、ガートナーによると、国内ではそれほど導入は進んでいないようです。

確かに、Raspberry Piでリアルタイムに温度/湿度やトイレの混み具合を可視化してみたはいいものの、このあとどうするんだっけ?という感触の方も多いのではないでしょうか。あるいは、会社の上司に「ウチもIoTで何かできないの?」と言われたはいいけど、どんなアイデアを出せばいいのか分からない...といった悩みもあるのではないでしょうか。

そんな、悩めるエンジニアには、下記の本がヒントを与えてくれるかもしれません。
はじめてのIoTプロジェクトの教科書

株式会社エスキュービズム・テクノロジー代表取締役・武下真典氏と、株式会社ブープラン代表取締役・幸田フミ氏の共著によるIoTプロジェクトの企画から、設計/試作/検証/導入の進め方を指南した教科書です。

IoTに詳しい大学教授の元に、コンサル会社の女社長(おそらく幸田フミ氏がモデル)と新人さんが相談に来るという設定の会話形式で、わりとくだけた文章でカジュアルに話が進みます。

本書の前半の部分は、IoTの基礎的な話を雑談形式で進めているため、話が散発的になってしまっていますが、後半でスマホ連携ロッカーを作り始めるあたりから俄然面白くなります。実際に商品化されたスマート宅配ボックスの事例がベースになっていて、リーンスタートアップの考え方を取り入れながら、試作品を作っては評価し、作っては評価し、を繰り返しながら、付加価値が出せる場所とビジネスモデルを見つけていく過程は、とても興味深く読ませていただきました。

IoTプロジェクトでも、従来のITシステム構築と工程自体はそんなに変わらないのですが、IoTの世界では、「ITと連携するモノ」を作るというプロセスが入ってくるため、難易度があがります。最初は段ボール箱でプロトタイプを作って、コンセプトや使用感を確かめるあたりは、Webサイトのペーパープロトタイピングと似たようなものですが、実際に「宅配ボックス」というカタチにするためには、ロッカーを製造している業者に発注する必要があります。ところが、ここで「モノの製造者は必ずしもITに詳しくない」というカベが立ちはだかるのです。そのため、「モノとITの連携」部分がグレーゾーンになり、最適な連携方法ができなくて「次善の策」を考える必要が出てきたりするわけです。

また、試作品ができてからも、屋外の使用に耐えうるか試験するために水をかけたり、暴力的な方法でこじあけられないか試験するために殴ってみたりと、「物理的な試験」を結構こなす必要があります。これは、ITシステムの導入プロセスではあまり必要がなく、最近ではシステムテストは相当な割合で自動化されている流れの中で、IoTの「モノ」の部分のテストに、結構課題と苦労が残っている雰囲気を感じました。

とはいえ、当初「スマート宅配ボックス」のつもりで作ったものが紆余曲折を経て、まったく想定していなかった「空港のWiFiルータ貸出し用ロッカー」に落ち着くくだりは、リーンスタートアップならではのダイナミズムを感じるエピソードでした。持つべきものは人脈と雑談力ですね。

Amazon、対話型人工知能の学生コンテストを開催。賞金総額はなんと250万ドル

このブログを読んでくださっているそこのあなた。ええ、あなたです。学生さんですか?ひょっとしたらだけど・・・人工知能とかチャットボットとか興味ある?え?あるの?じゃあ、YOU!Amazon Alexa Prizeに参加しちゃいなYO!

f:id:data_papa:20161002002639p:plain

Amazonは知ってるけど、Alexaって一体何?」という人も多いかもしれませんね。Alexaは、AppleiPhoneで言うところのSiriみたいな音声認識を使った対話型人工知能です。スピーカ型端末Amazon Echoに搭載されていて、音声入力に対する返答や命令の実行を行います。プロモーションビデオはこちら。

www.youtube.com

4人家族のリビングに鎮座ましましている円筒形のスピーカーに「Alexa!」と家族が呼びかけると、家族それぞれの好みの音楽をかけたり、勉強中のお兄ちゃんの難しい単語のスペルを答えたり、料理で手が離せないお母さんに代わってタイマーをセットしたり、忙しいお父さんに朝のニュースを読み上げてくれたりしています。

Alexaが実行できる機能は「スキル」と呼ばれ、開発キットAlexa Skills Kit(ASK)を使えば誰でも追加で開発が可能です。今年の1月時点ではAlexaのスキルは100程度だったのですが、6月に1000を突破。9月中旬では3000以上のスキルと、すごい勢いで増えています。Amazon以外のサイトとの連携も進んでおり、今では、Uberでタクシーを呼んだり、ドミピザを注文したり、といったスキルも実行可能です。下記は、Alexaが持っている特徴的な50のスキルを矢継ぎ早にテストするデモ動画です。

www.youtube.com

前置きが長くなってしまいましたが、Amazon Alexa Prizeは、Alexaの新しいスキルとして「ソーシャルボット機能」すなわち、「芸能/ファッション/政治/スポーツ/テクノロジなどの時事ネタで、人間と雑談するスキル」を競うコンテストになります。

対象は大学生。参加チームのうち最大10チームに対して、10万ドルの資金の他、Alexaが搭載された端末、AWSの無料サービス、Alexaチームからのサポートが提供されます。優勝チームには50万ドルの賞金が贈られますが、同時に、チームが所属する大学にも100万ドルの賞金が提供されます。コンテストの目標は「人間に分かりやすい会話を20分間継続できること」。ちなみに、最新技術を駆使した対話型人工知能で達成できている時間の5倍以上の長さの会話を引っ張る能力が必要だそうです。

参加受付は既に始まっています。参加申し込み〆切は10月28日23時59分(太平洋時間)までです。コンテストの期間は1年間で、受賞者の最終発表は2017年11月に行われる「AWS re:Invent in November 2017」で行われます。

コンテストのおおまかな流れとルールは以下の通りです。

フェーズ 期間
1: 参加申込 2016/09/29 〜 2016/10/28 23:59(PT)
2: スポンサー申込レビュー 2016/10/29〜2016/11/13
3: 参加者通知 2016/11/14
4: 初期スキル開発 2016/11/14〜2017/03/31 23:59 (PT)
5: 初期フィードバック 2016/04/01〜2016/06/30
6: セミファイナル 2017/07/01〜2017/08/15
7: ファイナル 2017/08/16〜2017/10/15
8: 最終審査 2017/11

フェーズ1の参加申込の時点で、チームのビジョン(500 word以内)、提案アプローチの概要(1000 word以内)、作成するシステムのアーキテクチャ(2枚以内)を提出する必要があります。フェーズ2のレビューでは下記の観点で審査され、通過したチームだけがフェーズ3に参加できます。
 ・この分野における潜在的な科学的貢献となる可能性があるか
 ・提案手法の技術的利点
 ・アイデアの新規性
 ・参加チームの実行力

申込の時点で、ある程度チャットボットや対話型人工知能の研究動向や技術トレンドをおさえた上で、提案アプローチのオリジナリティや独創性をアピールできるようにしたいですね。フェーズ3に進むチームのうち、10チームは10万ドルの資金提供を受けられますが、10チームに限定されるわけでもないようです。場合によっては、10万ドル以下の資金提供を受けられたり、自己資金で参加できたりするようです。

その後、フェーズ4で最初の「ソーシャルボット」を開発して提出。フェーズ5では、提出された「ソーシャルボット」のスキルがAlexaのユーザに公開されます。Alexaユーザは自分のAlexaに「Alexa、◯◯について話そう」と話しかけることによって、ソーシャルボットのスキルで対話ができるようになります。Alexaユーザが対話を終了すると5段階評価をつけ、チームにフィードバックします。

フェーズ6のセミファイナルでは、初期フィードバックを元に改良された「ソーシャルボット」が再度、Alexaユーザと対話して評価されます。最後は、評価の高い上位2チームと、Amazonが選んだ1〜2チームの「ソーシャルボット」がフェーズ7のファイナルに出場できます。ファイナルでもAlexaユーザによる同様の評価が行われ、それをベースに改良を続けます。

そして、フェーズ8の最終審査が行われます。このフェーズでは、Amazonが、一般的なトピックの会話を行う3名の対話者と、その人間と「ソーシャルボット」の間の会話を審査する審査員3名を任命し、Twitch.tvのストリーミング上で公開の会話を行い勝者を決定します。審査員は、対話者と「ソーシャルボット」の会話を聞いて、もし、自分だったらこの「ソーシャルボット」とこれ以上会話を続けたくない、と思ったタイミングでストップボタンを押します。3人の審査員のうち2名がストップボタンをおした時点か、または、20分間で会話は終了です。その後、審査員が「そのソーシャルボットと会話したいか」という観点で5段階評価をつけ、それが最終スコアとなります。

これは個人的な意見ですが、「自然な会話を20分間続けて、かつ、人間の満足度を上げる」という目標を達成するには、豊富な知識を繰り出す「話し上手なソーシャルボット」よりも、適度な相づちやうまい切り返しを続けながら相手の話を引き出していく「聞き上手なソーシャルボット」を目指すことが大事な気がします。

最後に、Amazon Alexa Prizeのプロモーションビデオをご紹介します。世界のトップクラスの大学と肩を並べながら、会話型人工知能のブレークスルーを目指して1年間走り続ける。優勝すれば大学にも貢献できるし、優勝できなかったとしても、トライしたアイデアや培った技術はきっと良い論文として大きな成果になることでしょう。ハードルは非常に高いですが、挑戦する価値も多いにあると思います。Good Luck!
www.youtube.com

Yahoo!がアダルトコンテンツを検閲する深層学習モデルをオープンソース化

Yahoo! Engineeringブログによると、ポルノやアダルトコンテンツなど、「職場に不適切な(NSFW: Not Suitable/Safe For Work)」コンテンツを識別できるようにトレーニングされたディープラーニングの学習モデルがオープンソース化されたそうです。

Chupacabra the Pornographer

学習モデルはCaffeOnSparkの上でトレーニングされており、BSD 2-Clauseライセンスの下で配布されます。これは、オープンソースディープラーニングフレームワークの一つであるCaffeをSpark/Hadoopクラスタ上で実行できる、分散型の深層学習技術です。

昔からマンパワーでインターネットのコンテンツを分類してきたYahoo!らしいディープラーニングの使い方といったところでしょうか。きっと、過去に積み上げられた大量の学習用データと、共同作業で有害コンテンツを分類するために標準化されたルールがあるからでしょうね。ブログやSNSなどに対する不適切投稿を監視するサービスや、有害サイトフィルタの作成に使えそうです。

ただし、何がアダルトで何がセーフかという基準は主観的で文脈にもよるため、精度の保証はないとのこと。オープンソース化することで、カスタマイズや拡張ができるようになることを期待しているようです。

人工知能学会のワークショップ「機械学習の社会実装に向けて」で取りあげられていた「学習済みモデル」の権利や流通、再利用といったトピックの一例としても興味深いですね。