2018.12.12

表情から「感情」を分析する、感情認識AIの最先端

「ノンバーバル・コミュニケーション」の重要性

顔認証や音声認証などの認証技術で活用が進むAI技術。さらに味覚や嗜好性といった領域までにも進出し、AIが活躍する幅は広がる一方です。今回注目するのはAIを使って感情を読み取る技術。感情認識AI「Affdex(アフデックス)」を取り扱う株式会社シーエーシーの鈴木貴博さん、丹治由佳さんにお話を伺いました。

目次

全世界700万人の表情データからなる感情認識AI技術

丹治由佳さん、鈴木貴博さん
左から株式会社シーエーシーのデジタルイノベーショングループ サービスプロデューサー  丹治由佳さん、取締役 兼 業務担当執行役員 鈴木貴博さん

――御社が取り扱われている感情認識AI「Affdex(アフデックス)」とは、どのような技術なのでしょうか。

鈴木

カメラに写っている顔の画像から、表情を読み取り、感情を測定するアメリカのAffectiva 社が開発した技術です。1970年代に特許がとられている「FACS理論(Facial Action Coding System顔面動作符号化システム)」をベースにしています。この理論では、顔の表情筋がこう動いたらこういう感情があるという定義がなされているので、それにAIの技術を使い、自動的に判別するようにしているのです。

FACSに基づいた技術 FACSとは、1970年代に、Paul Ekman博⼠たちにより開発された 表情筋の動きを認識・コード化し、その組み合わせで表情動作や感情を定義する表情理論。 ※FACS=Facial Action Coding System 顔⾯動作符号化システム
丹治

「FACS理論」では、筋肉の一つ一つにアクションユニットというコードが振られています。それぞれが動いた強度やバランスで感情がわかるようになっているのです。

――アメリカで構築された理論とのことですが、日本人の表情にも適用できるのでしょうか。

鈴木

1970年代の研究で、表情と感情の関連性はどこの国でも一致していたという論文が出ています。さらに「Affdex」を通じて、現在も日々世界中から感情のデータが蓄積されており、精度が上がり続けています。

丹治

データベースには現在87か国、700万人の顔、40億という顔フレームの情報が保有されています。しかもその半数はアジアから取得されているのです。日本人のデータだけでも、8万ほどは保有しています。読み取った画像の特微量から、21種類の表情と7種類の感情に分類し、分析した値を0~100で出力して確認できます。日本人は感情が表情に表れにくいともいわれていますが、そのデータの分析によりますと、実際の日本人と外国人の表情の差異は5%ほどしかないようです。

アウトプット① 表情 21の表情について、測定値[0-100]を受け取ることができます。 アウトプット② 感情と特殊な指標 7の感情[0~100]と、2の指標について、分析値を受け取ることができます。
 

――表情から感情を読み取る、「Affdex」のような技術を活用しようという動きはいつごろから始まっているのでしょうか。

鈴木

ここ数年のことですね。スマホが普及して、人々が「カメラ」の前に立つシーンが増えてきたことも大きいと思います。それに今は監視カメラやドライブレコーダーをはじめ、記録用、防犯用、あるいは商業施設や工場での動画解析用途など、生活空間のいたるところにカメラが置かれるようになってきました。「IoTセンサー」のひとつとしてカメラを活用する動きは、今後さらに広がっていくと思います。

モニターや店頭プロモーションでの活用事例

——表情による感情認識の技術はどのようなシーンで利用されているのでしょうか。

鈴木

日本での活用はまだまだこれからといったところですが、アメリカでは、さまざまな事例があります。例えば、新商品のモニター調査です。実際にその商品を試していただいている際の表情をカメラでとらえることで、心地よく使っているか、あるいは使いづらいのか、客観的な指標で分析することが可能です。特にアメリカは国土が広大なので直接モニターの元に訪問することが難しいため、こういったテレコミュニケーションを介したモニターやアンケートの需要が高いようです。

丹治

企業が消費者に自社のCMを見てもらい、ターゲットが狙い通りの感情の動きをしているかチェックする、という事例もあります。モニター100人に動画を見てもらい、その現場を撮影します。事前にシステムへ「都内在住の30代男性」などモニターの属性を読み込ませておけば、終了後、グラフなどで表情の分析結果が表示されます。結果、動画がターゲット層に対してポジティブに響いたか、ネガティブだったかなど客観的に分析することができるのです。

鈴木

車載カメラに搭載するという商品もあります。カメラで乗員の表情を判断すれば、眠そうか、楽しそうかなど、わかりますよね。

丹治

夜間でも顔がとらえられる赤外線カメラやマイクを車内に設置し、後ろに乗っている人も同時に分析できる車内センシングAI「Automotive AI」は商品のひとつにラインナップされています。

鈴木

アイデアレベルですが、本当の顧客満足度を測るのが難しいといわれているライドシェアリングサービスなどにこの「Automotive AI」を搭載して、お客様の表情から本当の満足度を測ることができれば……なども、考えられています。また将来、自動運転が始まったら、車内の快適度を調べるためにも使えそうですよね。

丹治

消費者の反応をデータにできるので、マーケティングで感情分析の技術を使いたいという声はよくいただきます。

鈴木

店頭などでのプロモーションにも有効かと思います。例えばサイネージの前に人が立った時に、その表情から読み取った感情によって表示される情報を変更するということも可能かと思います。感情によって情報を変えるという点ではロボティクスの分野でも活用できそうですね。目の前にいる人間の表情から感情を分析して、笑顔だったら笑顔を返したり、怒った表情をしていたら、焦った顔をしてみたり、ロボットの表情を変化させることで、より繊細なコミュニケーションが実現する可能性があります。

表情からある特定の感情へ導くという活用法

――AIなどのテクノロジーを利用して、人々の感情を読み取り活用しようという動きが出てきています。例えば人の音声データを読み取って感情を解析するといったテクノロジーもあるようですが、表情から読み取る感情分析技術の強みとはなんでしょうか。

鈴木

コミュニケーションには、言葉をともなう「バーバル・コミュニケーション」と、ジェスチャーや表情といった言葉を使わない「ノンバーバル・コミュニケーション」がありますが、ノンバーバル・コミュニケーションの方が伝わる情報量が多いともいわれています。特にノンバーバル・コミュニケーションの中でも「表情」が占める割合は大きいため、感情を分析する上で非常に重要な要素と言えます。

――生活の中では表情と感情がイコールにならないこともありますよね。例えば、「愛想笑い」をしている人であっても、本当の感情を読み取ることはできるのでしょうか。

鈴木

「愛想笑い」の場合は、表に出ている表情から判断されるので「笑い」になります。ただ、どれだけ表情を取り繕おうと思ってもコントロールできない筋肉があって、わずか0.1~2秒ほど、本音の感情が表情に出てしまうといわれているんですね。これは「微表情」と呼ばれています。その時の映像まで細かくとらえて分析すれば、「愛想笑い」であると判断できなくはないと思います。

丹治

実は意図的に「表情を作ること」を逆手にとったプロモーションの事例もあります。

鈴木

たとえ「愛想笑い」であっても、笑顔を作ると気持ちも自然と明るくなるという経験はないでしょうか。アメリカの事例ですが、チョコレートで有名な「ハーシー」では、店舗に置かれた機械の前で一定以上の笑顔をキープしたらサンプルチョコが落ちてくるという装置を作りました。お客様に笑顔を作らせることで、お店への印象もよくなるということを狙ったキャンペーンです。

丹治

「先に笑顔を作ってから、実際の感情に反映させる」という仕組みは、イベントでもよく利用されます。弊社でも、凸版印刷様と協業した都議選のキャンペーンで、笑顔をキープして投票する笑顔投票アプリを作りました。

笑顔投票所
鈴木

また、企業の研修にて表情分析の技術を導入いただいた事例では、研修の前に撮影する集合写真で、全員が笑顔にならないとシャッターが切れないということもやりましたね。なかなか全員がいい笑顔になれずいつまでも撮影できないことで、場が温まっていくんです(笑)。

――表情を分析するだけでなく、表情と感情が連動する作用をプロモーションに活用しているんですね。

鈴木

表情から感情分析をする技術の利用は、まだまだ日本では過渡期であると言えますが、営業社員の教育ツールや、店頭で販売員や説明員がお客様と対面した時の活用など、導入はこれからますます進んでいくと思われます。

——最後に、このような感情分析技術を活用する上で、注意点などはあるでしょうか。

鈴木

画像を使った技術では、常に個人情報やプライバシーに関する問題があります。例えば「Affdex」では、インターネット接続をしないローカル環境で、画像の取り込みから分析処理ができるという特徴もございます。また、当社で開発した「心sensor」はこの特徴を生かし、スタンドアロンPCでも分析処理を可能にしました。クラウドサービスと異なり、画像や動画をインターネットにアップロードする必要がないため、セキュリティも安心、かつ、リアルタイムでの分析ができるのが大きな強みとなります。

丹治由佳さん、鈴木貴博さん

ジェスチャーなどのノンバーバル・コミュニケーションにおいて、大きな割合を占める表情。これまでは難しかった「表情」を分析することで、潜在的なニーズを読み取ることが可能になります。画像認識技術の精度もあがり、より詳細な分析ができるようになったことで、表情を出す人の反応だけでなく、表情と感情の動きを利用するなど、マーケティングはもちろん、医療や教育現場など、今後さまざまな分野への活用が生まれてくるでしょう。

Written by:
BAE編集部