PolyAI – 音声AI-botとの自然な対話を実現する「対話型AI」を開発するスタートアップ

音声にせよチャットにせよ、AI(人工知能)コンタクトセンターの対応にはイライラさせられることが多い。AIだけで事足りるのは、営業時間の問い合わせなど本当に定型的なものが多く、早くヒューマンエージェントに渡して欲しいのに、意図が伝わらず時間がかかることが多い。(イギリスの音声ボットに私の発音が通じないのは別の問題だが、その場合は早くオペレーターに繋いでくれるので逆に助かっている(笑))。

話者の意図を理解し、自然な対話がスムーズに行われるようにする技術は「Conversational AI (対話型AI)」と言ってこれからの技術である。音声認識の精度が飛躍的に向上した現在、今後のコールセンターやスマートスピーカー等の音声操作機器の成否の鍵を握るのは、この自然な対話を実現する技術であると言うことができるだろう。

ロンドンのスタートアップ「PolyAI」は、2017年に設立され、2020年現在約50名の陣容である。設立メンバーを見てみると、ケンブリッジ大学の音声認識研究で著名なSteve Young教授の研究所出身者が多いことから、場所はロンドンではあるもののケンブリッジ大学のスピンオフと見て良いだろう。そのSteve Young教授はPolyAIの技術顧問であり、ボードメンバーにはケンブリッジのハイテククラスターである「ケンブリッジ現象」をリードしてきたHermann Houserも名を連ねている。

PolyAIのホームページ(https://www.polyai.com/)に銀行、レストラン、Eコマース、ITなどの例が載っているので聴いてみて欲しい。英語のデモしかないが、AIとの対話がスムーズに進んでいる様子は感じられるだろう。

対話型AIは3つの要素技術から成り立っている。

  1. センテンス・エンコーダ

機械学習で対話を取り扱うためには、対話文をなんらかの形でベクトル表現し、文の意味を表す「セマンティック・キャンバス」と呼ばれる意味空間にプロットできるようにすることが必要である。これがエンコーダの役割である。PolyAIのセンテンス・エンコーダはサイズが小さいのが特徴で、性能を犠牲にせずに小さくすることに成功した。

  1. インテント・エンジン

次の技術は、インテント(意図)エンジンであり、エンコードされた文を意味空間にプロットして行って、教師なし学習によりクラスタを生成し、それぞれのクラスタにラベルをつけていく。ラベルは、例えば「注文のキャンセル」「払い戻し」などである。PolyAIでは、複数のエンコーダを並行して使うなどの手法を用いて意図検知の精度の向上を図っている。

一つ付け加えておきたいのは、意図は言語とは独立だと言うことだ。つまり、英語で一つの意図を表現するのに様々な言い方があるのと同様に、他の言語でもその意図を表現でき、意味空間にプロットすることができると言うことである。PolyAIではすでに英語だけでなく、スペイン語、韓国語、中国語のインテント・エンジンが実現されている。もし日本語のセンテンス・エンコーダを開発すれば、PolyAIのエンジンを流用して日本語対応の対話システムを実現することが可能なのではないだろうか。

  1. レスポンス・エンジン

最後に話者の意図を汲んで、それに対する最適な応答を生成するエンジンである。同じ意味空間上にプロットされた返答の候補から最適なものを選んでいくことになるが、単純に距離(ランキング)だけで選択することにはリスクがある。そこで、ビジネス・ロジック・エンジンと言う技術により、この問いにはその答えはないだろうというものを排除するプロセスを加えている。

以上3つの基本技術に加えて、対話をスムーズにリードしていく方法として「スロット・ラベリング(あるいはスロット・フィリング)」を用いている。これは、例えばレストランの予約ならば、日時や人数など必要な項目はあらかじめ決まっているから、それまでの会話の中でまだ得られていない情報を引き出すように対話をリードしていく手法である。これにより、顧客との対話時間を短縮することに成功している。

PolyAIは、以上の諸技術を応用することによりカスタマーサービスを自動化する音声アシスタントを提供している。PolyAIが強調するのは、学習済みモデルをファインチューニングすることで新たな応用を簡単に構築することができ、2週間でデプロイが可能と言うことである。

長い間音声認識はボタンの置き換えにしかならない、とか、音声認識システムが期待する話し方をしないと認識してくれず使い物にならないなどと言われ続けてきたが、近年のディープラーニングの音声認識への適応により急速に実用化が進み、様々なアプリケーションが開発されている。音声認識の性能がスレッショルドを超えたとすると、次のステップは音声による対話の性能と言うことになろう。今回紹介したPolyAIはその先端を走るスタートアップと言って良いだろう。今後の展開に目が離せない。