飛躍的に進歩を遂げる音声認識のテクノロジー。コンタクトセンターでは膨大な量の「声」によるやりとりが発生しこれを活用し分析や自動化に取り組む企業が増加しています。
なかでも音声認識を活用した自動化としてボイスボットの導入要望が加速しており
この記事では2021年現在の音声認識のレベルやボイスボットの活用方法を整理します。
音声認識技術は人間のレベルを超えていない?
音声認識エンジンの精度は年々向上しており要素技術の研究レベルでは既に人間を超えたとも言われています。
音声認識の技術研究では誤認識率を用いて精度測定がされていますが人間の誤認識率は約5%。音声認識エンジンでの誤認識率もおおよそ同水準かそれ以上まで精度が高まっていることから「人を超えた」と言われ始めています。
音声認識精度の向上は非常にめざましく、2年前に行った音声認識精度評価の結果が参考にならないレベルで進化しており常に技術動向に着目が必要な分野と言えます。
然しながら実際に実用化した際の音声認識精度は残念ながら「人間よりは確実に劣っている」のが現状です。
これには2つの理由が考えられます。
こちらの記事もおすすめ
1つ目は日本語化の問題です。技術研究レベルでは基本的に英語による精度測定が実施され研究結果が発表されていますが我々が日本のコンタクトセンターで利用するにはこの技術を日本語化する、或いは日本語化された技術を使う必要があります。日本語は主語を言わない、同音異義語が複数存在する等、世界の言語の中でも特に難しい言語と言われており日本語化の段階では英語よりも精度が下がってしまいます。
2つ目の理由は音声の品質です。コンタクトセンターで音声認識を実用化する場合、電話での音声を活用するケースがほとんどのため周波数帯が制限された音声を活用することになります。対面で喋ったり、パソコンなどで入出力された音声よりも電話のほうが聞きにくいという点は普段の生活の中でも皆さん実感されているのではないでしょうか。
このような理由から人間と音声認識エンジンの比較では人間に軍配があがるのが現状で、人間のような精度を求めてしまう事には問題があります。しかし私たちは、人間よりも劣っているとはいえ音声認識率の精度は十分に実用可能なレベルだと考えています。
私たちが実際の業務の中で電話越しの音声認識に関するPoCを行った結果では音声認識率は約90%に至っており「人間には及ばないが使える技術」という結論を導きました。音声認識エンジンの精度に高い期待を持ち、エンジン任せになってしまうと導入失敗のリスクは高まりますが使える程度を理解した導入により”最適な使いどころ”で技術を使う事が可能となります。
関連動画のご紹介
ユーザー環境の変化
音声認識や音声合成といったボイスボットでも活用されているテクノロジーは以前に比べて非常に身近な技術になりました。Amazon EchoなどのスマートスピーカーやiPhoneのSiri、ソフトバンクのPepperなど機械やロボットに対して話しかけ、まるで人間のような返答が音声認識や音声合成を使って返ってくるという利用シーンは皆さんも一度は体験しているのではないでしょうか。
このような”機械と話す”というユーザー体験が増えたことにより電話の応答を機械が行う「ボイスボット」はユーザーからも自然と受け入れられるソリューションとなりました。当初はボイスボットを導入してユーザーが電話口で喋ってくれるのか?というような懸念を持たれる企業も複数ありPoCや実証実験で顧客の需要度を途中放棄率を元に測定する等を行ってきました。その結果ほとんどのケースでは通常のコンタクトセンターと比べた場合の放棄率の低下は無く、ユーザーに受け入れられるソリューションとして高齢者も含めた多くのユーザーが自然と発話しボイスボットと対話を行ってくれる事を確認しています。
「ボイスボット」に近いソリューションとしては「IVR (Interactive Voice Response)」がありますがボイスボットとIVRの最大の違いは「顧客満足度」にあります。IVRに対する顧客満足度は一般的には非常に低い水準で30%台となってしまうコンタクトセンターも珍しくありません。これは長いガイダンスとIVRメニューの分かりにくさや、なかなか人に繋がらないという不満からくるものです。然しながらボイスボット導入業務でボイスボットに対する顧客満足度を調査した際には80%以上が「ボイスボットに満足」と回答しておりボイスボットがIVRに比べCXを下げずに自動化できるソリューションであることを示す結果となりました。
これらのことからボイスボットはユーザーに受け入れられる新たな自動化ソリューションとして環境が整ったと言えるのではないでしょうか。
自然言語AIとの組み合わせ
音声認識エンジンを自動応答で活用するソリューションとして”音声認識IVR”があります。音声認識IVRは認識したテキストデータをキーワードの完全一致検索、または部分一致などで判定し次のメニューに進んでいくというソリューションです。音声認識IVRはこれまでも一部のコンタクトセンターで実用化されていましたが効果や採算性が見合わず導入を見送るケースや導入後に撤退するケースが続出しました。
これはキーワード一致というテキストの精度に頼る仕組みと音声認識エンジンの「100%は認識できない」という相反する要素がコンクリフトしてしまった影響が強いのではないかと考えています。音声認識に少しでも間違いがあったら正しいメニューに進むことは不可能なのです。
当社が推進するボイスボットソリューションでは標準で自然言語AIを実装し音声認識と組み合わせてご提供しています。過去に行ったPoCの中で、音声認識率が下がってしまうフレーズやシーンもありましたが自然言語AIによる意図分類、揺らぎの吸収を組み合わせることで次の正しいアクションへの誘導率が高まるということが分かっています。例えば「インターネットに繋がらない」という問合せを音声認識した際、「XXXXネットに繋がらない」というように一部のテキストに認識間違いが発生しても「ネットに繋がらない」という部分の文章を元に自然言語AIが「インターネットに繋がらない」という事象を推論し正しいメニューに戻してくれるのです。これはまさに人間が耳で聞いて判断をするときと同じ挙動ではないでしょうか。人間も一部分だけ音声が聞こえにくかったとしても、前後の聞き取れた部分で会話の内容を推定し話を進めることが可能です。ボイスボットでは音声認識と自然言語AIを組み合わせる事でこの人間が行っているプロセスを再現することが可能なのです。
音声認識エンジンも自然言語AIもそれぞれの技術は完璧なものではありませんが音声認識のミスを自然言語AIで補正する、という新たな技術の使われ方がボイスボットでは重要なポイントの一つになると考えています。
ボイスボットの活用シーン
ボイスボットの導入はアメリカ等では既に15%ほどの問合せで使われているとも言われています。日本でも昨今、チャットボットに続く新しい自動化ソリューションとして導入・検討を進める企業が非常に増えています。
例えば製造業では製品の故障診断、修理受付の自動化に活用されておりエラーコードや症状等の問診をボイスボットが実施し、修理が必要かをロジックを元に判断します。
保険業界の事例ではユーザーの氏名、電話番号、証券番号などの個人特定に必要な情報聴取の後、契約変更などの手続きを受付する業務をボイスボットが行っています。
これらに共通するポイントとしては「ヒアリング事項が定型化されている」という事です。ボイスボットに応答させるには定型化ができる業務でなければなりません。業務フローやトークスクリプトなど、現在人間が行っているコールセンター業務がきちんと型化されていることが条件の一つとなってきます。またボイスボットの導入においてはユーザーとの「対話」を意識した応答シナリオを構築します。ボイスボットが一方的にだらだらと説明をし続けるようなシナリオではユーザーはまともに話を聞いてくれないでしょう。ユーザーとボイスボットが対話を繰り返しながら最終的にユーザーの望む処理や受付がなされる、その一連のプロセスにユーザーは納得し電話を切るのです。
ボイスボットでの受付ができない種類の問合せや、うまく進む事ができないケースなどではオペレータが業務を引き継ぐ事で電話対応を完結します。ボイスボットに向いている業務を自動化しオペレータはそのアシストをする、というバランスを組み上げる事がカスタマーエクスペリエンスを損なわずに自動化を推進する重要なポイントになってきます。
まとめ
音声認識の精度向上に伴いボイスボットによる電話の応対範囲は今後も飛躍的に増えていくと考えています。然しながらすべての電話応対を自動化するのではなく、ボイスボットに向いている業務をきちんと選定し人間の業務とのバランスをとる事がカスタマーエクスペリエンスと効率化を得る最も重要な事と言えます。
最先端技術の活用、ソリューションの導入はどうしても「製品」に目が行きがちですがどのような業務をボイスボットに任せるのか?、何を人間に任せるのか?向いているのか?という「業務」に目を向けた検討を行う事で失敗のリスクを最小化できるでしょう。
- TOPIC:
- 課題・ソリューション