近頃は生成AIの台頭により、音声認識システムの導入を検討されているコールセンターは多いのではないでしょうか。音声認識システムはそれなりに導入費用もかかるため、多くの企業が社内決裁時の導入効果算出に苦慮されていることと思います。今回はそれらの企業様のヒントになるよう、導入の進め方や効果の示し方についてお話ししたいと思います。
音声認識システムとは
人間の声の発話をデジタルデータに変換しテキスト化を行う技術を活用したシステムです。
代表的にはコールセンターでの問い合わせの可視化や、議事録作成に使われており、すでに市場には多くの製品があります。
国内のコールセンターにおいても音声認識システムは30年以上の歴史があります。これまでは応対内容の確認や品質維持の用途が中心でしたが、近年は対話型AIの出現やデータ活用の文脈でその価値が見直されつつあります。
音声認識システム導入の進め方
音声認識システムの導入は他の一般的なシステムの導入とさほど変わりはありません。基本的にはまず導入目的を明確にし、目的に沿った仮説検証を行い、費用対効果を算出します。そしてその結果に基づき導入範囲や目標を決定していきます。
ただ音声認識システムはこれまで多くのコールセンターにとって絶対に必要なシステムとは言いがたいものでした。そのためどのような方法・手順で社内決裁をとり、導入を進めて行けば良いのか?に悩まれることも多いと思います。
そのため筆者としては、仮説検証をいくつかの観点で細かく設定し、様々な観点から費用対効果を算出していくことをおすすめしています。
以降プロセス順に見ていきましょう。
1. 目的の明確化
音声認識システムの導入目的を突き詰めると、「音声をデータアセット化し、販売促進やコスト削減に活用する」ということに尽きると思います。
近年では生成AIの台頭により、営業やコールセンターに限らず多くの現場でAI活用が検討されています。経営者から生成AI活用検討の指示を受けた、現場の仕事を楽にするため生成AI活用を検討したい、発端は様々ですが、その一手目として、「音声データをテキスト化し、分析可能な状態にする」ということは間違いありません。
しかし、実際に音声認識システムを導入する場合には相応のコストがかかります。様々な製品がありますが概ね1席あたり数千円から1.5万円前後の費用が必要です
この費用を投資として確保するためには、導入目的や検証したい仮説、達成基準を明確にしておく必要があります。
コスト削減に使う場合(例)
- 会話分析から、新人とベテランのパフォーマンスの違いを可視化し、差分を最小化するためのコンテンツや施策を作る
- 会話分析から、不足しているFAQやWebサイトの欠陥をあぶり出し、ユーザーの自己解決を高めるコンテンツを作成する。
- 会話分析から、自動化できるプロセスをあぶり出し、ボット化や自己解決ツールなどの企画を行う。
販売促進に使う場合(例)
- 会話分析から、高い販売成績を出すスタッフの会話の流れや頻出キーワードなどをあぶり出して抽象化し、売れるシナリオやトークスクリプトを作成する
- 会話分析から商品・サービスに対するお客様の反応や傾向をあぶり出し、商品・サービスの訴求方法やキーワードなどをチューニングする。
リスク管理に使う場合
- コールセンターやソーシャルメディア上の声を分析し、商品・サービスを使った事故や不具合や不適切発言などのリスクを予測したり未然に阻止する
(有事の際に支払わなければならないコストや阻止対策のための人件費等がコストになる)
AI活用に使う場合(例)
- 会話データを適切に前処理し、AIの学習データや回答のためのナレッジデータベースとして活用する
- 会話データを要約し、オペレータの後処理時間や管理者のチェック時間を縮減する
2. 仮説の検証
- 予算の確保
まずは仮説検証に係る費用の確保を確保しましょう。
仮説検証を行うには、実際に音声認識システムを使ってみることがおすすめです。メーカーが提供するトライアル版を使ってみたり、導入支援企業が提供する仮説検証サービスなどを活用することが良いでしょう。しっかりとした検証を行うためには多少の検証用予算を確保しておくことが望ましいです。 - 分析手法やツールの決定
仮説検証はほとんどの場合がテキストデータだけでなく他のパフォーマンスデータなどとかけあわせて行います。いまは多くのテキスト化ツールが市場に出ているので自社の目的や予算に応じたツールを使うのが良いでしょう。仮説検証においてはリアルタイムの認識は必要ないためバッチ認識型(音声データファイルを取り込むことでテキスト化する方法)で良いでしょう。また分析には専門知識も必要になるため、導入支援企業に検証を任せるのも手です。 - 対象とするセンターやコールの録音データ確保
良質なテキストデータを生成するためには、録音された音声が話者分離されたステレオ録音データであることが望ましいです。もちろんモノラルデータでも問題なくテキスト化されますが、テキスト化後に分析を行うには、話者分離する作業工程が必要になります。通話録音を行っていない場合は、後付けの通話録音装置を一時的に借用するなどの対応が必要になります。 - 音声認識システムの設定
良質なテキストデータを生成するためには、会話で使用される専門用語などの辞書登録や認識のための初期設定を行う必要があります。 - 分析による仮説検証
テキストデータの分析を行い、仮説の検証を行います。ここでは細かな分析手法については割愛します。
3. 費用対効果の算出
設定した仮説の検証結果を用いて、音声認識システムを導入した場合の効果を算定します。この際、短期的な視点だけでなく中長期的な視点でも算定しておくことが望ましいです。また中長期的な効果算定に当たっては、リモートワークの導入など他の施策やシステムとの連動まで範囲を広げることも可能です。
短期的な効果の例
- 新人ーベテラン間のパフォーマンス差分の縮減
- テキストデータを活用した後処理時間の縮減
- 会話・トレンド分析によるキャンペーン施策の取捨選択
中長期的な効果の例
- 管理者比率の縮減による運営効率化
- 音声データ資産のマーケティング活用
- 離職率や採用効率の改善
4. 他社での導入状況や活用状況を調べるベンチマークする
ウェビナーへ参加したり、導入を公開している企業に直接インタビューして実際の導入効果や反省点、工夫点などを確認することも手です。同業他社の事例ではない場合でも、同じコールセンターである場合は十分参考になると思います。
- どこまで機能が必要か?
音声テキスト化だけが必要であればその機能に特化したシステムを選定することで十分に目的を達成できると思われます。分析機能、現場管理機能、レポート機能、他システムとの連携など多くの機能があるため、自社業務にどのような機能が必要かを見定めることが必要です。 - リアルタイムかバッチ認識型か?
リアルタイム認識は相応のコンピュータリソースを使うため、必然的に高機能・高価格帯になります。反面バッチ認識は会話終了後一定時間後に通話がテキスト化されるため比較的安価になりますがその分効果の範囲は限定されます。 - クラウド型がオンプレミス型か?
一長一短あるため、自社の求める必要要件から選定することが望ましいです。
5. 継続的な運用体制を構築する
意外と忘れられがちなのが継続して安定的な効果を出すために必要な体制です。少なくとも運用が定着するまでの期間は専任で担当者を決めておくことが望ましいです。
また一旦導入はされたが、担当者が異動や退職してしまい、その後使われなくなってしまったという声も良く聞きます。それらを回避するにはセンターに必要な”機能”として、ナレッジ運用担当やクオリティアシュアランス担当者などを配置することが必要だと考えられます。
その他の観点
近年様々な環境でテキスト化された音声データが活用されるようになってきましたが、音声データにも当然ながら多くの個人情報が含まれています。そこで最近ではこの会話データの中に含まれる個人情報や秘密情報を削除したりマスキングしたりする技術やツールも増えてきています。分析ツールの中にはこのようなマスキング機能を有しているものもありますが、データ活用を考える上で忘れてはならない観点です。
まとめ
今回は導入のために必要なプロセスごとに、いくつかの必要な視点や観点をご説明いたしました。
データ活用や自動化が進む近代のコールセンターにとって、音声認識は今や欠くことのできない機能になりつつあります。本稿を機に、様々な観点からの定量・定性分析を用いた仮説検証を行うことで音声認識の導入を進め、多くの企業様のデータ活用の一助になれましたら幸いです。
執筆者紹介
- TOPIC:
- VOC/音声認識
- 関連キーワード:
- 音声認識
- 業務設計・構築
- プロフェッショナルブログ