こんにちは!SCSKの新人営業、栗山です。
皆さんの会社では、電話応対をどのように行っていますか? 顧客対応の質向上や効率化は、多くの企業にとって重要な課題ですよね
近年、AI技術を活用した電話応対のDXが注目されています。 例えば、音声認識技術を使えば、顧客との会話を自動でテキスト化し、分析したり、対応を効率化したりすることが可能になります!
今回は、Google Cloudが提供する音声認識サービス Google Cloud Speech-to-Text の検証を通して、AIによる電話応対DXの可能性を探ってみました!
Google Cloud Speech-to-Tex(以降Speech-to-Text)は、高精度な音声認識を簡単に実現できるサービスです。 本記事では、Speech-to-Textを実際に使ってみた感想や検証結果を共有することで、
- AI技術による電話応対DXに興味がある方
- Speech-to-Textの導入を検討している方
- 文字起こしツールを活用したいけど何にしようか悩んでいる方
- 音声データを分析して業務に役立てたいと考えている方
にとって、少しでも役立つ情報になれば幸いです!
検証目的
コンタクトセンター業界のお客様からは、音声データの文字起こしに対して、有用なサービスは無いかと質問を受けるケースが良くあります。 あるお客様は現状、オペレーターの対応時の録音データを分析に活用するため、何度も聞き直しながら手作業で文字起こしを行っており、非常に時間と手間がかかっているとのことでした。。。
もし、この文字起こし作業をAIで効率化できれば、担当者はより創造的な業務に集中できます。 例えば、顧客対応の傾向分析や、サービス品質向上のための施策検討などに時間を有効活用できるでしょう。
そこで今回、限りなく実際の応対に近いテスト音声データを使い、Speech-to-Textによる音声認識精度の簡易検証を実施することで、Speech-to-Textの導入により、お客様の文字起こし作業の効率化と負担軽減に貢献できる可能性を明らかにしました!
なぜGoogle Cloud Speech-to-Textを選んだのか
他クラウドとの比較(文字起こしサービス編)
Google Cloud Speech-to-Text | Amazon Transcribe | Microsoft Azure Speech to Text | AmiVoice Cloud Platform(Amivoice API) | |
---|---|---|---|---|
対応言語 | 日本語を含む125以上の言語 | 日本語を含む複数言語 | 日本語を含む多数の言語 | 日本語、英語、中国語、韓国語 |
料金 | 約0.046円/秒 ※60分無料枠あり ※新規利用者は$300相当のクレジット ※ログ許可で割引あり |
約0.046円/秒 ※利用量割引あり |
約0.046円/秒 ※1か月あたり5音声時間は無料 |
0.044円/秒 ※毎月60分無料枠あり ※ログ許可で割引あり |
GUIでの利用 | 〇 | 〇 | 〇 | × ※単語登録のみ可能 |
他サービスとの連携 | 〇 他Google Cloudサービスと容易に連携 |
〇 他AWSサービスと容易に連携 |
〇 他Azureサービスと容易に連携 |
〇 |
リアルタイム性 | 低遅延で字幕表示も可能 | リアルタイム対応可能だが速度に制限あり | 雑音環境での処理に強いが速度は平均的 | リアルタイム性は他社と比較して平均 |
導入の容易さ | デフォルトモデルで高精度・即利用可 | 即時利用可能 | 高精度だがカスタマイズ設定が必要 | APIを利用したプログラミングが必要 |
あなたのユースケースに最適な音声文字起こしサービスはどれ?主要3社を比較してみた | ネットワンシステムズ
※あくまで公開されている情報や個人の見解に基づいており、モデルや設定によって結果が異なる場合があることにご注意ください。
Speech-to-Textで期待できること
Speech-to-Textは、音声データをリアルタイムまたはバッチ処理で文字起こしする機能を提供します。Speech-to-Textを活用・組み合わせて以下のような期待が持てます。
- 会議録音の文字起こしでの作業効率化
- コールセンターでの問い合わせ分析
- 動画コンテンツの字幕生成 etc..
検証プロセス
データ準備
検証に使用するデータは以下の2つです。
- 音声データ(MP3, FLAC, AMR, LINEAR16など)
- 正解データ
- 音声データから一言一句書き起こしたテキストデータ(手動で作成)
- 評価を正確に行うため、改行やスペース、句読点(「、」「。」)も含まれていない
音声ファイル読み込み
- 今回はMP3の音声ファイルを読み込んでいます。(Cloud Storageのファイルも利用可能)
- チャンネルごとに別個の認識: 有効
音声文字変換のオプション
- APIバージョン:V1
- 使用する言語:Japanese
- 文字起こしモデル:Telephony
- リージョン:global
その他モデルについては以下をご参照ください!
詳細設定:
今回は全て無効にしましたが、下記の高度な詳細設定が可能です。
- 冒とく的な語句フィルタ
- 句読点入力の自動化
- 発話された句読点
- 発話された絵文字
- 話者ダイアライゼーション
- 単語の時間オフセット
※2024年12月時点 一部日本語対応していない機能ございます。
正解データインポート
文字起こし精度を正しく評価するために、正解データ(音声データの内容を正確に書き起こしたテキストデータ)をインポートします。
今回は、自ら音声ファイルを手打ちで文字起こした正解データを用意しました。この正解データは、文字ベースでの認識制度を図るため、句読点や改行など、実際に話されていない文字は含めていません。
この正解データをSpeech-to-Textにインポートすることで、音声認識結果と正解データを比較し、認識精度を自動で算出することができます。
検証結果
成果
- 認識精度:約90%以上
- 文字レベルでの一致率を測定した結果です!
- 高い精度で文字起こしが可能であることが確認できました!
- 処理速度:音声データ1分あたり約60秒で処理 (同時実行可能)
- 非常に高速な処理を実現!
- 複数ファイル同時実行可能で、手作業に比べて大幅な時間短縮が可能!
観察事項
- 固有名詞誤認識が一部確認
- 一部音声ファイルの品質(背景ノイズや録音距離)に依存
今回の検証では、Speech-to-Textが高い認識精度と処理速度を持つことが確認できました。実際に私が1分あたりの音声データを一言一句文字起こしすると5分かかりましたので、約80% の時間削減が見込まれることになります(※1)。これにより実際の担当者はより戦略的な業務に時間を活用できます。
今後は、削減された時間で、BigQueryなどのデータ分析基盤と連携し、文字起こしデータを様々な角度から分析することで、顧客対応の質向上や新たなビジネスチャンスの発掘が期待できます!
※1 あくまで一例であり、音声ファイルの品質や内容、オペレーターの習熟度などによって削減時間は変動します。
さらに精度を上げるには?
-
カスタム音声モデルの作成
固有名詞や専門用語を学習させることで、精度を向上させます! -
音声品質の改善
マイクの見直しやノイズ環境の調整により、音声データの品質を高め、音声認識の精度を改善します! -
APIバージョンのアップグレード(V1→V2)
最新バージョン(V2)を使用することで、性能の向上が期待されます!
なぜSCSK?
SCSKは、Google Cloudのプレミアパートナーとして、お客様の課題解決に最適なクラウドサービスを選定し、導入から運用までをトータルでサポートします。お客様に寄り添い、長年の経験で培った技術力で、ビジネスの成長を力強く後押しします。
幅広いクラウド技術の知見
Google Cloudはもちろん、AWS、Azureなど、マルチクラウドに対応したエンジニアが多数在籍しています。お客様のニーズやビジネスの特性に合わせて、最適なクラウド環境を構築し、柔軟なシステム基盤を提供いたします。
さらに、SCSK独自のプライベートクラウドサービス「USiZE」も提供しており、パブリッククラウドと組み合わせたハイブリッドクラウド環境の構築も可能です。
トータルサポート体制
40年以上にわたるシステム構築・運用実績で培った業界知識と、クラウドに関する高い技術力、そして2,500名以上の認定技術者を擁するSCSKだからこそ、お客様のビジネスに最適なクラウド環境を実現できます。 お客様の業界基準やコンプライアンスに準拠した、強固なセキュリティ体制を構築し、ISO 27001認証取得のデータセンターで運用することで、お客様のデータ資産を安全に保護します。
また、お客様のクラウド活用を支援する、幅広いサービスラインナップを取り揃えています。
AIの導入実績
AI技術を活用したシステムの導入実績も豊富です。AIチャットボット、需要予測AI、画像認識AIなど、様々な分野で実績があります。お客様のビジネス課題を解決に導く、最適なAIソリューションを提案します。
- So-net様 AI本番導入事例:
- コンタクトセンターにてチャットボット、ボイスボットを導入し、オペレーターなしで回答を自動化。オペレーター応対件数を35%削減を実現
おわりに
いかがでしょうか。今回の検証では、Speech-to-Textが文字起こし作業の大幅な効率化に貢献できることが示されました。特に、処理速度と認識精度は期待以上であり、実務での活用に十分耐えうるレベルであると言えます。
Speech-to-Textの導入は、シンプルなUIで、配属1か月の営業担当の私でもたった2日で使いこなすことができました。ただ、本格的な文字起こし作業を完了するには、APIやSDKを利用したプログラミングが必要になる場合があります。
今後も積極的に技術に触れ、お客様の課題に最適な提案ができる営業を目指します。
本記事をご覧いただき、詳細をご希望の方やその他Google Cloudサービスについてご興味ありましたら、お気軽にお問い合わせください!
※本記事の内容は執筆者個人の見解であり、所属する組織の見解を代表するものではありません。