GoogleがCloud Speech-to-Textをアップデート、より高度な音声認識を可能に
2018年4月9日、Google Cloud Platformブログにて「Cloud Speech-to-Text」サービスの大規模なアップデートが発表された。これは音声をテキストに変換するクラウドサービスで注目すべき新機能がいくつか追加されているので紹介したい。
用途別の音声トランスクリプションモデル
認識精度を向上させるために、音声トランスクリプションが4つ選べるようになった。
コマンド・サーチ、電話、ビデオ、デフォルトの4種類が用意されており、元音声がどの音声モデルなのかを利用者が指定することができる。これにより音声認識のエラーが54%〜64%も減少するという。
自動句読点付与
音声認識した結果のテキストに自動的に句読点を付ける機能も大幅にアップデートされた。
長文にカンマ、ピリオド、疑問符などを挿入することで、読みやすいテキストを生成することができる。
認識メタデータでユースケースを記述
このサービスの利用者は、音声認識時にメタデータを任意に付与することができる。例えば、ショッピングアプリの音声コマンド、スポーツTVのバスケットボール番組などのタグを指定する。これらのメタデータが蓄積されることでGoogleが音声認識の開発の優先順位を判断したり、認識精度を向上させやすくなるという。
「Cloud Speech-to-Text」サービスの利用料金は、ビデオモデルを除くすべてのモデルで15秒間に0.006ドル、ビデオモデルの場合、15秒間に0.012ドルとなる。なお、5月31日までは試用期間としてビデオモデルも15秒間に0.006ドルで提供される。
ABOUT THE AUTHOR /
中橋 義博1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。