「手話と音声」による双方向コミュニケーションの実現を目指す「SureTalk」ソフトバンク/電通大/PFN/ABEJA等が連携

ソフトバンク株式会社は国立大学法人電気通信大学と共同で、手話と音声による双方向コミュニケーションシステム「SureTalk」(シュアトーク)を開発中だ。
既に茨城県水戸市などで試験提供を行い、今年の4月からは東京都調布市や福島県の聴覚障害者協会などに提供先を拡大して、さらなるシステム開発と認識率の精度向上を図るとしている。日本を代表するAI開発企業のPreferred NetworksやABEJAなども技術協力をしている(この記事の末尾)。
精度向上をはかるためにはさらに多くの手話データを必要としていて、手話ができる人から手話映像の提供を広く募集し、協力を呼びかけている。

■動画 SureTalk 手話と音声の双方向コミュニケーション

社会的に意義があるこの「SureTalk」、どのような仕組みで、どのような技術が使われているのか、ソフトバンクにインタビューした。

インタビューに対応してくれた、ソフトバンク株式会社 技術管理本部 システムサービス事業統括部 サービス推進部 SureTalk課 担当課長 田中敬之氏


手話ができなくても、音声に翻訳してくれるツール

「SureTalk」は最終的には手話と音声、テキストで隔たりのない会話を実現することを目指したコミュニケーションシステムで、現在はまだ開発中の段階だ。
AI技術を活用することで、手話の映像を解析し、音声やテキストに変更することができる。

例えば、市役所や店頭などの窓口に聴覚障がい者が訪れた際、タブレットのカメラに向かって聴覚障がい者が手話で「住民票の申請窓口はどこですか?」などを伝えると、AIがそれを解析し、音声で読み上げることで、窓口の担当者が手話を理解できなくても、意思を伝達することができる。

手話で伝えた内容を音声に変換、手話が理解できない人にも意思を伝えることができる

これをウェブのチャットに応用すれば、パソコンやスマホなどのカメラに向かって聴覚障がい者が手話をおこなった内容が、音声やテキストに変換されて通話相手やオペレータに伝えることができる。これによって通話相手はテキストで返信し、コミュニケーションを成立させることができる。


また、将来的には相手先が話した内容や入力したテキストを手話動画にして返信する技術にも発展させたいとしている。また、チャットだけでなく、Zoomなどのビデオ会議システムでも活用できるようにすることで、聴覚障がい者など、手話で会話をはかる人達が健聴者と一緒にリアルタイムのコミュニケーションに参加することも可能だとしている。

編集部

「SureTalk」はどのようようなものですか

田中氏

「SureTalk」は、手話と音声で双方向の会話を目指すコミュニケーションツールです。パソコンとiOSデバイス(iPadやiPhone)です。現在開発中の段階で、手話をAIが解析して、テキストに変換、それを音声で読み上げるところまでできています。


また、AIの認識精度を向上するために「登録機能」を開発しました。これは、手話ができる人に協力して頂き、iOSのアプリから手話をしている動画を投稿(提供)して頂くことで、AIが学習するためのデータの提供を広く募るものです(上の画像の下部「登録機能」の部分)。

編集部

技術的なしくみを教えて頂けますか

田中氏

聴覚障がい者の方が端末のビデオ通話アプリに手話をして頂きますと、映像からAIが手話の身体動作を追跡し、手話の特徴を抽出、内容を認識して日本語のテキストへと変換します。健聴者の言葉は音声認識技術を使ってテキストに変換して、聴覚障がい者の端末の画面に表示されます。

編集部

手話認識にはどのような技術が使われていますか

田中氏

手話認識のしくみは下記のスライドの通りです。画像から指先を含めて骨格推定技術を使って手話の内容をAIが解析し、AIがデータベースと紐付けをおこない、日本語テキストに変換しています。

骨格推定から手話を認識して、データベースと紐付ける高精度な技術が活用されている

ただ、手話を認識して単語単位で変換しても、健聴者が理解できる日本語の文章になるとは限りません。例えば、助詞が抜けているなどの可能性があるので、深層学習をおこなったAIが文章として理解できるように日本語文章を補完して文章を完成させています。

手話をテキストに変換した後、文章として理解しやすいように、AIの深層学習やルールベースのシステムを使って補完している

■動画 SureTalk 手話を解析する骨格推定AI技術



東京都調布市の協力を得て、社会福祉協議会に所属する聴覚障がい者の方から手話言語収集について多くの有益な情報を取得し、手話データベースの充実化をはかった。また、ソフトバンクの社員による手話動画データ撮影に加え、福島県聴覚障害者協会の協力を得て、多くの手話動画データを収集する体制を構築した。そして、撮影した動画を分類するアノテーション作業については、機械学習や深層学習の手法を適用して自動化することに取り組み、作業時間を大幅に短縮して、研究・開発の効率を飛躍的に高めたという。また、手話動画についてはオリジナルの動画の匿名化技術によって個人の特定が困難となる加工を施して、個人情報の安全性を担保している。




手話データを広く募集中

ソフトバンクは「SureTalk」のAIやデータベースの精度を更なる向上をはかるため、2021年7月から手話データ「登録機能」を公開した。手話に興味を持つ人に広く訴求していくことで手話データベースの充実を図り、手話認識率の精度向上につなげてユーザーの利便性を高めていきたい考えだ。具体的には手話動画データの投稿を広く募集。アプリ「SureTalk」(iOS用のみ)をダウンロードすることで投稿できる。

■iOSアプリ「SureTalk」ダウンロードのURL
https://itunes.apple.com/jp/app/id1572242181?mt=8


「SureTalk」の開発協力企業からのコメント

「SureTalk」の開発協力企業各社から下記のようなコメントが寄せられている。

株式会社ギークフィード:リアルタイムコミュニケーションの確立やアプリケーションの開発など
このたびは各ジャンルで最先端をリードする企業と名を連ね、大変社会的意義のある新たな価値を創造する産学官連携プロジェクトに参画させていただき、光栄に思います。今後も弊社の培った技術が社会貢献事業の一端を担えるよう社員一同まい進していきます

株式会社セラク:アプリケーションのユーザーインターフェースの開発など。
聴覚障がい者と健聴者の両者が、このツールを通して十分な情報の共有・コミュニケーションが取れるよう、見やすさ、使いやすさへの配慮と、サービスを通して得られる顧客体験を意識したUI・UXデザインを設計・実装しました。また、マーケティング視点を持ち、認知拡大~理解深化~ユーザー化を目的としたコミュニケーションデザインとサービスサイト構築を行いました。

株式会社Preferred Networks:個人情報保護のための手話動画匿名化の開発など
個人情報保護の観点から手話動画を匿名化するために、深層学習を用いた姿勢推定技術により、映像上の手話者の手や指先の動きを正確に把握し、それに連動する3Dコンピューターグラフィックス(CG)を自動生成する技術を開発しました。Preferred Networksは今後も深層学習技術を応用して、聴覚障がい者と健聴者のコミュニケーションを円滑にするための技術開発に取り組んでいきます。

株式会社ABEJA:手話認識エンジンの前工程であるアノテーション業務など
長年のモデル開発のノウハウと自社開発のアノテーションツール『ABEJA Platform Annotation』を活用し、38時間の動画および5万手話文書の手話動画のラベリングプロジェクトを担当しました。ソフトバンクとの協業を通じて、良質なモデル開発に欠かせない高品質なデータセットづくりを行うことができました。


ABOUT THE AUTHOR / 

神崎 洋治

神崎洋治(こうざきようじ) TRISEC International,Inc.代表 「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ~くわかる本」(秀和システム)の著者。 デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。

PR

連載・コラム