はじめに

デジタルコミュニケーション技術が役立つのは,効率化や生産性の向上だけではない.これまで「健常者」を前提として構築されてきた社会や職場において,あらゆる人にとってのアクセシビリティを向上し,コミュニケーションの溝を埋めるためにも有用である.本稿では,特に音声の認識・文字化技術に着目する.こうした技術は,単純には聴覚障害をもつ人を「包摂」し,さまざまなサービスを気兼ねなく利用したり,従業員として提供したりする際に役立つと考えられる.これらの技術がどのように利用され,どのような効果を生んでいるのか,そして活用の難しさはどこにあるのかを尋ねるべく,Shamrock Records株式会社代表取締役の青木秀仁氏にお話を伺った.

青木氏は,音声認識と自動翻訳技術の活用を推進し,多くのアプリを開発・リリースしている.特にコミュニケーション支援・会話の見える化アプリである「UDトーク」は,2013年のリリース以降,多くのユーザーを獲得し,聴覚障害対応のスタンダードにもなっている.2022年10月には,NPO法人障がい児・者の学びを保障する会の事業への技術サポートに関するプレスリリースを出している*1.本インタビューは,このプレスリリース記事をきっかけに企画されたものであり,2024年9月26日にオンラインで行った.本稿は,その録画データを音声認識することで生成した字幕データを編集する形で執筆されたものである.

インタビュー

就労支援におけるITの対話的開発と活用

根本 今回「障がい者が『学び・はたらく』ことを『当たり前』に!」というプレスリリースを拝見して,インタビューをお願いしました.まずは,この取り組みの内容や経緯を教えていただけますか.

青木氏(以下,青木)「障がい児・者の学びを保障する会」というNPO法人が東京都練馬区にあり,私はその代表理事の方と地域活動を通じて長いお付き合いをさせていただいています.このたび,新たに「3B!!!s」という就労継続支援B型事業を始めるという話を聞きました.

私のところでは,動画の字幕作成や音声認識の誤認識を修正する仕事があります.音声を聞きながら修正していく仕事で,ちょうど委託先を探していたところだったんです.そこで,3B!!!sにお願いしてみたのですが,最初は軽度知的障害をお持ちの方にはこの作業が難しいことが分かりました.そこで何が難しいのかを聞いたり,実際に作業を見せてもらったりした結果,PC上でいくつかのアプリを切り替えながら作業するのが苦手だということがわかりました.そこで,この部分を解決すれば良いと考え,字幕エディターというアプリを開発しました*2.このアプリを使えば,すべての作業が1つの画面で完結できるようになり,実際に使ってもらうととてもスムーズに作業が進むようになったんです.

軽度知的障害がある方の中には,集中力がとても高く,誤字や脱字を見つけるのが得意な方もいらっしゃいます.難しそうに見える作業でも,やり方や道具を変えればできるようになるんだと実感しました.それから,さらに良い方法を見つけようと思い,字幕エディターを改良し続けました.

私たちだけで行っているのはもったいないということで,この事業を正式に事業化しようということになりました.この事業では,文字起こしや字幕データ作成を行っていますが,急ぎの仕事はお受けしていません.就労支援だからといって特別に安くしているわけではなく,一般的な相場の価格で提供しています.無理に仕事を作っているわけではなく,きちんと社会貢献できる仕事をしています.私たちからは定期的に発注していますし,自治体や学校からも発注があり,議員業務や議会報告の文字起こしも担当しているようです.

3B!!!sは物品販売などさまざまな活動を行っており,文字起こしはそのうちの1つの事業に過ぎません.

根本 なるほど.実際にコミュニケーションをしながら,働いている方々にフィットするようにツールを開発されたんですね.

青木 ユーザーの方々は,使いづらいと感じてもそれを我慢するのが当たり前になっていることが多く,今使っているシステムやアプリが改善できるという考えを持っていないことがよくあります.そうした状態からやりとりを進めていくのは,少し大変でしたね.ですが,「開発した人が近くにいるんだから」と言い続けた結果,ようやく遠慮なく意見を言ってくれるようになりました.この経験を通して,作り手と使い手のコミュニケーションがいかに大切かを改めて実感しました.

根本 プロダクトとして世の中に広く流通しているものほど,作り手との距離が遠くなってしまいますよね.そうなると機械やソフトウェアの方に人間が合わせていかなきゃいけない.

青木 もちろん,歩み寄りは大切ですが,双方が歩み寄ることが必要だと私は考えています.また,プログラマーというだけで萎縮されるケースも少なくありません.福祉業界には,まだアナログ的な部分が残っていたり,最新のテクノロジーを活用することに不安を感じる方々が多かったりします.ですので,私との関わりを通じて,さまざまな体験をしてもらい,それを楽しんで知っていただければと思っています.

アクセシビリティへのサービス業的発想

根本 シビックテックという形での地域活動もやられていますよね.青木さんがお仕事としてやってきたこととは,どうつながっているんですか.

青木 私は練馬区で「Code for Nerima」を運営しているのに加えて,「Code for Japan」の正会員としても活動しています.これらの団体が主催するイベントでは,すべてUDトークを使用して字幕を付けるようにしています.地域活動やシビックテックでは,「全員参加」という言葉が使われますが,実際には聞こえない方々は字幕がなければ参加できませんし,外国人で日本語が分からない方々には通訳や翻訳システムがなければ参加できません.ですので,使う人がいるかいないかに関わらず,選択肢を用意しておくべきだと私は言い続けてきました.その結果,賛同してくれる団体や自治体が増えてきました.

バリアフリーやアクセシビリティを「福祉」と捉えている方々ほど,気合や努力,根性,真心で解決しようとする傾向があります.しかし,私はもっと論理的にアプローチすべきだと考えています.

根本 論理的というのは,技術や仕組みで解決していくものだということですか.

青木 まさに仕組みの問題だと思います.アクセシビリティへの対応は,提供されるサービスの一部だと考えています.営利目的で開催されるイベントでは,参加者に来てほしいので,その方々に向けてしっかりと接客を行うことが求められます.私自身は元々,ビジネスアプリとして音声認識に携わってきた経験があり,福祉の慣習や考え方から学ぶべき点は多くありますが,それでもなぜサービス業的な発想ができないのか疑問に思ってしまいます.

また,UDトークで字幕対応を行うと,利用者の方々から「ありがとうございます」とお礼を言われることがよくあります.しかし,私としては「言わなくていいから」と感じます.私たちが提供しているのは,参加者を増やすために必要な手段だからです.むしろ,「参加していただきありがとうございます」と言うのは主催者側の役割だと思っています.

ユニバーサルデザインの受益者

根本 ツールの開発において気をつけていることはありますか.

青木 UDトークや字幕エディターについても同様ですが,私はツールを開発する際に,自分が実際に使うことを前提に作成しています.そして,ユニバーサルデザインの基本には,「障害者の方が使いやすいものは健常者も使いやすい」という考え方があります.障害者の方々にとっては,字幕は絶対に必要なものですが,聞こえる人々にとっては,字幕があってもなくても良いし,あったら便利なサービスです.そのような重なった部分をもっともっと当たり前のこととして広めていくことが大切だと思っています.

根本 耳が聞こえる立場からは,字幕がつくことの効果や変化として,どのようなものを感じていますか.

青木 私は少し発達障害の傾向があり,人の話を聞くのが苦手です.音だけでは頭に残らず,小さい頃からノートを取るのが難しかったんです.UDトークを使っていると,人の話に字幕を付ける作業が発生するのですが,字幕があると内容が理解しやすくなるんですよね.正確には字幕の方に目が行っているのですが,そのおかげでさまざまな知識が入ってきたという実感も湧きました.

発達障害や聴覚障害の有無に関係なく,字幕があることで専門用語が分かりやすくなった,話に集中できたという人も結構いるようです.SNSでもそのような反応を見かけます.一方で,講演をする側の人々の中には,「字幕をつけると,参加者が字幕ばかり見てしまって自分の方に集中してもらえなくなるのでは」と否定的に考える方もいましたが.

根本 そんな反応もあるんですね.

青木 アプリビジネスの文化では,ユーザー数を増やすことによって,それが一つの「意見」として成立するのが面白い点です.ですので,まず最初にやるべきことは,ユーザー数を増やすことだと考えています.

根本 興味深い現象です.UDトークは,特に聴覚障害対応のスタンダードになっていると思うのですが,ユーザー数を増やすために青木さんから仕掛けていったことはあるんでしょうか.

青木 私ができることは多くはありませんが,やはり自分自身が使い手であり,伝える側としてユーザーであり続けることが重要だと考えています.そうすることで,必然的にバージョンアップや機能追加を行っていくことになるでしょう.また,SNSでの広報活動や投稿も頻繁に行っています.私はSNSが大好きなので,情報発信に関しては他のアプリに比べて多い方だと思います.

根本 日常生活でもUDトークを使っているんですか.

青木 使わない日はありません.元々,このアプリを開発したきっかけは,自分自身が耳の聞こえない方に伝えたいことを伝えるために必要だったからです.開発当初から今に至るまで,日本の社会では障害者の自立が強調されていますが,私は,聞こえない人とのコミュニケーションは,伝える側が担保すれば良いだけのことだと思っています.手話だって,耳が聞こえない人自身が使うものではなく,その人に何かを伝えたい人が使うものですよね.UDトークも同じで,伝える側が使えば良いのです.ですので,私の周りに聴覚障害の友人がいる限り,これからも使い続けるでしょう.

UDトークはスマートフォンやタブレットのキーボードとしても使うことができるので,他のアプリへの音声入力ツールとしても利用できます.私自身も,現在はスマートフォンへの入力をほとんど音声で行っており,それが日常的に使っている理由の一つです.スマホに組み込まれている音声認識との違いは,自由に単語登録ができるところです.専門用語が出ないことで困ることがなくなり,ずいぶん使いやすくなります.

また,UDトークは多言語の翻訳にも対応しています.語学を学んで話せるようになることも大切で楽しいことですが,コミュニケーションは必ずしも1つの方法にこだわる必要はなく,いくつかの選択肢を持っておくと良いと思います.私は,UDトークと手話を併用したり,英語や中国語も併用しながら会話したりするので,選択肢の1つとして活用しています.

根本 なるほど.コミュニケーションは伝わることが重要であってルートは何だっていい,と.

青木 私は「話せば分かる」という言葉が一番嫌いなのですが,多言語が標準の国々に比べて,日本はそうした風潮が強いと感じています.学校でも,日本語で話して理解できないのは,児童生徒が物分かりが悪いからだと平気で言ってしまう先生もいるようです.しかし,私は伝わらないのは100%話し手の責任だと考えています.

ビジネスで講演を行う場合,分かりにくい話をしていれば,お客さんが来なくなってしまいます.ですので,自分が話している内容を文字に起こして,フィードバックを得ることで,どれくらい伝わっているのかを意識しながら会話できるようになると良いと思います.

根本 先ほどの自立形成という話もそうですが,大学でもバリアフリー支援を受けたい場合,それを求める側が申請を出さないといけないんですよね.教員の側がもっとコミュニケーションの回路を開いておけば,別に声に出さなくても済むのに.かくいう私も,今回インタビューするにあたって初めてそういうことに思い至ったのですが…….

青木 もちろん,自分で言うことも大事だとは思います.今年の4月から合理的配慮が義務化されましたが*3,合理的配慮とは要は対話であり,人間社会では当然のあり方だと思います.一方で,障害のある方々は,これまでそうした要望を断られてきたという経緯があり,断られて嫌な思いをするぐらいなら初めから言わない方が良いと考えてしまう方も多かったのではないでしょうか.今後,ルール上は断れなくなったわけですが,まだ状況が変わるわけではないでしょう.

だからこそ,私はサービスとして提供する方向が良いと思っています.例えば,学生向けのサービスとして,すべての講義が文字とセットでアーカイブされることが,当たり前に存在しても良いと考えています.特に外国人の学生にとって,日本語の授業を聞くことは非常に大変だと思います.日本語でアーカイブされているだけでも,ゆっくり何度も繰り返して聞くことで日本語の学習になるでしょうし,文字データがセットになっていれば,自動翻訳もできるわけです.

現在,UDトークの導入先は学生支援室が多いのですが,その場合,なるべく教授に迷惑がかからないように,生徒個人で使う方向になってしまうことが多いです.大学としては導入しているにもかかわらず,その教員から「このアプリ,いいですね」と言われることがよくあり,驚かされます.先ほど話したようなアーカイブ化などを本気で進めるのであれば,教員単位ではなく,大学単位で動かないといけないと思います.

アーカイブの価値

根本 アーカイブを残すことの価値について,青木さんの考えをもう少しお聞かせください.

青木 その日その時間に,現場に出向いてリアルで参加できるのは,健常者にしかできないことだと思います.障害を持っていなくても,怪我をしたり病気になったりして,普段の生活が送れないタイミングはいくらでもあるわけです.やはり,アーカイブをしておくことで,さまざまな人が情報にアクセスできる機会が増えるというのは,間違いなく良いことだと思います.

今は,人が集まったイベントが成功とみなされることが多く,リアルに参加した人数を評価基準にしてしまいがちですが,アーカイブを公開すると,理由はどうであれ,現地に来る人は減ってしまいます.それでも,後から内容を知ることができるというのは,やっておいて良いサービスだと思います.例えば,1週間後にアーカイブを公開するようなタイムラグを設けることで,「それなら現地に行きたい」という判断をする人も出てくるかもしれません.合理的配慮の要望についても,リアルで対応できなかった場合,代替案としてアーカイブがありますよと提案すれば,それで良いと言う人も多いのではないでしょうか.

もう一つ,データは検索ができて初めて資産価値が生まれると思っています.アーカイブも,ただの動画ではあまり価値がありません.検索可能にするためには,文字データやタイムタグをセットにしておくと良いですね.実は,動画の字幕データを検索できるようにするツールも作っていて*4,キーワード検索をすると,何分何秒のところでそのことを話しているのかが分かるような仕組みです.オープンソースなので,サーバーを立てて組み込める人がいれば誰でも使えるのですが,実際には誰にも使われていないという(笑).

根本 おぉ,これは便利ですね.

青木 字幕データを作成する作業は,人手で行う必要がある部分もありますが,システム化して自動化できる部分もあります.最初に音声認識を使って自動的に字幕を生成し,その後,必要な部分を人手で修正する形にすれば,コストをそれほどかけずに効率的に実現できると思います.

根本 字幕のテキストデータも蓄積していくことで,色々とできる可能性は広がってきますよね.

青木 現在,AIはどんどん多くのことができるようになっていますし,AIの学習データにUDトークのログを活用することも可能です.元々ログを蓄積していた人々は,そのデータを活用して一歩先を行けることになります.それをすべて学習させてしまえば,いつでもQ&Aができるようにすることも可能になります.

AIによるフラットなコミュニケーション

根本 普段のお仕事でもAIを活用しているんですか.

青木 プログラマーがAIを使ってコーディングを行うという話がありますが,私はコーディングが大好きなので,メインではAIを活用していません.文章やプレゼン資料も自分で書きたい方なので,AIの活用方法についてはまだ考え中です.

一応,LINE BotのバックエンドにOpenAIのAPIを使用して,一問一答のチャットボットを作成しています.実物の私よりも,AIの方が言葉遣いが丁寧で(笑),AIとの対話は人間よりもフラットな回答を得られる気がします.例えば,学生の個別相談や入試の面接には向いているかもしれません.聴覚障害を持っている方からは,UDトークの字幕はフラットで良いという反応をいただくことがあるのですが,人間が要約や翻訳を行う際には,どうしてもその人の主観が入り込んでしまいます.

根本 フラットさが求められるコミュニケーションもあるし,生身の人間感が求められるコミュニケーションもあって,どちらか一方だけではないですよね.

青木 そうですね.どちらが良いとか悪いとかではなく,選択肢を提供できる柔軟さが求められていると思います.

字幕を当たり前のサービスに

青木 大学の先生方もこれから大変だと思います.

根本 変えた方がいいこともたくさんあるんですが,長年やってきたことを変えるのは,やっぱり難しいですよね.何か打ち手はあるんでしょうか.

青木 主催する側のメリットをしっかりと提示していく必要があると思っています.私はよく「潜在顧客」と言っています.実際,聞こえない人,動けない人,見えない人が世の中にはたくさんいますが,知らなければ気づかないわけです.「今まで自分の顧客や主催するイベントに,そういう人が来たことがない」と言われることも多いです.例えば,英語のイベントがあって,自分が英語を分からない場合,日本語通訳があると書いていなければ,そもそも参加しないですよね.字幕も同じだと思います.そういった人たちに選ばれていないだけだから,一度字幕をつけてやってみてくださいと言うと,やはり字幕があることで参加できる人が来るんです.そこで初めて潜在顧客に気づくことができるんですよね.

根本 なるほど,ビジネス的な言い回しなので,届く人も多いかもしれませんね.最後に改めて今後の展望について教えてください.

青木 障害者の分野では,合理的配慮の制度が施行された時点で,私の仕事はもう終わっていると感じています.道具は用意しましたので,それを使うか使わないかは皆さん次第だという立場です.現在は,アクセシビリティやユニバーサルデザインの分野で,字幕がもっと当たり前に採用されるサービスになってほしいと願い,その方向に力を入れています.

例えば,聴覚障害の対応に関しては,当たり前のように「手話通訳で良いですか?」と考えられがちですが,そういった思い込みが根強く存在しています.明日,もし耳が聞こえなくなったとしても,人は急に手話を使えるようにはなりません.手話は言語であり,勉強して習得するものです.だからこそ,サービスとしてのアクセシビリティが,特に言わなくても提供されるように意識を変えていく必要があると思っています.

ある日突然,私の耳が聞こえなくなる可能性もあります.その場合,今の日本の社会では,自分で頑張らなければならないという状況が待っています.それは嫌ですし,もしそうなったとしても自分が何も諦めることなく社会で過ごせるようにしたいと思っています.微力ながら,その意識が変わる手助けになればと思って,今も活動しています.

根本 まさにユニバーサルデザインですね.本日はありがとうございました.

インタビューを終えて

ユニバーサルデザインという言葉は,元来全ての人にとって使いやすいデザインを目指すものであるが,その意図に反して「障害者の包摂」という印象をもってしまう.しかし,障害の社会モデル(飯野他,2022)が指摘するように,障害は個人の特性ではなく社会の仕組みや環境によって生み出される.本インタビューでも繰り返し語られたように,社会がアクセシビリティを充実させることは,実際に困っている人たちだけでなく,様々な構成員に利益をもたらす可能性がある.このような変化が,ユニバーサルデザインの本質であるはずだ.

本稿を通じて,音声認識技術によるデジタルコミュニケーションは,サービスとしてのアクセシビリティが溢れる社会を実現するために不可欠のものであることを確認した.著者自身も,このインタビュー後の後期授業から字幕共有を試行しており,学生から想像以上の反響があった.こうした気づきを積み重ね,自分自身の実践を変化させていくこと,そしてそれを広げていくことから,万人にやさしい社会の実現に寄与していきたい.

参考文献

飯野由里子, 星加良司, 西倉実季 (2022).「社会」を扱う新たなモード―障害の社会モデルの使い方, 生活書院.

識者紹介

青木 秀仁
Shamrock Records株式会社,代表取締役.音声認識と自動翻訳技術の活用を得意とし,多数のスマートフォンアプリをリリース.

著者紹介

根本 裕太郎
横浜市立大学国際商学部,大学院国際マネジメント研究科准教授.博士(工学).民間企業,公的研究機関を経て2022年9月より現職.ウェルビーイング志向のサービスデザインに関心.


  1. https://prtimes.jp/main/html/rd/p/000000001.000110136.html(最終アクセス日:2024年12月28日)
  2. 一般ユーザー向けの字幕エディターも公開されている.https://udtalk.jp/jimakueditor/(最終アクセス日:2024年12月28日)
  3. 合理的配慮とは,障害のある人から「社会的なバリアを取り除いてほしい」という意思が示された場合には,その実施に伴う負担が過重でない範囲で,バリアを取り除くために必要かつ合理的な対応をすること.2024年4月1日から事業者による提供が義務化された.
    https://www.gov-online.go.jp/article/202402/entry-5611.html(最終アクセス日:2024年12月28日)
  4. https://udtalk.jp/capsearch/(最終アクセス日:2024年12月28日)
おすすめの記事