東京大学バナー(中) 東大 アラムナイ 寄付のご案内
| ENGLISH | サイトマップ |
東京大学 大学院 情報理工学系研究科
交通アクセス・学内地図
訪問者別ご案内
受験・進学希望の方
留学生の方
(For International Students)
企業・一般の方
修了者の方
高校生の方
高校教員の方
大学生の方
教育と研究
研究科案内
各専攻・教員の紹介
 
コンピュータ科学
  数理情報学
  システム情報学
  電子情報学
  知能機械情報学
  創造情報学
フォーカス(2006〜2016)
ソーシャルICT研究センター
情報理工学国際センター
情報理工学教育研究センター
受賞
ソーシャルICTグローバル・クリエイティブリーダー育成プログラム
グローバル・クリエイティブリーダー 講義
enPiT
データサイエンティスト養成講座(領域知識創成教育研究プログラム)
計算科学アライアンス
創造情報学連携講座
産学連携(R2P/IST等)
情報理工関係イベント
国際交流
(International Cooperation)
他プログラム
科学研究ガイドライン
情報倫理ガイドライン
入学・進学案内 new !
学生支援制度
履修・学籍・諸手続案内
科目等履修生案内
東京大学学務システム(UTAS)
工学・情報理工学図書館
公募情報
ポータルサイト (内部のみ)
ISTクラウド (内部のみ)
研究倫理審査・広報 (内部のみ)
緊急連絡
緊急連絡ページ
関連学部
工学部
理学部
Home > 過去のNews > フォーカス
 
Focus
フォーカス

 2008/06/15
機械を人間のようにしゃべれるようにしたい
電子情報学専攻 広瀬啓吉 教授

非線形の音声の壁、新発想で突破目指す
イントネーションと音の融合で音声合成へ

広瀬啓吉 教授 インターネットのブロバイダーにTELしてサービス内容を聞くと、オペレーターの音声で答えてくれる。かなり流暢に聞こえるが、これは人間の声を細工したもの。近く到来する人間と機械の共生時代では、ロボットなどの機械に人間並みのアクセントやイントネーションで話す機能が備われば、機械の活躍の場はいっそう広がる。広瀬教授は、そうした時代に向けて、音声を介して人間と機械が“会話”できるようにしようと音声合成研究を展開している。主体は機械がアクセントなど韻律を自由に操れるようにすること。「7、8割のレベルまでこぎ着けています。でも、あとの20%、そこが難関でしてね」。この扉をどうこじ開けようかと戦略を練っている。

切り貼り音声合成を打破するために

 音声には2つの側面がある。「アイウエオ、カキクケコ…」という発音の“音”と、しゃべるときのアクセントやイントネーションなどの“韻律”。アイウエオ…などは書いた文字を音にして出すようなものだが、アクセントやイントネーションは音声らしさを引きだす重要な要素だ。音声合成研究はこの両面から進められているが、人間がいとも簡単にコミュニケーションの手段として使いこなしている韻律の仕組みを機械に取り込んで、聞いていて耳障りのしない、心地よい会話ができるようになれば、人間の真のパートナーとなりうる。広瀬教授はここにフォーカスしている。

 現在の音声合成の世界は―。「人間のしゃべった声を切り貼りして、つなぎ合わせているんです」。預金残高照会なら、そのときによく使う言葉を声として録音し、つなぎ合わせて会話風に仕上げているのだ。これはコンピューターを利用してDB化した言語資料をもとにした大量の音声コーパスを用いた手法で、現在の主流である。基本的には人間の声だから音質はいいが、イントネーションが足りず、どうしても違和感が生じがち。また、少し外れた言葉が出てきたら対応がむずかしくなり、その言葉の声を録音して追加しないといけなくなる不便さもある。しかし、この方法が主体的に使われているのは、音声がどのようにして生成され、知覚されるかという技術の本質に迫ることができていないからだ。

生成過程モデルに基づく韻律生成と音声合成システム
生成過程モデルに基づく韻律生成と音声合成システム
※画面をクリックして拡大画像をご覧下さい

 声帯を震わしてできた音が、口から音声として発せられるメカニズムはわかっている。しかし、人間の口や鼻などの構造は複雑かつ柔軟性があり、音が動的に微妙に変化している。変化するのはわかっているのだが、それがどのようにして起きるのかを捉えきれていないから、人間の音にならないのだ。それに近づけるために、音声の基本周波数を上げ下げしたり、スペクトルを加工したりといった操作を行うと、そのたびに音質が下がってしまうネックがある。音声分析のむずかしさ、不完全さがその理由だが、そのような操作をするよりは、単に切り貼りした人間の声のほうが音質がよいので、音声合成に使われているのだ。音声研究者のだれもが抱える悩みだそうだ。

 これでは音声合成は大きな壁に突き当たったままで、機械に人間並みの発話能力を与えるのは夢物語になりかねない。ここへきて、音声認識で使われている統計的な処理を加味した手法(隠れマルコフモデル)を適用することで、品質の高い音を確保できるようになった。韻律は音声による情報伝達と深く関わっているが、モデルに基づいた方法で、その柔軟な制御が実現されている。これと融合させることによって、人間の声に近づく突破口が見え始めた。とはいっても、一筋縄ではいかない。音声の持つ非線形性という性質だ。この壁をうまく回避することが必要で、「現在、アタックしている最中。もう少し待ってください」。手応えは十分と笑顔が答えた。

ユーザーの特徴、状況を捉えた音声応答システム
ユーザーの特徴、状況を捉えた音声応答システム

 機械が人間並みのイントネーション付きで話すようになると、たとえば、アニメの世界がガラリと変わる可能性がある。いまは声優がキャラクターの動きに合わせてセリフを話しているが、監督が思い描いたとおりの声を機械なら出せるようになるかもしれない。私たちに声のサプライズが届く期待もある。

英語の発音をチェック、修正するシステムも

広瀬啓吉 教授 広瀬研究室では、音声合成技術を用いた発音教育システムの研究も進めている。日本人の英語教育、外国人に対する日本語のアクセント教育に使う。『ここを直すと、もっと英語らしく聞こえますよ』と機械が自動的に発音の悪いところをチェックし、教えてくれる。「自分の声で違いがわかるので、とても効果的なのですが」と前置きしながら、ちょっと困った様子も。「発音のどこが悪いかを見つけるのがむずかしくて」。それを音声認識で解決しようと試みている。人間ならたとえ聞き違えても、イントネーションなどからそれらしいと判断できるが、機械は間違えたら違うものと判断する。イントネーションが重要な役割を演じるので、音声認識研究もこの側面から光を当てている。

日本語のアクセント型の発音教育システム
日本語のアクセント型の
発音教育システム

 広瀬教授の博士課程の研究は、レーザー光の変調。それがなぜ、音声情報処理研究に。「おもしろそうだから」。音声は人間の物理と深く関与している、だから、レーザーで積み上げた物理研究とまったく無縁ではないことがわかる。以来、30年以上にわたって、音声に関するオールラウンドの研究を展開している。「音声研究の黎明期から立ち会え、音声の本質に触ることができた幸せを実感している」と言う。この研究人生を振り返って若手研究者に次のようにアドバイスする。「その研究の本質は何か、どこにあるかを自分で探ること。選んだ分野で行われている研究動向を常にウオッチし、自分の考えを押していく」ことと。

 好奇心が進む道を拓いた広瀬教授には、まだ終着駅は来ない。機械に人間並みのイントネーションを与える夢多い仕事が待っている。

広瀬・峯松研究室



大学院 情報理工学系研究科 お問い合せ先 東京大学