WaveNetってのがあるんだねえ。発表されてから、もう2年も経つんだってさ。音声合成の新しい手法なんだって。超有名なのがGoogle TTSなんだねえ。Google Homeとかで聞けるあれね。
Google TTS API
のページでデモができるんだけど、これをやってみて面白いことに気がついたので、ちょっとだけメモ。
- 言語は日本語
- 速度は2倍以上
- ピッチは-20程度
この条件で、ある程度長い日本語の文章を入力して読ませてみよう。下記の設定、みなさんはどちらが好き?
- WaveNet音声
- Basic 音声
何を言わんとしているか、感の良い人なら気がついてくれるはず。そう、スクリーンリーダーで使用するような超高速な読み上げにすると、高音質を歌っているTTSがどうもその本領を発揮しない。スクリーンリーダーユーザーの中には付属してきている高音質エンジンではなく、20年くらい前に開発された低品質の(失礼!)音声を使い続けている人がいるんじゃないかな?私もそうだ。だって、これより明瞭で高速な音声はないんだもん。