多話者多言語音声合成のデモ音源

「多話者多言語音声合成」とは、1つのAI(音声合成モデル)から、複数話者と複数言語の音声を合成する技術です。

従来、AIキャラクターの音声合成を実現するためには、対象の話者の音声を大量に収録する必要がありました。新たに開発した多話者多言語音声合成では、複数の話者の音声を用いて1つの音声合成モデルを学習することで、複数の話者・言語の音声を合成することができます。それによって、対象の話者の少量の音声からでも、その話者のキャラクター性を持った音声を合成することができます。

さらに、日本語と英語といった複数の言語の音声も含めて1つの音声合成モデルを学習することで、英語が話せない話者のキャラクター性を保ったまま、英語の音声を合成することも可能となります。

多話者多言語音声合成の概要


下記は、多話者多言語の音声から学習したAIキャラクター「りんな」に、日本語と英語を発音させたデモ音源です。

AIりんな 日本語
AIりんな 英語
AIりんな 英語混じりの日本語
AIりんな 日本語混じりの英語

また、下記は日本語が話せない英語話者の音声から学習したAIキャラクターに、英語と日本語を発音させたデモ音源です。

英語話者のAIキャラクター 英語
英語話者のAIキャラクター 日本語