GoogleやAmazonで、スマートスピーカーが販売されていますが、日本語もだいぶ滑らかになってきていますね。
RaspiでもGoogleのキットが売られていますが、日本語の音声合成はどうやっているのだろうと思っています。
HMMのOpenJtalkとか、Wavenetとかいろいろな手法があるようですが、自分はその方面には全く知識がありません。
でも、仕組みを理解していきたいと考えています。
まずは、GitHub等で公開されている、音声合成について、手元で再現できるか試していき、徐々に学習していきたいと思います。
どんな知識が必要か、どんな仕組みであるか少しづつまとめて、ここに残していきたいと思います。