フレンズの音声をx-vectorで分析する
概要
前回ではいきなり信号分離(ChimeraNet)->話者推定(x-vector)と難しいことをして、結果は惨敗でした。 これでは進まないので、うまくいかなかった原因を突き止めることが次の課題でした。
そこで、x-vectorの学習済みモデルが日本語アニメの音声に適用できるか検証します。 これのついでに、KaldiのSITWモデル利用のチュートリアルを提供します。
実験は、x-vectorから学習したPLDAモデルの性能検証とx-vectorのクラスタリングの二本立てです。 結果は、PLDAモデルによる予測の性能はまずまず(EERで12.5%)で、クラスタリングはいまいち(ちゃんと測っていないけど正解率10%未満)でした。
続きを読むアライさんになりきってみたかった(後編)
前編に引き続き、音声変換でアライさんになりきってみます。 音声変換はyukarinおよびbecome-yukarinを使用しました。
結果はこちらです。
- 第一段階(粗変換)
- 第二段階(高品質化)
どちらも「あらゆる現実を 全てアライさんの方へねじ曲げたのだ」と言ったつもりですが、全くダメですね。はい。
続きを読むアライさんになりきってみたかった(前編)
あらまし
2019年4月頃からTwitterなどで認知されてきたアライグマの「アライさん」のなりきり。 いくつかのポイントを押さえるだけで、簡単にかわいいキャラクターになりきれることが魅力です。 その一方、Twitterではテキストのみが対象なので、見た目などの要素を増やして、よりアライさんに近づきたい要求もあると考えられます。
そこで、本プロジェクトでは、声の質を変換する音声変換と呼ばれる技術を用いて、声の側面でアライさんになりきる方法を提案します。 本記事(前編)でデータの抽出、続く後編でyukarinライブラリによる音声変換を行います。
なお、前後編ともに結果が悪いため「なりきってみたかった」としました。 使える結果はここに無いので、探している人はごめんなさいなのだ。
続きを読む