フレンズの音声をx-vectorで分析する

概要

前回ではいきなり信号分離(ChimeraNet)->話者推定(x-vector)と難しいことをして、結果は惨敗でした。 これでは進まないので、うまくいかなかった原因を突き止めることが次の課題でした。

そこで、x-vectorの学習済みモデルが日本語アニメの音声に適用できるか検証します。 これのついでに、KaldiのSITWモデル利用のチュートリアルを提供します。

実験は、x-vectorから学習したPLDAモデルの性能検証とx-vectorクラスタリングの二本立てです。 結果は、PLDAモデルによる予測の性能はまずまず(EERで12.5%)で、クラスタリングはいまいち(ちゃんと測っていないけど正解率10%未満)でした。

続きを読む

アライさんになりきってみたかった(後編)

前編に引き続き、音声変換でアライさんになりきってみます。 音声変換はyukarinおよびbecome-yukarinを使用しました。

結果はこちらです。

  • 第一段階(粗変換)
  • 第二段階(高品質化)

どちらも「あらゆる現実を 全てアライさんの方へねじ曲げたのだ」と言ったつもりですが、全くダメですね。はい。

続きを読む

アライさんになりきってみたかった(前編)

あらまし

2019年4月頃からTwitterなどで認知されてきたアライグマの「アライさん」のなりきり。 いくつかのポイントを押さえるだけで、簡単にかわいいキャラクターになりきれることが魅力です。 その一方、Twitterではテキストのみが対象なので、見た目などの要素を増やして、よりアライさんに近づきたい要求もあると考えられます。

そこで、本プロジェクトでは、声の質を変換する音声変換と呼ばれる技術を用いて、声の側面でアライさんになりきる方法を提案します。 本記事(前編)でデータの抽出、続く後編でyukarinライブラリによる音声変換を行います。

なお、前後編ともに結果が悪いため「なりきってみたかった」としました。 使える結果はここに無いので、探している人はごめんなさいなのだ。

続きを読む

Graph Golfに挑戦

NII(国立情報学研究所)主催の競プロGraph Golfに参加して,うまくいかなかったので報告です.

問題概要

与えられた頂点数Nと次数dから,次で定義するスコアが小さいレギュラーグラフ(すべての頂点の次数が同じ)Gを求める問題です.

{\displaystyle
\textrm{score} = 10000 \times \textrm{diam}(G) + \textrm{aspl}(G)
}

ここで,diamはグラフの直径(最長の距離), asplは平均経路長(全頂点間の距離の平均)のことです.

続きを読む