「兎田ぺこら」になる(なれない)

この記事はFUN part2 Advent Calendar 2021 Part2の20日目の記事です。昨日は嶋さんの『なんか半年で退職したやつとその時の事』でした。奇想天外キテレツ体験で退職するよりずっとリアルで、あぁ本当の虚無は粛々とやってくるのだなと恐ろしくなりました。でもお仕事見つかったようでよかったです。

自己紹介

はこだて未来大複雑系コース学部3年の加藤まると申します。先日鬼滅の刃を視聴しました。とても面白かったです。友達を募集しています。

さて、本日は題名にある通り兎田ぺこらになっていこうと思います。

兎田ぺこらとはなにか

人物名です。女性です。動くイラストを使いインターネットなどで活動をする人をバーチャルYouTuberといい、彼女もそのひとりです。
出典: https://www.hololive.tv/portfolio/items/usada-pekora

彼女は語尾に「ぺこ」をつけており、文体も可愛らしいです。文体から彼女の可愛さが滲み出ていますね。惚れてしまいます。兎田ぺこらといえばこの文体であり、この文体といえば兎田ぺこらです。

本題

さて、本日は兎田ぺこらになっていきます。上で示したように、彼女の文体は彼女を表しています。つまり入力した文をぺこら語調に変換できれば、兎田ぺこらになったと言っても過言ではないわけです。ということで、自然言語処理を用いて大好きな兎田ぺこらになっていきます。

提案手法

どんな語調も英語に翻訳することで正規化を行えることを利用します。

砕けた文も英語に翻訳し、もう一度日本語に戻すと正規化された文を得ることができます。

「I’m tired.」と「疲れちゃったにぇ」をペアで覚えておくことで、次に「つかれた」と入力したとき英語文が一致する「疲れちゃったにぇ」が出力をすることで元の文体を復元できます。このアルゴリズムを用いて、ぺこら辞書を作り文体を変換します。

ぺこら辞書の準備

  • 兎田ぺこらの書いた文を文節にわけ、2つずつのペアを作成
  • それをGoogle Translate APIに投げ英語に翻訳
  • 日本語(ぺこら語調)と英語の辞書を作成

変換するときのアルゴリズム

  • 入力された日本語文をGoogle Translate APIに投げ英語に翻訳
  • ぺこら辞書から「英語」で一致するものを探す
  • 一致すれば日本語文をぺこら語に変換

これで通常の語調をぺこら語調に変換していきます。

実験

気づいたら2年分の兎田ぺこらのツイートが手元のPCに全て保存されていたのでそれを使います。ぺこらになるのは私だけで良いので詳しい説明はしません。

えい!

えいえい!

これでぺこら辞書が作れました。では実際に変換できるか試してみましょう。元の辞書にない単語組み合わせは変換できないので、試しにぺこらのツイートを語調変えて入力してみます。

えい!

1
text = '本日は触りしかできませんでしたがプレイしていてとても面白かったです。皆さんも見てくれてありがとうございました!!!'
1
>>> 本日は触りしか遊ぶぺこいたあのとても面白かったです。見てくれてくれてありがとうございました!!!

ぺこが出現していますが変換できていません。ちなみに元のツイートは「今日は触りしかできなかったけど遊んでてとっても面白かったぺこ✨✨みんなも見てくれてありがとおお!!!」です。

考察

うまくいかなかった原因の心当たりはいくつかあります。

  • 「!」や「〜」などの記号を消さなかった
  • Google Translateが賢いためニュアンスの違いで英訳が少しずつ異なりうまく一致をとれない
  • ツイート内容が偏っている
  • 一致で置き換えのアルゴリズムが弱い などがあげられます。

考えられる対策としては他アイドルもデータセットにいれ辞書を増やし、ぺこら辞書を最優先で置換させることで辞書は増えると思われます。英訳の辞書を工夫し少しの変化にも耐えられる方法も考えられます。

結論としては、兎田ぺこらは唯一無二のアイドルなので私ごときが真似するなど100万年早かったということです。さすがでした。

参考文献

あとがき

文体変換というテーマはやってみたかったので楽しかったです。彼女を題材にしたのは好きだからです。(私の中で)最強のアイドルだからです。理由は十分ですね。幸せな時間でした。

明日21日目の記事はふぁるくんです。PBLがんばってえらかった!