中国のアリババグループが
顔画像と音声を組み合わせて
IAが自動で動画を作ってくれる
EMOと言う物を開発しました。
EMOを使えば写真や絵やアニメの人に
好きな声で違和感なく喋らせられて
会話をしたり歌を歌わせたりもでき
モナリザに演歌を歌わす事も出来ます
当初AIで顔写真から動くアニメにする
研究をしてましたが更に進化させる為
声を追加して喋る事が出来る
AI開発を始めました。
ただ喋らせるだけでなく声のトーンや
歌の抑揚に合わせて首を動かしたり
眉を動かし目や瞼も違和感なく動き
自然な表情を作り出す事もできます
簡単に言えばEMOと言うAIは
写真や絵の顔に好きな声を合成して
完璧な口パクをさせられる画期的な
AIという事になります。
しかもEMOでAI化に必要なのは
一枚の顔画像と一つの音声のみで
従来の様な顔の動きの動画を撮り
それをPCで3D化する必要が無いのです
研究チームはEOMに映画や番組や会話
歌やダンスの映像を250時間以上集め
その動画をAIに見せて学習させ
大量の情報を入れました
〓=〓=〓=〓=〓=〓=〓=〓=〓
AIに動画を見せて
人が会話したり歌う時にどんな表情や
頭の動きをするのかを学んでもらい
人間の特徴を知ってもらいました
そして顔の静止画の特徴を分析し
動画にした時あらゆる表情の時の
頭の動き頬の動き口まつ毛まぶた等
全ての動かし方を理解させたのです
これを拡散プロセスと言う
波形にした声で音の高さや強さや
抑揚などAIに理解させその音を元に
動く顔の動画を作って行きます
こうやって開発されたEOMは
1枚の写真と1つの声だけ用意すれば
写真や映画や絵画や漫画やCGの
好きな音声内容を喋らせられます
これまでにも好きな声で絵や写真に
喋らせるAI技術が存在していましたが
ここまで人らしい自然な表情を完璧に
再現できたのはEMOが初めてです
今後のEMOは映画やゲーム内で
俳優やキャラやVチューバー等の
品質が向上され空想の彼氏や彼女と
自然な会話ができるようになります
その一方で政治的な悪用や
芸能界のゴシップの偽造など
危険な側面も秘めてる事もあり
使い方で善にも悪にもなるでしょう