過去20年間で、テキストから音声への変換(TTS)技術は急速な進化を遂げ、初期の音素ベースのシステムからより高度なニューラルTTS技術に移行しました。この開発は、ナレーションと吹き替え業界に大きな影響を与え、ますます洗練されたAI生成音声に直面してこれらの職業の将来についての疑問を提起しました。
初期の音素ベースのTTSシステム
音素ベースのTTSシステムは、TTS技術の最初の世代でした。これらのシステムは、書かれたテキストを個々の音素、つまり音声に分解し、それらを組み合わせて合成された音声を作成することで機能しました。これらのシステムは理解できる音声を生成できましたが、自然さに欠け、感情や微妙なニュアンスを伝えることができませんでした。
音素ベースのTTSシステムの大きな欠点の1つは、それらが生成したロボットのような発音でした。これは、ナレーション、吹き替え、ナレーションなどの創造的な仕事を含む多くのアプリケーションに不適当にしました。その結果、人間の声優は長年にわたって主要な選択肢であり続けました。
THE ARABIC VOICE™スタジオは、エジプトに拠点を置くテクノロジー企業の1つのために、当社の主要な男性声優の1人であるAhmed Ragabを使用して、初期のTTSシステムの音素プールを作成しました。言語的および芸術的な監督はAhmed AlQotbが行いました。 2018年後半、AlQotbは、ベイルートにあるフォーチュン500社の1つに、音声アシスタントのTTSシステムの音声コーチとして参加しました。
ニューラルTTS技術
近年、ニューラルTTSシステムの開発により、TTS技術は大きな変化を遂げています。これらのシステムは、人間の脳の構造と機能を模倣するように設計された人工ニューラルネットワークを使用して、より自然な発音の音声を生成します。
ニューラルTTSシステムは、人間の音声サンプルの大量のデータセットでネットワークをトレーニングすることで機能し、自然な音声のパターンとニュアンスを学習できるようにします。これにより、システムは、より自然な発音の音声を生成できるだけでなく、より広い範囲の感情やニュアンスを伝えることができるようになります。
この段階で、マイクロソフトなどの企業は、音素ではなく「音声フォント」と呼ばれるものを開発し始めました。この用語は、ニューラルTTS言語が人間のような発音/感情を再現するために使用できる音声指紋を指します。この特定の技術は、現在、revoicer、speechify、またはmurfなどのAI音声プロバイダーのプラットフォームで見つけることができます。これは実際には、各社によって展開されているMicrosoft Azureのクラウドサービスです。
吹き替えおよびダビング業界への影響
ニューラルTTS技術の開発は、吹き替えおよびダビング業界の将来に対する懸念を引き起こしています。 AI生成音声が人間の声優の芸術性と創造性を完全に置き換えることは決してできないことは明らかですが、技術は急速に進歩し、より洗練されていることも事実です。
たとえば、ニュース放送や情報ビデオなどの特定の状況では、AI生成音声は、正確かつ迅速に情報を伝達するのに十分な場合があります(プロの声優に支払う意思のない人向け)。ただし、漫画、ビデオゲーム、広告などのより創造的で表現力豊かな仕事では、人間の声優はまだ需要が高く、当面はそうであり続ける可能性があります。
さらに、一部の意見によると、AIによる音声生成の使用は、実際には声優により多くの仕事をもたらす可能性があります。たとえば、AIによるオーディオブックやポッドキャストは、自動化された声とは異なる内容を求めるリスナーが、高品質の声のパフォーマンスを求める需要を増やすことがあるかもしれません。
結論
結論として、過去20年間における音声合成技術の進化は著しいものでした。音素ベースのTTSシステムからニューラルTTS技術への移行により、より自然な音声合成が実現され、声優業界や吹き替え業界の将来についての疑問が生じました。
AIによる音声生成が人間の声優の創造性や芸術性を完全に置き換えることは不可能であることは明らかですが、技術は急速に進歩しており、今後の業界に影響を与える可能性があります。しかし、AIによる音声生成の使用が、実際には声優に新しい機会を生み出し、高品質の声のパフォーマンスへの需要を増やすことがあるかもしれません。