AIと人間が共につくるラジオドラマの制作実験
KBS京都で放送中のラジオ番組『祇園pickup あっぷ!』では、ベースドラムの実験コンテンツ「AIラジオドラマ」をお届けしています。
私たちは2024年4月からこの番組のスポンサーを務めており、自分たちの得意領域である新しいテクノロジーを活用したコンテンツを通じて、リスナーの皆さんにテクノロジーの新しい楽しみ方を提案してきました。
今回はその一環として取り組んだ「AIと人間が共につくるラジオドラマ」についてご紹介します。
AIは魔法のランプのような存在?
近年、AIは何でも願いを叶えてくれる魔法のランプのように語られることがありますが、実際にAIと向き合ってみると、そう簡単にはいかないことが分かります。
例えば今回の制作においても、AIに「ラジオドラマを作って」と言えば、完璧な作品が瞬時に出来上がったわけではなく、実際はシナリオ、音声などの各要素を個別に生成し、人間が調整を重ねる必要がありました。
AIをうまく活用していくためには「接し方の工夫が必要である」と考えた私たちは、このプロジェクトでAIを一緒に作品を作り上げるパートナーとして捉えることにしました。
そうすることで、これからの新しいものづくりの可能性を探ることを試みています。
このnoteでは、そんなAIラジオドラマの制作プロセスをお届けします。
シナリオ、台詞、音楽、効果音・・・すべてをAIに生成してもらった
まずは、私たちが制作したラジオドラマをぜひ聴いてみてください。
AIラジオドラマ「祇園ピックアップ物語」は、番組パーソナリティ慶子さんが店主を務めるジャズバー『祇園pickup』でアルバイトする青年がジャズミュージシャンを目指すお話です。
このラジオドラマ、シナリオからキャラクター設定、音楽や効果音、そして声の生成まで、全ての要素をAIと一緒に作り上げました。
自然なイントネーションを生み出すことに苦戦していたり、音質がキャラクターによって異なっていたりと完璧ではないものの、内容を理解して楽しんでいただけるレベルに仕上がっていると思います。
ここからは、具体的な制作プロセスについて、ステップごとにお送りしていきます。
[💡Step1]AIにゼロイチのアイデアを生み出してもらう
まずは、物語の骨子やキャラクターなどのゼロイチ部分を考えるために、メンバーが日頃から使い慣れているChatGPTを活用しました(ChatGPT-3.5、ChatGPT-4を使用)。
盛り込みたい設定や必要な話数を決め、それらをChatGPTに伝えてから、主人公の名前や性格、時代背景を考えてもらいます。
名前や性格、演奏する楽器は、ChatGPTが生成してくれたものをほぼそのまま採用しています。あらすじについても、下記のように生成してくれました。
また、主人公のイメージを膨らませるために、ChatGPTを通して、画像生成モデルであるDALL-E3で主人公の画像を生成。
これらのアイデアを元にメンバーであーだこーだと話し合い、再度ChatGPTに修正案を依頼することで、物語の骨子を固めていきました。
AIのアイデアにより議論が促進する
通常、人間だけで打ち合わせを行う場合、叩き台を作ったりすることがありますが、AIに叩き台としてのアイデアを作成してもらいそれを基に議論を進めることで、事前準備の時間を短縮することができます。
また、AIが出した案には遠慮のない意見を言いやすく、「ふつうのアイデアしかだしてこないね〜」とか、「次はどう指示したらいいかな?」といったメンバー間での率直な意見交換が最初から捗りました。
人間がわいわい言いながらAI に指示を出し、結果を見て、また議論が盛り上がる。
ここには、従来の孤独な執筆作業とは真逆の、AIを交えた新たなチーム創作の面白さがあるように感じます。
このプロジェクトでは、「困ったらそれぞれのAIに聞いてみる」という流れが当たり前になっていきました。
[💡Step2]主人公「朝倉翔太AI」への脚本インタビューを実施
脚本生成に行き詰まった際には、主人公「朝倉翔太」のパーソナリティ(人格)をChatGPTに記憶してもらい、彼にインタビューをして意見を聞いていきました。
当時タイミング良くChatGTPの音声会話機能が使えるようになり、朝倉翔太と直接会話することが叶い、主人公から見た場面ごとの心情の変化や、普段考えていること、他愛のない過去のエピソードまで、さまざまなインタビューを行うことができました。
人格と言っても、情報量としては設定、脚本、補足情報を読み込ませた程度なので一般的な返答が返ってくるレベルでしたが、設定や脚本の出来事を踏まえての会話を行いました。
細かなキャラクター情報を記憶させることで返答がどう変わっていくのか?は今後研究の余地がありそうです。
[💡Step3]AI同士の対話を通して内容をブラッシュアップ
ChatGPTだけでなく、他のAIであるClaudeやGeminiにも力を借りて、脚本を相互にフィードバックし、より良いものにブラッシュアップしてもらいました。
「下記は、ChatGTPが生み出した脚本です。現状の脚本は〇〇と感じています。〇〇な要素を加えて、下記の内容を超える面白さの脚本を生成してください」と依頼。そのアイデアをもとにまた人間がブラッシュアップしていくことで、最終的に内容として筋の通った脚本が完成しました。
[💡Step4]キャラクターに声を吹きこむ
キャラクターの声は、番組のパーソナリティである佐々木慶子さんと金田大輝さんのラジオの音声データを元にAIで生成しました。
1〜3話を聞いていただくとわかりますが、当時は音声データが十分ではなく、イントネーションの生成に苦労しています。特に1話のナレーションは、少し訛って聞こえる部分があり、それが逆に愛らしくも感じてしまいます。
2~3話以降、音声生成AIサービスの中でも得意な領域によってサービスを使い分けたり、学習データを関西弁・標準語に分け、読み込ませるデータ量を増やしたり、AIに追加学習させることで後半にかけて少しずつ生成の精度が上がってきています。
私たちが使った音声生成AI(VALL-E、ElevenLabs、CoeFont)は、プロンプトを工夫して質を調整するタイプのものではなく、正しいイントネーションが出るまで何度も生成を繰り返すものでした。
特に短いセリフは自然な発音を得るのが難しく、場合によってはAIが発音しやすいようにセリフ自体を調整することもありました。
途中、「これなら人間が直接吹き込んだ方が早いのでは!?」と感じてしまうことも。
それでも、ときどきAIが想像を超えるいい演技を見せてくれたり、声の微妙な癖を再現して面白い結果を生むことがあり、生成の苦労が報われた(?)と感じる場面もありました。
パーソナリティのお二人からも「AIがこんなに感情豊かに表現できるとは!」と驚かれ、実際にうまく生成されたものは「これはAIか、それとも本人か?」とクイズにしてもわからないほどのクオリティです。
▼ベースドラム清水の喋り方が表現されている一例
さらに、効果音やBGMもAI(MyEdit、Suno)で生成しています。これらは、出力してほしいキーワードを入力するだけで簡単に生成することができます。
AIとのさらなる協働の可能性を探る
今回のプロジェクトでは、リスナーの皆さんにテクノロジーをより身近に、そして面白く感じていただくことを目指し、「AIとつくるラジオドラマ」という形でお届けしていました。
実際に、リスナーの方々から「こんなこともできるんですね」といった感想や、「本当にすべてAIで作っているんですか!?」という驚きの声をいただくことがあり、私たちにとっても大変嬉しい反響です。
しかし、「AIだけで完璧なものづくりができるのか?」という問いに対しては、(既存のAIサービスを組み合わせてものづくりに挑戦しているプロジェクト、という立場での発言になりますが)、モックアップレベルで試作品を作るには十分な能力がある一方、十分なクオリティのアウトプットを実現するには、まだハードルがあると感じています。
特に音声生成AIに関しては、画像や映像を生成するAIとは異なり、感情表現の自然な生成や抑揚コントロールの技術がまだ十分に発展していない印象です。日本語の音声生成に関してはデータが不足しているということも関連しているかもしれません。(※2024年8月時点)
とはいえ、AIとの協働実験という観点では、AIを中心としたディスカッションの面白さや、AIならではの表現に対する魅力を強く実感しており、私たちにとって欠かせない創作パートナーとなりつつあります。
この記事をAIでまとめると・・・💡
次回は、「2人のAIによる人間不在のラジオ配信」をテーマにお送りします!