Google、AI動画生成モデル「Veo」を発表：OpenAIの「Sora」に挑戦

2024年12月3日、Googleは、Google CloudのAI開発用プラットフォーム「Vertex AI」を利用する顧客を対象に、AI搭載の動画生成モデル「Veo」のプライベートプレビューを開始すると発表しました。この動きは、画像やプロンプトから短い動画クリップを生成できるAIモデル「Veo」にとって重要なマイルストーンとなります。2024年5月に発表されて以来、Veoは急速に進化を遂げ、より高度なクリエイティブ機能を提供することで、エンタープライズの世界にインパクトを与えることになりました。

Googleの発表では、QuoraやMondelez Internationalなどの顧客がVeoの機能を活用できるようになることが強調されました。QuoraはVeoを同社のチャットボットプラットフォームPoeと統合する予定であり、Oreoの所有者であるMondelez Internationalは、代理店パートナーの協力を得て、このモデルを使用してマーケティングコンテンツを作成する予定です。

Poeのプロダクトリーダーであるスペンサー・チャン氏は、このコラボレーションについて次のように述べています。「私たちは、世界最高の生成型AIモデルへのアクセスを民主化するためにPoeを開発しました。Googleのようなリーダー企業とのパートナーシップを通じて、あらゆるAI形態におけるクリエイティブな可能性を拡大しています。

GoogleはVeoを、パターン、照明、オブジェクトの位置決めなど、動画シーケンスの複雑な詳細を維持できる非常に多用途なツールと位置づけています。例えば、Googleは、犬がシーンをスムーズに移動しながら、毛並みや首輪のパターンを一貫して維持しているデモを共有しました。これは、AI生成動画の注目すべき機能です。現在、プライベートプレビューでは長さの制限は指定されていませんが、過去のデモでは、Veoが1分を超える動画を作成できることが示されています。

Google Cloudのプロダクトマネジメント担当シニアディレクターであるウォーレン・バークレー氏は、Veoの開発は「エンタープライズ対応」に重点的に取り組んでいると強調した。バークレー氏は、「Veoが発表されて以来、当社のチームはVertex AI上のエンタープライズ顧客向けのモデルを増強し、強化し、改善してきました」と説明した。

現在、720pの高解像度ビデオを16:9の横長または9:16の縦長のアスペクト比で作成できます。同氏は、GoogleはVertex AIのGeminiのような他のモデルと同様に、Veoの機能強化を継続していくと指摘した。

2024年4月に当初リリースされたVeoは、最大6秒間の高解像度1080pクリップを毎秒24または30フレームで生成できる。風景、コマ撮り、さらには既存の映像の編集など、さまざまな視覚的および映画的なスタイルをサポートするように設計されています。バークリー氏は、Googleは暴力的または露骨なコンテンツに対する高度な即時レベルフィルターも統合しており、問題のある出力や著作権のある出力の生成など、生成型AIに関連するリスクを軽減していると説明しました。

Veoの発表と併せて、Googleはテキストを画像に変換するジェネレーター「Imagen 3」の最新バージョンが、Vertex AIを通じて間もなくGoogle Cloudの全顧客に提供される予定であることも明らかにしました。Imagen 3には、プロンプトベースの写真編集や、生成された画像に特定のブランドロゴ、スタイル、または製品機能を統合する機能など、新たな機能が追加されており、クリエイティブなマーケティング目的により実用的なものとなっています。

Googleが特に注意を払った分野のひとつは、Veoのトレーニングに使用されるデータです。Barkley氏は、使用された具体的なデータセットについては曖昧なままでしたが、Veoは「一部」のYouTubeコンテンツでトレーニングされている可能性があると述べ、YouTubeクリエイターとの契約内容に沿うことを示唆しました。Barkley氏はさらに、「Veoは、安全性とセキュリティを重視して厳選された、さまざまな高品質な動画説明データセットでトレーニングされています」と付け加えました。また、Googleの基本モデルは主に一般公開されているソースで学習されていることも確認した。

ニューヨーク・タイムズ紙の最近の報道によると、Googleは昨年、サービス利用規約を拡大し、AIモデルのトレーニングに利用できるデータを増やすことを認めた。著作権や公正使用に関する懸念があるものの、Googleは一般公開されているデータの使用は法律上、公正使用に該当すると主張している。

モデルが誤ってトレーニングデータをコピーしてしまうリスクに対処するため、Googleはプロンプトレベルのフィルターを実装し、独自の電子透かし技術であるSynthIDを使用して、Veoが生成したフレームに不可視のマーカーを埋め込んでいます。SynthIDは、特に編集に対しては完璧ではありませんが、生成モデルに伴うディープフェイクのリスクを軽減することを目的としています。

ここ数か月の間、GoogleはVeoの統合をより多くのプラットフォームやサービスに拡大している。5月には、VeoがGoogle Labsの早期アクセスプログラムを通じて利用可能になり、9月にはYouTube Shortsに統合され、クリエイターがプラットフォーム内で直接背景や6秒間の動画クリップを生成できるようになりました。

しかし、クリエイティブ業界の反応は様々です。Veoの統合はコスト削減と動画制作プロセスの合理化につながる一方で、VeoのようなAIツールが雇用に影響を与えるのではないかという懸念もあります。アニメーションギルドが委託した2024年の調査では、2026年までに映画、テレビ、アニメーションの米国ベースの10万以上の雇用がAIによって破壊される可能性があると推定されています。

バークリー氏は慎重に事を進めることの重要性を認め、GoogleがVeoのVertex AI上での一般公開の予定時期を提示していない理由を説明しました。「通常、製品はまずプレビュー版としてリリースします。そうすることで、より広範な利用に向けて一般公開する前に、当社の企業顧客の一部から実際のフィードバックを得ることができます。これにより、機能の改善に役立ち、製品がお客様のニーズを満たしていることを確認できます。

VeoとImagen 3の改良に継続的に取り組んでいるGoogleの姿勢は、OpenAI、Adobe、Runwayなどの競合他社と競争しながらも、責任あるAIの展開に尽力するという同社の姿勢を反映しています。懸念や競争上のプレッシャーがあるにもかかわらず、Googleは、動画コンテンツの制作と反復に新しい効率的な方法を探しているクリエイティブ業界向けの最先端ソリューションとしてVeoを位置づけることに重点を置いています。Veoは、OpenAIのSora、Adobeの製品、Runwayなど、他のジェネレーティブAIモデルとの厳しい競争に直面しています。例えば、RunwayはLionsgateなどのスタジオとの提携により、その影響力を拡大しています。また、OpenAIのSoraは、ブランドや独立系ディレクターとのコラボレーションにより、クリエイティブ市場で大きな進歩を遂げています。これらの競合他社は、自社の能力をアピールするために素早く行動しており、市場はよりダイナミックになり、Googleにとって挑戦的なものとなっています。

おすすめ

GPT-4oにCanvasツールを統合：すべてのChatGPTユーザーに利用可能に

OpenAI、SearchGPTをすべてのChatGPTユーザーに展開