高野悠介 2024年3月6日(水) 7時(shí)30分
拡大
中國のSora報(bào)道が加熱している。資料寫真。
米Open AIは2月15日、動(dòng)畫生成AI「Sora」を発表した。中國メディアは連日?qǐng)?bào)道を続けていて、その分量は半端ではない。そこではどのような議論がなされているのだろうか。ネットメディアの議論は、まずSoraの素晴らしさに驚き、次に米中の技術(shù)格差拡大を不安視し、「中國版Sora」はいつ登場(chǎng)するのかという方向へ進(jìn)んでいる。
Soraのコンテンツ生成時(shí)間は60秒で、既存のビデオツールの生成時(shí)間を大幅に上回る。自己編集や拡張、関連性のないコンテンツのつなぎ合わせ、背景の変換なども可能で、將來的には単なるビデオコンテンツ生成ツールではなく、シミュレーターとされるかもしれない。
中國ネットセキュリティー大手?奇虎360の周鴻祎會(huì)長兼最高経営責(zé)任者(CEO)は、「Soraの誕生により、AGI(汎用人工知能)の実現(xiàn)が10年から1~2年に短縮される可能性がある。ショートビデオ、映畫、テレビ、広告、その他の業(yè)界に前向きな推進(jìn)力をもたらす」と述べた。Soraは恐怖を含む興奮を呼び起こし、白熱の議論が続いている。少なからぬ「普通の人々」もビジネスチャンスを嗅ぎつけ、Solaのトレーニング教材が2萬點(diǎn)以上売れたとも報(bào)じられた。
生成時(shí)間60秒はショートビデオ界へのインパクトが大きい。ショートビデオ制作の敷居は大幅に下がり、抖音(中國版TikTok)や快手など有力プラットフォームへのコンテンツ供給は間違いなく充実する。AI生成コンテンツの増加はプラットフォームの生態(tài)系に影響を與えるだろう。これまでにもPikaやRunwayなど10秒程度の動(dòng)畫生成アプリはあったが、あるMCNによると、完成度が低く、ライブコマースでは使いものにならない。
Soraはユーザーが入力したテキスト要件を正確に認(rèn)識(shí)できる上、一貫性にも優(yōu)れる。主人公の行動(dòng)プロセスが首尾一貫していて、複數(shù)の視點(diǎn)からの狀況変化に何ら影響を受けない。主人公と背景の相互作用が論理的で、空間認(rèn)識(shí)を人間のそれに近づけた。テキストの制限を超えた生き生きとしたリアルな動(dòng)畫が生成可能となった。
安定したAI生成コンテンツの増加は、クリエーターや抖音、快手などに革命的影響をもたらすに違いない。
周氏は「Soraの技術(shù)がオープン化されれば、中國も追いつけるだろう。ただし、それには演算能力の敷居が高い。60秒以上の生成が難しい理由は演算能力とコストだ」と語る。
中國大手証券會(huì)社の國泰君安の関係者は、「SoraはChat GPT言語モデルの『元データ-変化-拡散-出現(xiàn)』という技術(shù)的ルートをなぞっている。そのためChat GPTと同じように『大規(guī)模データ+大規(guī)模パラメータ+大規(guī)模コンピューティングパワー』が必要となるが、Soraの動(dòng)畫學(xué)習(xí)に必要なデータ量はテキスト學(xué)習(xí)に比べて桁違いに大きい」と指摘する。
領(lǐng)悟時(shí)代デジタル研究院は、「Soraの技術(shù)には複雑なアルゴリズムと膨大なデータ処理が必要。ハードウェアの性能だけでなく、ソフトウェアの最適化、データ処理、クラウドなどのリソース統(tǒng)合が求められる」と指摘している。
また、別の業(yè)界関係者は「元の大規(guī)模言語モデル、Chat GPTと比較すると、Sora動(dòng)畫モデルの計(jì)算量は指數(shù)関數(shù)的に増大し、天文學(xué)的な數(shù)字になる。中國にはそのような演算能力の基盤がない」と語る。
ただし、悲観ばかりではない。中國の算力(ハッシュレート)産業(yè)規(guī)模は、過去5年間の平均成長率が30%以上となり、急速に成長している?!杆懔A(chǔ)設(shè)施高質(zhì)量発展行動(dòng)計(jì)畫」により2025年までの開発目標(biāo)を明確にした。
ネットメディア大手テンセント?ニュースは「スタートアップ12社、大手4社のパノラマ、中國版Soraとなるのは誰だ」という記事を掲載した。そのうち有名なIT巨頭4社の開発狀況を見てみよう。
アリババは通義実験室がオープンソースの畫像生成モデル「VGen」を開発した。高い柔軟性と制御を備え、高畫質(zhì)の畫面から動(dòng)畫合成、テキストから動(dòng)畫への階層的時(shí)空デカップリング技術(shù)、動(dòng)畫拡散モデルの最適化などの高度な動(dòng)畫生成機(jī)能を備えている。また、アリババ智能計(jì)算研究所が「Animate Anyone」を発表した。これは人物寫真からアニメーションビデオを生成するモデルだ。
百度(バイドゥ)は1月に動(dòng)畫生成モデル「UniVG」を発表した。自由度の高いタスクと低いタスクに異なる生成方法を使用してバランスを取ることを特徴とする。
テンセントは「Animate Zero」と「Video Crafter2」の二つの動(dòng)畫生成プロジェクトを開始した。「Animate Zero」の特徴は外観と動(dòng)作のプロセスを分離して段階的に動(dòng)畫生成を行うことだという?!竀ideo Crafter2」は視覚的な品質(zhì)、ダイナミクス、構(gòu)成の改善に特化した。
バイトダンス(抖音、TikTok運(yùn)営)には複數(shù)の研究チームがある。そのうちの一つはシンガポールにあり、「Magic Animate」を発表した。時(shí)間的一貫性を強(qiáng)化し、アニメーションの忠実度を上げるよう設(shè)計(jì)された。2月には「Boximator」を発表した。動(dòng)畫內(nèi)のキャラクターを、テキストを通じて制御できる。
演算能力不足にはGPUが関わってくる。米國の制裁により、エヌビディアの高性能GPUは調(diào)達(dá)できない。その制約の中でも何とか米國に対抗しようと、大手とスタートアップが競(jìng)い合っている。中國版Soraの成否は分からないが、開発現(xiàn)場(chǎng)の活況だけは認(rèn)めねばならないだろう。
■筆者プロフィール:高野悠介
1956年生まれ、早稲田大學(xué)教育學(xué)部卒。ユニー株(現(xiàn)パンパシフィック)青島事務(wù)所長、上海事務(wù)所長を歴任、中國貿(mào)易の経験は四半世紀(jì)以上?,F(xiàn)在は中國人妻と愛知県駐在。最先端のOMO、共同購入、ライブEコマースなど、中國最新のB2Cビジネスと中國人家族について、ディ-プな情報(bào)を提供。著書:2001年「繊維王國上?!箹|京図書出版會(huì)、2004年「新?繊維王國青島」東京図書出版會(huì)、2007年「中國の人々の中で」新風(fēng)舎、2014年「中國の一族の中で」Amazon Kindle。
この記事のコメントを見る
Record China
2024/3/5
Record Korea
ピックアップ
we`re
RecordChina
お問い合わせ
Record China?記事へのご意見?お問い合わせはこちら
業(yè)務(wù)提攜
Record Chinaへの業(yè)務(wù)提攜に関するお問い合わせはこちら
この記事のコメントを見る