隨著AI生成視頻日漸走紅,如何準(zhǔn)確將用戶心中的想法轉(zhuǎn)化成AI視頻,成為難題。用戶常常發(fā)現(xiàn),僅僅依靠文字很難描述自己的需求。
4月15日,快手旗下可靈AI宣布,面向全球發(fā)布可靈2.0視頻生成模型及可圖2.0圖像生成模型,快手高級(jí)副總裁、快手社區(qū)科學(xué)線負(fù)責(zé)人蓋坤向澎湃新聞?dòng)浾弑硎荆?ldquo;AI在輔助創(chuàng)意表達(dá)上擁有巨大潛力,但當(dāng)前的行業(yè)發(fā)展現(xiàn)狀還遠(yuǎn)遠(yuǎn)無(wú)法滿足用戶需求,在AI生成內(nèi)容的穩(wěn)定性、以及用戶復(fù)雜創(chuàng)意的精確傳達(dá)上仍有很多挑戰(zhàn)。”
此次2.0版本的迭代中,最受關(guān)注的便是多模態(tài)視頻編輯的新功能:可靈AI使用全新交互理念Multi-modal Visual Language(MVL),讓用戶能夠結(jié)合圖像參考、視頻片段等多模態(tài)信息,將腦海中包含身份、外觀、風(fēng)格、場(chǎng)景、動(dòng)作、表情、運(yùn)鏡在內(nèi)的多維度創(chuàng)意,高效傳達(dá)給AI。同時(shí),用戶可以直接把自己的想法用圖像等方式表作為輸入,生成符合自己想法的創(chuàng)意視頻。
蓋坤介紹,MVL由TXT(Pure Text,語(yǔ)義骨架)和MMW(Multi-modal-document as a Word,多模態(tài)描述子)組成,能從視頻生成設(shè)定的基礎(chǔ)方向以及精細(xì)控制這兩個(gè)層面,精準(zhǔn)實(shí)現(xiàn)AI創(chuàng)作者們的創(chuàng)意表達(dá)。他表示,MMW(多模態(tài)描述子)將不只局限于圖片和視頻,也可以引入其它模態(tài)的信息,例如聲音、運(yùn)動(dòng)軌跡等,讓用戶實(shí)現(xiàn)更加豐富的表達(dá)。
數(shù)據(jù)顯示,自去年6月發(fā)布以來(lái),可靈AI已累計(jì)完成超20次迭代。來(lái)自世界各地的超1.5萬(wàn)開(kāi)發(fā)者和企業(yè)客戶,將可靈的API應(yīng)用于不同的行業(yè)場(chǎng)景中。自去年6月上線至今的10個(gè)月時(shí)間里,可靈AI的月活用戶數(shù)量增長(zhǎng)25倍,截至目前,全球用戶規(guī)模突破2200萬(wàn)。
據(jù)蓋坤介紹,可靈和可圖兩款模型在團(tuán)隊(duì)內(nèi)部的多項(xiàng)勝負(fù)率評(píng)測(cè)中,均穩(wěn)居業(yè)內(nèi)第一。例如在文生視頻領(lǐng)域,可靈2.0對(duì)比谷歌Veo2的勝負(fù)比為205%,對(duì)比Sora的勝負(fù)比達(dá)367%。
值得注意的是,當(dāng)前圖生視頻約占到可靈AI視頻創(chuàng)作量的85%,圖片質(zhì)量也對(duì)視頻的生成效果產(chǎn)生重要作用。
據(jù)快手副總裁、可靈AI負(fù)責(zé)人張迪介紹,可圖2.0文生圖能力也迎來(lái)全面升級(jí),在風(fēng)格化響應(yīng)上,可圖2.0可支持60多種風(fēng)格化的效果轉(zhuǎn)繪,模型出圖創(chuàng)意和想象力實(shí)現(xiàn)大幅躍升。
同時(shí),可圖2.0也上線圖像可控編輯功能:局部重繪和擴(kuò)圖,支持圖片的增加、修改和修復(fù)。在圖像的多模態(tài)可控生成中,可圖2.0還上線風(fēng)格轉(zhuǎn)繪功能,只需要上傳一張圖片加上風(fēng)格描述,就能一鍵切換圖片的藝術(shù)風(fēng)格,同時(shí)精準(zhǔn)保留原圖的語(yǔ)義內(nèi)容。
除C端訂閱用戶,可靈AI也面向B端商家提供API接入等服務(wù)。目前,可靈AI已與包括小米、亞馬遜云科技、阿里云、Freepik、藍(lán)色光標(biāo)等在內(nèi)的數(shù)千家國(guó)內(nèi)外企業(yè)客戶建立合作關(guān)系。
在營(yíng)收數(shù)據(jù)方面,快手2024年三季度財(cái)報(bào)數(shù)據(jù)顯示,可靈AI在2024年9月實(shí)現(xiàn)月活超150萬(wàn);商業(yè)化單月流水也超過(guò)千萬(wàn)人民幣。另?yè)?jù)2024年快手四季度及全年財(cái)報(bào),自可靈AI開(kāi)始商業(yè)化變現(xiàn)至2025年2月,可靈AI的累計(jì)營(yíng)業(yè)收入已經(jīng)超過(guò)1億元。
AI視頻是互聯(lián)網(wǎng)公司集體發(fā)力的賽道,去年12月,騰訊混元大模型發(fā)布AI視頻生成大模型,同時(shí)宣布開(kāi)源,參數(shù)量達(dá)到130億,為當(dāng)時(shí)最大的視頻開(kāi)源模型,字節(jié)跳動(dòng)、MiniMax、智譜AI等國(guó)內(nèi)大廠和頭部初創(chuàng)公司也推出了相應(yīng)產(chǎn)品。