
紫金財經(jīng)4月18日消息 阿里開源通義萬相首尾幀生視頻14B模型,成為業(yè)內(nèi)首個百億級參數(shù)規(guī)模的開源視頻模型。用戶可以根據(jù)指定的開始和結(jié)束圖片生成720p高清視頻,并滿足延時攝影、變身等需求。該模型已可在官網(wǎng)免費體驗或通過GitHub、Hugging Face、魔搭社區(qū)下載本地部署后進行二次開發(fā)。
據(jù)介紹,基于現(xiàn)有的Wan2.1文生視頻基礎(chǔ)模型架構(gòu),通義萬相首尾幀生視頻模型進一步引入了額外的條件控制機制,通過該機制可實現(xiàn)流暢且精準的首尾幀變換。
在訓練階段,團隊還構(gòu)建了專門用于首尾幀模式的訓練數(shù)據(jù),同時針對文本與視頻編碼模塊、擴散變換模型模塊采用了并行策略,這些策略提升了模型訓練和生成效率,也保障了模型具備高分辨率視頻生成的效果。
在推理階段,為了在有限內(nèi)存資源的條件下支持高清視頻推理,萬相首尾幀模型分別采用了模型切分策略以及序列并行策略,在確保推理效果無損的前提下,顯著縮短了推理時間。
首尾幀生視頻比文生視頻、單圖生視頻更具可控性,是AI視頻創(chuàng)作者最喜歡的功能之一。但這類模型訓練難度較大,要求對指令遵循、畫面一致性和過渡流暢性有高要求。
華夏商業(yè)網(wǎng)_華夏財經(jīng)_華夏資訊