CustomCrafter – 騰訊聯(lián)合浙大推出的自定義視頻生成框架
CustomCrafter是什么
CustomCrafter 是騰訊和浙江大學(xué)聯(lián)合提出的自定義視頻生成框架,能基于文本提示和參考圖像生成高質(zhì)量的個(gè)性化視頻,同時(shí)保留了運(yùn)動(dòng)生成和概念組合的能力。CustomCrafter通過設(shè)計(jì)一系列靈活的模塊,實(shí)現(xiàn)了無需額外視頻,通過少量圖像學(xué)習(xí),就能生成所需的視頻。CustomCrafter 支持自定義主體身份和運(yùn)動(dòng)模式,通過保留運(yùn)動(dòng)生成和概念組合能力來生成帶有文本提示的視頻。

CustomCrafter的主要功能
- 文本提示和參考圖像生成視頻:CustomCrafter 可以基于用戶提供的文本提示和參考圖像生成視頻,意味著用戶可以指定想要生成的視頻內(nèi)容和風(fēng)格。
- 保留運(yùn)動(dòng)生成能力:框架在生成視頻時(shí)能保留運(yùn)動(dòng)的連貫性和流暢性,即使在沒有額外視頻指導(dǎo)的情況下也能生成具有自然運(yùn)動(dòng)的視頻。
- 概念組合能力:CustomCrafter 能將不同的概念組合在一起,生成具有創(chuàng)造性和多樣性的視頻內(nèi)容。
- 少量圖像學(xué)習(xí):框架設(shè)計(jì)允許模型通過少量圖像進(jìn)行學(xué)習(xí),而不需要大量的視頻數(shù)據(jù),降低了數(shù)據(jù)收集和處理的復(fù)雜性。
- 空間主題學(xué)習(xí)模塊:CustomCrafter 使用 LoRA 方法構(gòu)建了一個(gè)空間主題學(xué)習(xí)模塊,模塊更新了空間變換器模型中的注意力層參數(shù),更好地捕捉外觀細(xì)節(jié)。
CustomCrafter的技術(shù)原理
- 視頻擴(kuò)散模型(Video Diffusion Model, VDM):CustomCrafter 基于視頻擴(kuò)散模型來生成視頻。VDM 是一種生成模型,它通過逐步去除噪聲來生成數(shù)據(jù),這里特指視頻幀。
- 空間主題學(xué)習(xí)模塊(Spatial Subject Learning Module):為了增強(qiáng)模型捕捉新主體外觀細(xì)節(jié)的能力,CustomCrafter 設(shè)計(jì)了一個(gè)即插即用模塊。模塊通過更新空間變換器模型中的注意力層的 Query、Key 和 Value 參數(shù)來實(shí)現(xiàn)。
- 動(dòng)態(tài)加權(quán)視頻采樣策略(Dynamic Weighted Video Sampling Strategy):CustomCrafter 觀察到 VDM 在去噪的早期階段傾向于恢復(fù)視頻的運(yùn)動(dòng),在后期階段則專注于恢復(fù)主體細(xì)節(jié)。基于這一觀察,CustomCrafter 提出了一種策略,在去噪的早期階段減少空間主題學(xué)習(xí)模塊的影響,以保留 VDM 生成運(yùn)動(dòng)的能力;在去噪的后期階段增加該模塊的影響,以修復(fù)指定主體的外觀細(xì)節(jié)。
- 去噪過程的兩個(gè)階段:CustomCrafter 將去噪過程分為兩個(gè)階段:運(yùn)動(dòng)布局修復(fù)過程和主題外觀修復(fù)過程。在運(yùn)動(dòng)布局修復(fù)過程中,減少空間主題學(xué)習(xí)模塊的影響,以保持運(yùn)動(dòng)的連貫性;在主題外觀修復(fù)過程中,恢復(fù)該模塊的影響,以確保主體外觀的逼真度。
CustomCrafter的項(xiàng)目地址
- GitHub倉(cāng)庫:https://github.com/customcrafter
- 項(xiàng)目主頁:https://customcrafter.github.io/
- arXiv技術(shù)論文:https://arxiv.org/pdf/2408.13239v1
如何使用CustomCrafter
- 環(huán)境準(zhǔn)備:確保計(jì)算環(huán)境中安裝了所有必要的軟件和庫,比如 Python、深度學(xué)習(xí)框架(如 PyTorch 或 TensorFlow)等。
- 獲取 CustomCrafter:訪問 CustomCrafter 的 GitHub 倉(cāng)庫 或項(xiàng)目主頁,下載或克隆代碼庫到本地。
- 安裝依賴:根據(jù)項(xiàng)目的
requirements.txt或setup.py文件安裝所需的依賴包。 - 數(shù)據(jù)準(zhǔn)備:準(zhǔn)備或收集用于生成視頻的文本提示和參考圖像。這些數(shù)據(jù)將作為模型的輸入。
- 配置參數(shù):根據(jù)需要生成的視頻類型和風(fēng)格,配置模型參數(shù),包括但不限于文本提示、參考圖像路徑、輸出視頻的分辨率和幀率等。
- 模型訓(xùn)練(如果需要):如果 CustomCrafter 需要訓(xùn)練或微調(diào)以適應(yīng)特定的數(shù)據(jù)集或生成任務(wù),按照項(xiàng)目文檔中的指導(dǎo)進(jìn)行模型訓(xùn)練。
- 視頻生成:使用配置好的參數(shù)和輸入數(shù)據(jù),運(yùn)行 CustomCrafter 的視頻生成腳本或命令行工具來生成視頻。
CustomCrafter的應(yīng)用場(chǎng)景
- 影視制作:在電影、電視劇或短片制作中,CustomCrafter 可以用來快速生成特定場(chǎng)景的動(dòng)畫或特效,減少實(shí)際拍攝的成本和時(shí)間。
- 虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR):在 VR 和 AR 應(yīng)用中,CustomCrafter 可以生成逼真的虛擬角色或環(huán)境,提供沉浸式體驗(yàn)。
- 游戲開發(fā):游戲設(shè)計(jì)師可以用 CustomCrafter 生成游戲中的動(dòng)態(tài)場(chǎng)景或角色動(dòng)畫,提高視覺效果和玩家體驗(yàn)。
- 廣告和營(yíng)銷:營(yíng)銷人員可以用 CustomCrafter 快速生成吸引人的視頻廣告,以適應(yīng)不同的市場(chǎng)和受眾。
- 社交媒體內(nèi)容創(chuàng)作:社交媒體用戶可以用 CustomCrafter 生成獨(dú)特的視頻內(nèi)容,增加粉絲互動(dòng)和內(nèi)容的吸引力。
? 版權(quán)聲明
本站文章版權(quán)歸奇想AI導(dǎo)航網(wǎng)所有,未經(jīng)允許禁止任何形式的轉(zhuǎn)載。