xAR:字節(jié)跳動(dòng)與霍普金斯大學(xué)聯(lián)合推出的新一代自回歸視覺生成框架
xAR:字節(jié)跳動(dòng)與霍普金斯大學(xué)聯(lián)合推出的新一代自回歸視覺生成框架
隨著人工智能技術(shù)的飛速發(fā)展,視覺生成領(lǐng)域正迎來新一輪的技術(shù)革新。近日,字節(jié)跳動(dòng)與約翰·霍普金斯大學(xué)聯(lián)合推出了名為xAR的新型自回歸視覺生成框架,這一技術(shù)在性能和應(yīng)用上均取得了顯著突破,為圖像生成領(lǐng)域注入了新的活力。
什么是xAR?
xAR(eXtended Autoregressive)是一種基于自回歸方法的視覺生成框架,由字節(jié)跳動(dòng)與約翰·霍普金斯大學(xué)的研究團(tuán)隊(duì)共同開發(fā)。與傳統(tǒng)自回歸模型相比,xAR通過兩項(xiàng)創(chuàng)新技術(shù)——Next-X Prediction和Noisy Context Learning,有效解決了傳統(tǒng)模型在視覺生成中的信息密度不足和累積誤差問題。

xAR的核心技術(shù)
-
Next-X Prediction(下一個(gè)X預(yù)測) xAR擴(kuò)展了傳統(tǒng)的“下一個(gè)標(biāo)記預(yù)測”方法,支持模型預(yù)測更復(fù)雜的視覺實(shí)體,如圖像塊、單元、子采樣甚至整個(gè)圖像。這種技術(shù)能夠捕捉更豐富的語義信息,顯著提升生成圖像的質(zhì)量和細(xì)節(jié)。
-
Noisy Context Learning(噪聲上下文學(xué)習(xí)) 在訓(xùn)練過程中,xAR通過引入噪聲,提高了模型對誤差的魯棒性。這一技術(shù)能夠有效緩解自回歸模型在生成過程中常見的累積誤差問題,確保生成結(jié)果的穩(wěn)定性。
-
流匹配(Flow Matching) xAR基于流匹配方法,將離散的標(biāo)記分類問題轉(zhuǎn)化為連續(xù)的實(shí)體回歸問題。具體來說,模型通過插值和噪聲注入生成帶噪聲的輸入,并在每個(gè)自回歸步驟中預(yù)測從噪聲分布到目標(biāo)分布的方向流(Velocity),逐步優(yōu)化生成結(jié)果。
xAR的性能優(yōu)勢
在ImageNet數(shù)據(jù)集上,xAR展現(xiàn)出了卓越的性能:
-
xAR-B(1.72億參數(shù)):推理速度比DiT-XL(6.75億參數(shù))快20倍,同時(shí)在弗雷歇 inception 距離(FID)上達(dá)到1.72,優(yōu)于現(xiàn)有擴(kuò)散模型和自回歸模型。
-
xAR-H(11億參數(shù)):在ImageNet-256基準(zhǔn)測試中,F(xiàn)ID達(dá)到1.24,創(chuàng)造了新的最優(yōu)水平,且不依賴于視覺基礎(chǔ)模型或高級引導(dǎo)區(qū)間采樣。
xAR的應(yīng)用場景
xAR的靈活性和高性能使其在多個(gè)領(lǐng)域具有廣泛的應(yīng)用潛力:
-
藝術(shù)創(chuàng)作 藝術(shù)家可以利用xAR生成創(chuàng)意圖像,作為藝術(shù)作品的靈感來源或直接用于創(chuàng)作。xAR支持不同分辨率和風(fēng)格的生成需求,能夠生成具有豐富細(xì)節(jié)和多樣風(fēng)格的圖像。
-
虛擬場景生成 在游戲開發(fā)和虛擬現(xiàn)實(shí)(VR)中,xAR可以快速生成逼真的虛擬場景,包括自然景觀、城市環(huán)境和虛擬角色等,顯著提升用戶體驗(yàn)。
-
老照片修復(fù) 通過生成高質(zhì)量的圖像內(nèi)容,xAR可以修復(fù)老照片中的損壞部分,恢復(fù)其原始細(xì)節(jié)和色彩,為文化遺產(chǎn)保護(hù)提供技術(shù)支持。
-
視頻內(nèi)容生成 xAR可以生成視頻中的特定場景或?qū)ο螅糜谝曨l特效制作、動(dòng)畫生成和視頻編輯,為影視行業(yè)帶來新的創(chuàng)作工具。
-
數(shù)據(jù)增強(qiáng) 通過生成多樣化的圖像,xAR可以擴(kuò)充訓(xùn)練數(shù)據(jù)集,提升模型的泛化能力和魯棒性,為機(jī)器學(xué)習(xí)任務(wù)提供更高質(zhì)量的訓(xùn)練數(shù)據(jù)。
xAR的未來展望
xAR的成功不僅展示了字節(jié)跳動(dòng)與約翰·霍普金斯大學(xué)在人工智能領(lǐng)域的深厚積累,也為視覺生成技術(shù)的發(fā)展指明了方向。隨著技術(shù)的不斷優(yōu)化和應(yīng)用場景的拓展,xAR有望在藝術(shù)創(chuàng)作、虛擬現(xiàn)實(shí)、影視制作等領(lǐng)域發(fā)揮更大的作用。
結(jié)語
xAR作為新一代自回歸視覺生成框架,以其創(chuàng)新的技術(shù)和卓越的性能,正在重新定義視覺生成的邊界。無論是技術(shù)開發(fā)者、設(shè)計(jì)師還是普通用戶,都可以從中受益,感受人工智能帶來的無限可能。