xAR：字節(jié)跳動(dòng)與霍普金斯大學(xué)聯(lián)合推出的新一代自回歸視覺生成框架

AI百科 2025-03-05 10:10:08 奇想AI導(dǎo)航網(wǎng)

xAR：字節(jié)跳動(dòng)與霍普金斯大學(xué)聯(lián)合推出的新一代自回歸視覺生成框架

隨著人工智能技術(shù)的飛速發(fā)展，視覺生成領(lǐng)域正迎來新一輪的技術(shù)革新。近日，字節(jié)跳動(dòng)與約翰·霍普金斯大學(xué)聯(lián)合推出了名為xAR的新型自回歸視覺生成框架，這一技術(shù)在性能和應(yīng)用上均取得了顯著突破，為圖像生成領(lǐng)域注入了新的活力。

什么是xAR？

xAR（eXtended Autoregressive）是一種基于自回歸方法的視覺生成框架，由字節(jié)跳動(dòng)與約翰·霍普金斯大學(xué)的研究團(tuán)隊(duì)共同開發(fā)。與傳統(tǒng)自回歸模型相比，xAR通過兩項(xiàng)創(chuàng)新技術(shù)——Next-X Prediction和Noisy Context Learning，有效解決了傳統(tǒng)模型在視覺生成中的信息密度不足和累積誤差問題。

xAR的核心技術(shù)

Next-X Prediction（下一個(gè)X預(yù)測） xAR擴(kuò)展了傳統(tǒng)的“下一個(gè)標(biāo)記預(yù)測”方法，支持模型預(yù)測更復(fù)雜的視覺實(shí)體，如圖像塊、單元、子采樣甚至整個(gè)圖像。這種技術(shù)能夠捕捉更豐富的語義信息，顯著提升生成圖像的質(zhì)量和細(xì)節(jié)。
Noisy Context Learning（噪聲上下文學(xué)習(xí)） 在訓(xùn)練過程中，xAR通過引入噪聲，提高了模型對誤差的魯棒性。這一技術(shù)能夠有效緩解自回歸模型在生成過程中常見的累積誤差問題，確保生成結(jié)果的穩(wěn)定性。
流匹配（Flow Matching） xAR基于流匹配方法，將離散的標(biāo)記分類問題轉(zhuǎn)化為連續(xù)的實(shí)體回歸問題。具體來說，模型通過插值和噪聲注入生成帶噪聲的輸入，并在每個(gè)自回歸步驟中預(yù)測從噪聲分布到目標(biāo)分布的方向流（Velocity），逐步優(yōu)化生成結(jié)果。

xAR的性能優(yōu)勢

在ImageNet數(shù)據(jù)集上，xAR展現(xiàn)出了卓越的性能：

xAR-B（1.72億參數(shù)）：推理速度比DiT-XL（6.75億參數(shù)）快20倍，同時(shí)在弗雷歇 inception 距離（FID）上達(dá)到1.72，優(yōu)于現(xiàn)有擴(kuò)散模型和自回歸模型。
xAR-H（11億參數(shù)）：在ImageNet-256基準(zhǔn)測試中，F(xiàn)ID達(dá)到1.24，創(chuàng)造了新的最優(yōu)水平，且不依賴于視覺基礎(chǔ)模型或高級引導(dǎo)區(qū)間采樣。

xAR的應(yīng)用場景

xAR的靈活性和高性能使其在多個(gè)領(lǐng)域具有廣泛的應(yīng)用潛力：

藝術(shù)創(chuàng)作 藝術(shù)家可以利用xAR生成創(chuàng)意圖像，作為藝術(shù)作品的靈感來源或直接用于創(chuàng)作。xAR支持不同分辨率和風(fēng)格的生成需求，能夠生成具有豐富細(xì)節(jié)和多樣風(fēng)格的圖像。
虛擬場景生成 在游戲開發(fā)和虛擬現(xiàn)實(shí)（VR）中，xAR可以快速生成逼真的虛擬場景，包括自然景觀、城市環(huán)境和虛擬角色等，顯著提升用戶體驗(yàn)。
老照片修復(fù) 通過生成高質(zhì)量的圖像內(nèi)容，xAR可以修復(fù)老照片中的損壞部分，恢復(fù)其原始細(xì)節(jié)和色彩，為文化遺產(chǎn)保護(hù)提供技術(shù)支持。
視頻內(nèi)容生成 xAR可以生成視頻中的特定場景或?qū)ο螅糜谝曨l特效制作、動(dòng)畫生成和視頻編輯，為影視行業(yè)帶來新的創(chuàng)作工具。
數(shù)據(jù)增強(qiáng) 通過生成多樣化的圖像，xAR可以擴(kuò)充訓(xùn)練數(shù)據(jù)集，提升模型的泛化能力和魯棒性，為機(jī)器學(xué)習(xí)任務(wù)提供更高質(zhì)量的訓(xùn)練數(shù)據(jù)。

xAR的未來展望

xAR的成功不僅展示了字節(jié)跳動(dòng)與約翰·霍普金斯大學(xué)在人工智能領(lǐng)域的深厚積累，也為視覺生成技術(shù)的發(fā)展指明了方向。隨著技術(shù)的不斷優(yōu)化和應(yīng)用場景的拓展，xAR有望在藝術(shù)創(chuàng)作、虛擬現(xiàn)實(shí)、影視制作等領(lǐng)域發(fā)揮更大的作用。