對于普通用戶而言,若想將個人形象嵌入主流AI圖像視頻生成工具,往往面臨一個現實門檻:除非你是家喻戶曉的公眾人物,否則必須預先通過個人照片集訓練專屬的LoRA(低秩適應)模型。這套"數字身份證"一旦建立,生成系統便能在后續創作中精準還原用戶特征。
這項被稱為"AI定制化"的技術,其發展歷程頗具戲劇性。2022年Stable Diffusion橫空出世后不久,谷歌研究院便率先推出名為DreamBooth的閉源解決方案。這個需要數GB存儲空間的定制模型,很快被技術極客破解改良,最終以開源形式回饋社區。
而LoRA模型的問世徹底改變了游戲規則。相較于前代方案,它具有三大突破性優勢:訓練流程大幅簡化、模型體積顯著縮小、生成質量卻分毫不減。這些特性使其迅速占領市場,不僅成為Stable Diffusion系列模型的標配,更在后續問世的Flux等圖像模型,以及混元視頻、萬2.1等視頻生成平臺上大放異彩。
技術迭代之痛與破局之道
我們注意到一個持續存在的行業痛點:每當底層模型更新迭代,用戶就必須重新訓練配套LoRA。這對內容創作者而言無異于噩夢——耗費大量資源建立的定制模型,很可能因技術升級而一夜之間淪為"數字廢鐵"。
這一困境催生了學界對"零樣本定制"技術的研究熱潮。該技術的革命性在于:用戶僅需提供少量樣本圖片,系統即可實時解析特征并融入生成過程,徹底跳過了傳統方案中繁瑣的數據準備和模型訓練環節。如圖所示,采用PuLID框架的系統不僅能實現無縫換臉,更能將人物特征與藝術風格完美融合。
要用通用的適配器(adapter)來取代像LoRA這樣既費時費力又脆弱的系統,這個想法確實很棒(也很受歡迎),但挑戰也不小。LoRA訓練過程中那種對細節的極致把控和全面覆蓋,想在IP-Adapter這類"一次性"模型上復現可不容易——畢竟這類模型必須在沒有事先分析大量身份圖像的優勢下,達到和LoRA同等的細節處理能力和靈活性。
?HyperLoRA
在此刻,字節跳動新發的一篇論文很有意思——他們提出了一種能實時生成LoRA代碼的系統,這目前在零樣本解決方案中可是獨一份。
論文指出:
"基于適配器(Adapter)的技術(如IP-Adapter)會凍結基礎模型的參數,采用插件式架構來實現零樣本推理,但在人像合成任務中,這類方法往往缺乏自然度和真實感——這個問題不容忽視。"
"我們(字節跳動)提出了一種參數高效的自適應生成方法HyperLoRA,通過自適應插件網絡動態生成LoRA權重,將LoRA的卓越性能與適配器方案的零樣本能力相結合。"
"經過精心設計的網絡結構和訓練策略,我們實現了支持單圖/多圖輸入的零樣本個性化人像生成,在照片級真實感、還原度和可編輯性方面都表現出色。"
最實用的是,訓練好的系統可直接兼容現有ControlNet,從而實現高度精細化的生成控制。
至于這個新系統最終是否會向終端用戶開放,字節跳動歷史來說可能很高——他們此前就開源了效果強大的口型同步框架LatentSync,最近又剛剛發布了InfiniteYou框架。
不太樂觀的是,論文中完全沒有提及開源意向,而且復現這項研究所需的訓練資源極其龐大,即便是技術發燒友社區想要復現(就像當初對DreamBooth那樣)也將面臨巨大挑戰。
這篇題為《HyperLoRA:人像合成的參數高效自適應生成》的新論文,由字節跳動及其旗下智能創作部門的七位研究者完成。
技術方案
這種新方法以Stable Diffusion的潛在擴散模型(LDM)SDXL為基礎模型,不過其原理似乎適用于各類擴散模型(但考慮到訓練要求——詳見下文——可能難以應用于視頻生成模型)。
HyperLoRA的訓練過程分為三個階段,每個階段都旨在分離并保留學習權重中的特定信息。這種分階段訓練的設計目標,是在確保快速穩定收斂的同時,防止身份特征被服裝、背景等無關元素干擾。
第一階段完全專注于學習"基礎LoRA"(示意圖左下方模塊),該模塊專門捕捉與身份無關的細節。
為確保這種分離效果,研究人員刻意對訓練圖像中的人臉進行模糊處理,迫使模型只能學習背景、光線和姿勢等特征——而非身份信息。這個"預熱階段"相當于過濾器,在進入身份特征學習前先排除低級干擾。
第二階段則引入"身份LoRA"(示意圖左上方模塊),通過雙通道架構編碼面部特征:
CLIP視覺變換器(CLIP ViT)提取結構特征
InsightFace AntelopeV2編碼器生成抽象身份表征
轉型方法
CLIP特征能加速模型收斂,但存在過擬合風險;而Antelope表征更穩定但訓練較慢。因此系統初期主要依賴CLIP特征,隨后逐步引入Antelope,以此保持訓練穩定性。
最終階段會完全凍結CLIP引導的注意力層,僅保留與AntelopeV2連接的注意力模塊繼續訓練。這種設計既能讓模型持續優化身份特征保存能力,又不會破壞已學習組件的精確度和泛化性。
這種分階段架構本質上是特征解耦的嘗試——先將身份與非身份特征分離,再各自獨立優化。它系統性地解決了個性化建模的常見問題:身份特征漂移、編輯靈活性不足,以及對非關鍵特征的過擬合。
動態權重生成機制
當CLIP ViT和AntelopeV2從人像中分別提取出結構特征和身份特征后,這些特征會被送入感知重采樣器(源自IP-Adapter項目)——這是一個基于Transformer的模塊,能將特征映射為一組緊湊系數。
系統采用兩個獨立的重采樣器:
基礎LoRA權重采樣器:編碼背景等非身份特征
身份LoRA權重采樣器:專注面部身份特征
隨后,這些輸出系數會與一組預訓練的LoRA基矩陣進行線性組合,無需微調基礎模型就能生成完整的LoRA權重。
這種方法僅需圖像編碼器和輕量級投影運算,就能實時生成個性化權重,同時充分發揮LoRA直接調控基礎模型行為的優勢。
數據和測試
為訓練HyperLoRA,研究團隊從LAION-2B數據集中選取了440萬張人臉圖像子集(該數據集正是2022年原始Stable Diffusion模型的訓練數據來源)。
通過InsightFace篩選剔除非人像及重復圖像后,所有圖片均使用BLIP-2系統自動標注。在數據增強環節,研究人員采用隨機面部區域裁剪策略,始終確保圖像聚焦人臉特征。
由于受限于訓練硬件內存,各LoRA模塊的秩(rank)需動態調整:
? 身份LoRA(ID-LoRA)秩設為8
? 基礎LoRA(Base-LoRA)秩設為4
? 同時采用八步梯度累積來模擬更大批次的訓練效果
具體訓練安排如下:
? 1基礎LoRA模塊:20,000次迭代
? 2身份LoRA(CLIP分支):15,000次迭代
? 3身份LoRA(特征嵌入分支):55,000次迭代
? 在身份LoRA訓練階段,系統按0.9/0.05/0.05的概率采樣三種條件組合
整個系統基于PyTorch和Diffusers框架實現,在16塊NVIDIA A100顯卡上耗時約十天完成訓練(640GB或1280GB的VRAM,具體取決于使用的型號)。
ComfyUI 測試
研究者在ComfyUI合成平臺中構建了工作流程,將HyperLoRA與三種競爭方法進行對比:InstantID、前文提到的IP-Adapter(具體采用IP-Adapter-FaceID-Portrait框架)以及上述引用的PuLID。所有框架測試均使用相同的初始種子、提示詞和采樣方法以確保一致性。
作者指出,基于Adapter(而非LoRA)的方法通常需要更低的分類器自由引導(CFG)比例尺度,而LoRA方法(包括HyperLoRA)在這方面更具靈活性。因此為了公平比較,研究者在測試中統一使用了開源SDXL微調檢查點變體LEOSAM的Hello World模型。定量測試則采用了Unsplash-50圖像數據集作為基準。
指標
在保真度基準測試中,研究者采用兩種指標衡量面部相似度:一是通過CLIP圖像嵌入(CLIP-I)計算余弦距離,二是通過訓練階段未使用的CurricularFace模型提取獨立身份嵌入(ID Sim)進行比對。測試時,每種方法為每個身份生成四張高清肖像,最終取平均值作為結果。
編輯能力評估則采用雙重標準:一方面比較啟用與禁用身份模塊時的CLIP-I得分差異,以此衡量身份約束對圖像的改變程度;另一方面通過十組涵蓋發型、配飾、服裝和背景的提示詞變體,檢測CLIP圖文對齊度(CLIP-T)。實驗還將Arc2Face基礎模型納入對比,該基線模型采用固定描述文本和裁剪面部區域進行訓練。
針對HyperLoRA特別測試了兩個變體:僅使用ID-LoRA模塊的版本,以及同時使用ID-LoRA與權重設為0.4的Base-LoRA的復合版本。測試發現Base-LoRA雖能提升保真度,但會輕微限制編輯靈活性。
在定量測試結果分析中,研究者指出:
"基礎LoRA模塊雖能提升圖像保真度,但會限制編輯靈活性。盡管我們的設計已將圖像特征解耦至不同LoRA模塊,仍難以完全避免特征泄漏。因此可通過調節基礎LoRA權重來適配不同應用場景。"
"HyperLoRA完整版與純ID版分別占據面部保真度指標第一、二位,而InstantID在身份相似度上表現優異但保真度較低。評估時需綜合考量這兩個指標——身份相似度反映抽象特征,而保真度則呈現細節表現。"
定性測試結果(受篇幅限制無法展示全部高清對比圖像,詳見原文圖示)清晰展現了不同方法的核心權衡關系:
研究者特別指出:
"IP-Adapter和InstantID生成的肖像皮膚存在明顯AI紋理,存在[色彩過飽和]問題,與真實照片相去甚遠。這是基于Adapter方法的通病。PuLID通過減弱對基礎模型的侵入性改善了這個問題,雖優于前兩者但仍存在模糊和細節缺失。"
"相比之下,LoRA直接修改基礎模型權重而非引入額外注意力模塊,通常能生成高度細膩的逼真圖像。"
作者強調,HyperLoRA直接調整基礎模型權重的特性,使其保留了傳統LoRA方法的非線性表達能力,在保真度方面具有優勢,能更好地捕捉瞳孔顏色等細微特征。定性對比顯示,HyperLoRA的畫面構圖不僅比InstantID和IP-Adapter更符合提示詞要求(后兩者時常出現構圖不自然或偏離提示的情況),其連貫性也與PuLID相當。
結論
過去18個月層出不窮的"單樣本定制"系統,已然顯露出某種技術焦慮——這些方案大多未能顯著推進技術前沿,即便偶有突破,也往往伴隨著驚人的訓練成本,或面臨極其復雜、資源密集的推理需求。
盡管HyperLoRA的訓練規模與近期同類研究一樣令人咋舌,但至少其最終產出的模型能夠實現開箱即用的即時定制。根據論文補充材料,HyperLoRA的推理速度優于IP-Adapter,但遜于另外兩種對比方法。需要說明的是,這些測試數據基于NVIDIA V100專業顯卡(其32GB顯存上限雖已被新款消費級顯卡超越,但仍非典型家用設備)。
可以公允地說,從實際應用角度來看,零樣本定制仍是一個未解的難題——HyperLoRA雖然表現出色,但其苛刻的硬件需求與構建長期通用基礎模型的目標存在著根本性矛盾。
精選文章:
35536塊“金磚”砌成的上海新地標,土到窒息還是有錢任性?