今年2月,經過多年研究的JPEG AI國際標準正式發布。該標準采用機器學習技術,旨在實現更小、更易傳輸和存儲的圖像編解碼,同時保持感知質量不下降。

JPEG AI官方發布流中,峰值信噪比(PSNR)與JPEG AI機器學習增強方法的對比。來源:https://jpeg.org/jpegai/documentation.html

這一突破未能引起廣泛關注的原因之一是其核心PDF文件(頗具諷刺意味地)未通過Arxiv等免費門戶公開。不過,Arxiv此前已發布多項研究,探討了JPEG AI在多個方面的重要意義,包括該方法獨特的壓縮偽影及其對取證的挑戰。

一項研究比較了包括JPEG AI早期草案在內的壓縮偽影,發現新方法存在模糊文本的傾向——在編解碼可能作為證據鏈環節的情況下,這一問題不容忽視。來源:https://arxiv.org/pdf/2411.06810

由于JPEG AI改變圖像的方式與合成圖像生成器的偽影相似,現有取證工具難以區分真實與偽造內容:

根據2025年3月的最新論文,經JPEG AI壓縮后,最先進的算法無法在定位圖中可靠分離真實內容與篡改區域。左側源示例為偽造圖像,標準取證技術下篡改區域清晰可辨(中圖);而JPEG AI壓縮為偽造圖像增添了可信度(右圖)。來源:https://arxiv.org/pdf/2412.03261

原因之一是JPEG AI采用的模型架構與取證工具旨在檢測的生成系統相似:

新論文揭示了AI驅動的圖像壓縮與AI生成圖像在方法上的相似性。來源:https://arxiv.org/pdf/2504.03191

因此,從取證角度看,兩種模型可能產生某些相似的底層視覺特征。

量化技術

這種交叉現象源于兩者共有的量化技術。在機器學習中,量化既是一種將連續數據轉換為離散數據點的方法,也是一種能顯著縮小訓練模型文件大小的優化技術(普通圖像合成愛好者對官方模型發布與社區量化版本間的等待時間并不陌生)。

在此背景下,量化指將圖像潛在表示中的連續值轉換為固定離散步驟的過程。JPEG AI通過簡化內部數值表示,減少存儲或傳輸圖像所需的數據量。

盡管量化提高了編碼效率,但也引入了結構規律性,這些規律性與生成模型留下的偽影相似——細微到難以察覺,卻足以干擾取證工具。

對此,一篇題為《JPEG AI圖像的三項取證線索》的新研究提出了可解釋的非神經網絡技術,用于檢測JPEG AI壓縮、判斷圖像是否被重新壓縮,以及區分壓縮后的真實圖像與完全由AI生成的圖像。

方法

色彩相關性

論文提出了三種針對JPEG AI圖像的"取證線索":JPEG AI預處理步驟引入的色彩通道相關性;多次壓縮中圖像質量的可測量失真(揭示重新壓縮事件);以及幫助區分JPEG AI壓縮圖像與AI生成圖像的潛在空間量化模式。

關于色彩相關性方法,JPEG AI的預處理流程在圖像色彩通道間引入了統計依賴關系,形成可作為取證線索的特征。

JPEG AI將RGB圖像轉換為YUV色彩空間,并進行4:2:0色度二次采樣,即在壓縮前對色度通道降采樣。這一過程導致紅、綠、藍通道高頻殘差間產生微妙關聯——未壓縮圖像中不存在這種關聯,其強度也不同于傳統JPEG壓縮或合成圖像生成器產生的相關性。

JPEG AI壓縮如何改變圖像中色彩相關性的對比。

上圖展示了論文中JPEG AI壓縮如何改變圖像色彩相關性的對比,以紅色通道為例。

圖A比較未壓縮圖像與JPEG AI壓縮圖像,顯示壓縮顯著增加了通道間相關性;圖B隔離JPEG AI預處理(僅色彩轉換和二次采樣)的效果,表明僅此步驟已明顯提升相關性;圖C顯示傳統JPEG壓縮也輕微增加相關性,但程度不同;圖D分析合成圖像,Midjourney-V5和Adobe Firefly顯示中度相關性增加,而其他生成器更接近未壓縮水平。

碼率-失真

碼率-失真線索通過追蹤峰值信噪比(PSNR)衡量的圖像質量在多次壓縮中的可預測下降模式,識別JPEG AI重新壓縮。

研究指出,使用JPEG AI反復壓縮圖像會導致圖像質量逐漸下降(通過PSNR量化),這種漸進式劣化構成檢測圖像是否被重新壓縮的取證線索。

與傳統JPEG早期方法追蹤特定圖像塊變化不同,JPEG AI的神經壓縮架構需要不同方法。因此作者提出監測碼率與PSNR在連續壓縮中的演變。每輪壓縮對圖像的改變小于前一輪,這種遞減變化(繪制為碼率函數)可揭示圖像是否經歷多階段壓縮:

不同編解碼器下重復壓縮對圖像質量影響的示意圖,包含JPEG AI與https://arxiv.org/pdf/1802.01436開發的神經編解碼器結果;兩者均顯示PSNR隨每次額外壓縮穩步下降,即使低碼率下亦然。相比之下,傳統JPEG壓縮在多次壓縮中保持相對穩定質量,除非碼率較高。

上圖中,JPEG AI、另一種AI編解碼器和傳統JPEG的碼率-失真曲線顯示,前兩者在所有碼率下均呈現PSNR持續下降,而傳統JPEG僅在更高碼率下出現明顯劣化。此行為提供可量化信號,用于標記重新壓縮的JPEG AI圖像。

通過提取碼率與圖像質量在多輪壓縮中的演變,作者構建了特征,幫助判斷圖像是否被重新壓縮,為JPEG AI提供實用取證線索。

量化

如前所述,JPEG AI帶來的取證難題之一是其與擴散模型生成合成圖像的視覺相似性。兩種系統均采用編碼器-解碼器架構,在壓縮潛在空間處理圖像,常留下細微上采樣偽影。

這些共同特征可能混淆檢測器——即使針對JPEG AI圖像重新訓練。但關鍵結構差異仍存:JPEG AI應用量化(將潛在值舍入到離散水平以實現高效壓縮),而生成模型通常不這樣做。

新研究利用這一區別設計取證線索,間接測試量化存在。該方法分析圖像潛在表示對舍入的響應,假設若圖像已被量化,其潛在結構將呈現與舍入值對齊的可測量模式。

這些模式雖肉眼不可見,但產生的統計差異有助于區分壓縮的真實圖像與完全合成的圖像。

平均傅里葉頻譜示例顯示,JPEG AI壓縮圖像與Midjourney-V5、Stable Diffusion XL等擴散模型生成圖像在頻域均呈現規則網格狀模式——通常與上采樣相關的偽影。相比之下,真實圖像缺乏這些模式。這種頻譜結構重疊解釋了為何取證工具常混淆壓縮真實圖像與合成圖像。

重要的是,作者證明此線索適用于不同生成模型,即使壓縮強度足以將潛在空間整段歸零仍有效。而合成圖像對此舍入測試響應弱得多,提供了區分兩者的實用方法。

該結果旨在成為輕量級、可解釋的工具,針對壓縮與生成的核心差異,而非依賴脆弱的表面偽影。

數據與測試

壓縮

為評估色彩相關性線索能否可靠檢測JPEG AI壓縮(即從未壓縮源的首次處理),作者測試了RAISE數據集的高質量未壓縮圖像,使用JPEG AI參考實現在多種碼率下壓縮。

他們訓練了一個簡單隨機森林分析色彩通道相關性的統計模式(特別是各通道殘差噪聲如何對齊),并與直接在圖像像素上訓練的ResNet50神經網絡對比。

使用色彩相關性特征檢測JPEG AI壓縮的準確率,跨多種碼率對比。該方法在低碼率(壓縮偽影更強)下最有效,且比基線ResNet50模型對未見壓縮水平的泛化能力更好。

雖然ResNet50在測試數據與訓練條件接近時準確率更高,但難以泛化到不同壓縮水平。基于相關性的方法雖簡單得多,卻在各碼率下更一致,尤其在JPEG AI預處理效果更強的低壓縮率下。

這些結果表明,即使無需深度學習,利用可解釋且穩健的統計線索也能檢測JPEG AI壓縮。

重新壓縮

為評估JPEG AI重新壓縮能否被可靠檢測,研究人員測試了碼率-失真線索,使用一組以不同碼率壓縮的圖像——部分僅壓縮一次,其他用JPEG AI二次壓縮。

該方法提取17維特征向量,追蹤圖像碼率與PSNR在三次壓縮中的演變。該特征集捕捉每一步的質量損失程度,以及潛在和超先驗率的行為——傳統基于像素的方法難以獲取這些指標。

研究人員訓練隨機森林分析這些特征,并與基于圖像塊訓練的ResNet50對比性能:

隨機森林使用碼率-失真特征檢測JPEG AI圖像是否被重新壓縮的分類準確率結果。當初始壓縮較強(即低碼率)時方法表現最佳,且始終優于基于像素的ResNet50——尤其是第二次壓縮比第一次更溫和時。

隨機森林在初始壓縮較強(即低碼率)時效果顯著,能清晰區分單次與雙重壓縮圖像。與此前線索相同,ResNet50版本泛化能力差,尤其在測試未經訓練的壓縮水平時。

相比之下,碼率-失真特征在廣泛場景中保持穩定。值得注意的是,該方法適用于其他AI編解碼器,表明其推廣性不限于JPEG AI。

JPEG AI與合成圖像

最后測試中,作者驗證了基于量化的特征能否區分JPEG AI壓縮圖像與Midjourney、Stable Diffusion、DALL-E 2、Glide和Adobe Firefly等模型生成的完全合成圖像。

研究人員使用Synthbuster數據集的子集,混合RAISE數據庫的真實照片與多種擴散和GAN模型生成的圖像。

Synthbuster中合成圖像示例,使用受RAISE-1k數據集自然照片啟發的文本提示生成。圖像由多種擴散模型創建,提示設計旨在生成逼真內容與紋理,而非風格化或藝術渲染。來源:https://ieeexplore.ieee.org/document/10334046

真實圖像以多種碼率經JPEG AI壓縮,分類任務設為二選一:JPEG AI對抗特定生成器,或特定碼率對抗Stable Diffusion XL。

從固定256×256區域計算量化特征(從潛在表示提取的相關性),輸入隨機森林分類器。作為基線,ResNet50在同一數據的圖像塊上訓練。

隨機森林使用量化特征分離JPEG AI壓縮圖像與合成圖像的分類準確率。

多數情況下,基于量化的方法優于ResNet50基線,尤其在壓縮偽影更強的低碼率下。

作者指出:

"基線ResNet50對Glide圖像表現最佳(準確率66.1%),但其他情況下泛化能力不如量化特征。量化特征對壓縮強度和生成器類型展現出良好泛化性。"

"被量化歸零的系數重要性體現在截斷[特征]的出色表現上,其性能常與ResNet50分類器相當。"

"但使用未截斷完整整數[向量]的量化特征表現明顯更好。這些結果證實,量化后的零值數量是區分AI壓縮與AI生成圖像的重要線索。"

"不過,其他因素也有貢獻。完整向量檢測JPEG AI的準確率在所有碼率下均超過91.0%,且壓縮越強準確率越高。"

使用UMAP對特征空間投影顯示,JPEG AI與合成圖像明顯分離,低碼率增大了類別間距。Glide是 consistent outlier,其圖像聚類不同,檢測準確率為測試生成器中最低。

基于量化特征的JPEG AI壓縮與合成圖像的二維UMAP可視化。左圖顯示低JPEG AI碼率增大與合成圖像的分離度;右圖展示不同生成器圖像在特征空間中的 distinct 聚類。

最后,作者評估了特征在典型后處理(如JPEG重新壓縮或降采樣)下的穩健性。雖然性能隨處理強度下降,但下降平緩,表明該方法在 degraded 條件下仍保持一定魯棒性。

量化特征在JPEG重新壓縮(JPG)和圖像縮放(RS)等后處理下的魯棒性評估。

結論

JPEG AI能否廣泛采用尚無定論。一方面,現有基礎設施的慣性足以對任何新編解碼器形成阻力;即使是AV1這種價值公認、血統純正的"傳統"編解碼器,也難以撼動長期占據主導地位的現有方法。

關于該系統與AI生成器的潛在沖突,當前AI圖像檢測器依賴的特征量化偽影可能在后期系統中減弱或被其他痕跡取代(假設AI生成器總會留下取證殘留,這并不確定)。

這意味著JPEG AI自身的量化特征——連同新論文發現的其他線索——最終可能與最有效的新生成AI系統的取證痕跡并不沖突。

但若JPEG AI持續作為事實上的"AI漂白劑",顯著模糊真實與生成圖像的界限,其應用前景將難以樂觀。

精選文章:

字體搭配藝術:打造平衡設計的終極指南

柔和粗野主義:2025年最意想不到的室內設計風潮

忘掉尖角:5種意想不到的曲線設計,讓你的家煥發新生

浪漫的野蠻主義:米蘭設計周上的波蘭工藝與設計

AI內容悖論:自動化時代下的創造力導航