StyleGAN3: Allias-Free GAN
生成人工智能的最新進展在可控圖像生成方面顯示出可喜的成果。像 StyleGAN2 這樣的生成器可以生成逼真的圖像。然而,由于一種導致特征粘在一個地方的現象,這些模型無法生成高質量的視頻和動畫。這些特征似乎具有一些固定位置特征,使這些生成器不適合“電影生成”。
StyleGAN3 論文解決了這個問題的原因:當前網絡在中間層無意中產生了“像素參考”。主要原因之一是混疊,它會導致不同的信號變得無法區分。這項工作的重點是在保持生成圖像質量的同時消除生成器網絡的混疊。
發電機網絡中的信號
在深入本文之前,我們應該了解模型正在接收什么信號。信號指的是控制生成器將在圖像上繪制的內容的特征圖——例如,某些像素處的頭發數量。在 StyleGAN 生成器的上下文中,它是來自中間潛在代碼的信息。
但是,生成器只能對信號的離散表示進行操作。這樣做時的一個常見問題是混疊,其中不同的連續信號可以采樣到相同的離散信號中。這是導致模型創建像素引用的問題,使紋理卡在一個地方。
Nyquist-Shannon采樣定理中說。采樣率必須至少是信號最高頻率的兩倍才能對連續信號進行采樣。當采樣過程不遵循該定理時,就會出現混疊。
對連續信號進行操作。
StyleGAN3 的目標是通過使用操作 F 對相應的離散信號進行操作來轉換連續信號。假設 Z 是連續信號 z 的離散表示。我們可以使用低通濾波器和 Dirac comb IIIs 從 Z 推導 z 和 Z 從 z 推導。
問題變成了強制模型等方差。
這意味著模型在正確的連續信號上運行。我們對連續信號進行模型操作 f:
其中 s' 和 s 是輸出和輸入的采樣率,換句話說,1 /(圖像的分辨率)。幸運的是,我們目前使用的大多數操作,例如卷積、上/下采樣等,都被證明是等變的。對于卷積,內核必須是徑向對稱的。
此時,我們還沒有對生成器進行任何修改。但上面的等式僅在沒有混疊時成立,這意味著操作 F(Z) 不會引入頻率高于 s' 采樣率一半的信號。我們的問題在于上/下采樣(改變輸出采樣率)和非線性層(提供高頻特征)等層
通過低通濾波解決非線性問題
非線性層是神經網絡的基本組成部分。它們允許模型學習更復雜的非線性函數。事實上,如果我們在神經網絡中沒有任何非線性層,我們實際上可以將整個網絡壓縮成一個矩陣。
然而,這些層次有時也會給我們帶來麻煩。在這種情況下,例如,ReLU 層可能會引入任意高頻信號:
資料來源:在論文中。ReLU 激活對連續特征圖的影響。
現在,請記住我們的采樣率與我們的離散特征圖分辨率成反比。因此,這個采樣率在 ReLU 之后保持不變。然而,連續特征圖似乎有高頻信號(從白色區域跳到紅色區域)。這可能會導致混疊,因為采樣率不會高于最高頻率的兩倍。
為了解決上述問題,作者建議使用低通濾波器來降低連續信號的頻率。它只是簡單地去除高頻成分:
據我所知,一種方法是使用快速傅立葉變換 2D 并將所有高頻分量歸零。設 ψs 為理想的低通濾波器,我們將模型對連續信號的操作設為:
注意FFT下卷積可以改成乘法
我們的離散操作變成:
上/下采樣
這些采樣層不會改變我們的連續信號。但相反,他們改變了我們的特征圖分辨率,這意味著采樣率。事實上,上采樣層沒有問題,因為它們提高了采樣率,這是一件好事。然而,下采樣降低了我們的采樣率。
我們可以通過使用低通濾波器去除高于輸出帶寬限制的頻率來解決非線性問題時做同樣的事情。我們的連續和離散操作是:
實用修改
根據對生成器網絡信號處理操作的分析,作者對生成器提出了很多修改:
生成器對包含相位和頻率的傅立葉特征進行操作。這是信號的連續表示和離散表示之間的重要橋梁。此外,目標是使生成器與連續信號等變,評估和量化等變性的指標由下式給出:
- 對于平移等方差,該工作報告了兩組圖像之間的峰值信噪比 (PSNR)(通過平移合成網絡的輸入和輸出獲得:
2. 對于旋轉等方差,
結論
在論文中,作者發現 StyleGAN2 生成器存在問題,導致無法生成視頻和動畫。結果生成器一直在對連續信號的不忠實離散表示進行操作,因此迫使它為某些特征(通常是高頻特征,如頭發、邊緣等)提供像素參考。這樣做的原因是不忠實的混疊離散信號,導致不同的信號可以有相同的表示。
在 StyleGAN3 中,作者提議對生成器進行更改以消除這些別名。通過仔細考慮模型對連續信號的操作,去除了像素參考,同時也提高了合成數據的 FID。