• 正文
    • 背景與動機
    • 研究目標
    • 方法
    • 實驗與結果
  • 推薦器件
  • 相關推薦
申請入駐 產(chǎn)業(yè)圖譜

面向局部精細控制的面部表情生成

2024/08/05
1987
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

論文 Towards Localized Fine-Grained Control for Facial Expression Generation 探討了如何在生成面部表情圖像時實現(xiàn)精細化和局部化控制。

所提出的方法FineFace能夠對單個面部肌肉動作進行精確控制。通過結合多個動作單元(AUs),F(xiàn)ineFace能夠生成復雜且細膩的面部表情。我們基于適配器架構的方法允許通過IP-Adapter [47] 與圖像提示集成。

背景與動機

生成模型的現(xiàn)狀:生成模型(如T2I文本到圖像生成模型)在生成高質量圖像和視頻方面取得了顯著進展,并開始應用于電影和藝術作品的制作。然而,這些模型在生成具有特定屬性和精確控制的圖像方面仍然存在挑戰(zhàn),尤其是在生成面部表情時。

面部表情的重要性:面部表情在內(nèi)容生成中起著關鍵作用,能夠傳達豐富的情感和意圖。然而,現(xiàn)有的生成模型大多生成平淡的中性表情或缺乏真實性的微笑,難以生成復雜和細膩的表情,如懷疑、憤怒等。

展示了不同動作單元的選集及其強度等級。圖例改編自 [44]。完整的AUs集合及其視頻請參見 [30]。

研究目標

使用動作單元(AUs):提出使用動作單元(AUs)來控制面部表情生成。AUs描述了基于面部解剖學的單個面部肌肉運動,允許對面部運動的強度進行精確和局部化的控制。

生成復雜表情:通過組合不同的AUs,可以生成超越典型情感模型的復雜和真實的表情反應。

方法

FineFace方法:提出了一種基于適配器架構的方法,稱為FineFace,能夠與圖像提示(使用IP-Adapter)無縫集成,提供精確和直觀的控制。

基線方法:建立了幾個基線方法,包括未進行微調的Stable Diffusion(SD)、使用prior-preservation loss微調的DreamBooth(DB)、僅訓練LoRA層的LoRA-T,以及使用可學習的AU編碼器將AU向量投射到clip空間的LoRA-AU。

FineFace基于文本提示和AU條件生成圖像。AU條件向量首先被傳遞到AU編碼器,然后傳遞到AU-Adapter。AU注意力的輸出隨后與現(xiàn)有的文本注意力相加。在這種設置下,只有AU編碼器和K(鍵)和V(值)投影矩陣是可訓練的,而其他層保持凍結狀態(tài)。

實驗與結果

定性結果:通過對比12個單獨的AUs條件,發(fā)現(xiàn)FineFace方法在保持提示一致性的同時,能夠準確地遵循AU條件,而其他基線方法在某些情況下表現(xiàn)不佳。例如,DB方法在遵循AU條件方面表現(xiàn)尚可,但在處理上臉部AUs(如1、2、4、5)時表現(xiàn)不佳,并且容易過擬合訓練數(shù)據(jù)。

定量結果:通過AU MSE和CLIP-I指標進行評估,F(xiàn)ineFace方法在AU MSE方面表現(xiàn)最佳,表明其在保持一致性的同時能夠有效地應用AU條件。分布平滑技術顯著改善了CLIP-I指標,特別是在訓練期間未見過的分布外情況中。

分布平滑:引入了分布平滑技術,顯著改善了CLIP-I指標,特別是在訓練期間未見過的分布外情況中。

對比不同方法在12個單獨AUs條件下生成的圖像,使用的提示為“巴拉克·奧巴馬的特寫”。AUs的文字描述見圖2。

貢獻與未來工作

貢獻:提出了使用AUs作為條件信號來控制生成內(nèi)容中的面部表情,展示了FineFace方法在定性和定量研究中的能力。FineFace方法能夠在保持基礎擴散模型能力的同時,提供精確的面部表情控制。

未來工作:計劃開發(fā)改進的解決方案,以應對連續(xù)多標簽AUs的問題,并擴展到高度控制的面部圖像編輯。

相關信息

代碼:https://github.com/tvaranka/fineface

論文:https://arxiv.org/abs/2407.20175v1

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
DSP56F803BU80E 1 NXP Semiconductors 16-BIT, 80MHz, OTHER DSP, PQFP100

ECAD模型

下載ECAD模型
$13.78 查看
STM32F429IGT6 1 STMicroelectronics High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator, FMC with SDRAM, TFT

ECAD模型

下載ECAD模型
$14.94 查看
LPC4357FET256,551 1 NXP Semiconductors LPC4357FET256 - Dual-core Cortex-M4/M0, 1 MB Flash, 136 kB SRAM, 2 HS USB with on-chip PHY, Ethernet, LCD, CAN, AES, SPIFI, SGPIO, SCT BGA 256-Pin

ECAD模型

下載ECAD模型
$15.87 查看

相關推薦