最近應(yīng)邀提交了一個(gè)表情分析綜述,在這里把核心部分提前放一下,你若細(xì)看不信你沒有想法。
從實(shí)際使用精度和學(xué)術(shù)上非受控環(huán)境人臉表情識(shí)別精度來(lái)看,目前人臉表情識(shí)別遠(yuǎn)沒有達(dá)到像人臉識(shí)別一樣的高度。其主要問題在于:可靠的表情數(shù)據(jù)量少、表情圖片存在不確定性問題、非受控環(huán)境下人臉遮擋和姿態(tài)問題、以及方法的對(duì)比公平性和可重復(fù)性問題。
1 可靠的表情數(shù)據(jù)規(guī)模較小
目前,經(jīng)心理學(xué)家驗(yàn)證的數(shù)據(jù)庫(kù),如CK+等,是*的可靠表情數(shù)據(jù)。但是,這些數(shù)據(jù)庫(kù)的規(guī)模非常小且是實(shí)驗(yàn)室受控環(huán)境下的正臉拍攝,在該類型數(shù)據(jù)庫(kù)上訓(xùn)練的模型一般現(xiàn)實(shí)應(yīng)用效果比較差。比如使用深度學(xué)習(xí)方法,模型學(xué)習(xí)的特征可能是記住特定人的信息以及特定的表情表演方式,泛化能力較差。最近,在非受控環(huán)境下采集的網(wǎng)絡(luò)數(shù)據(jù),如FERPlus和RAF-DB之類的數(shù)據(jù)庫(kù),經(jīng)過多人眾包標(biāo)注可靠性有所增加,但是標(biāo)注數(shù)量也只是在3萬(wàn)左右。利用數(shù)據(jù)驅(qū)動(dòng)型深度學(xué)習(xí)方法,在該類數(shù)據(jù)庫(kù)上直接訓(xùn)練的精度也不高。AffectNet雖然標(biāo)注44萬(wàn)基本表情,但標(biāo)注質(zhì)量相對(duì)差,使得模型難以學(xué)習(xí)到真正的表情特征。
近年來(lái),緩解表情數(shù)據(jù)庫(kù)規(guī)模問題的流行策略就是將物體識(shí)別模型或者人臉識(shí)別模型遷移到表情識(shí)別任務(wù),即遷移學(xué)習(xí)方法。(Ding 等,2017)提出一種FaceNet2ExpNet框架。該框架首先在大規(guī)模人臉識(shí)別數(shù)據(jù)庫(kù)上進(jìn)行訓(xùn)練,然后聯(lián)合訓(xùn)練人臉表情和人臉識(shí)別,最后在人臉表情任務(wù)上進(jìn)行微調(diào)以減少模型對(duì)人臉身份信息的依賴。在EmotiW2017的音視頻情感識(shí)別競(jìng)賽中,(Knyazev 等,2017)使用超大規(guī)模的私有人臉數(shù)據(jù)庫(kù)訓(xùn)練的VGGFace網(wǎng)絡(luò)在比賽中獲得了亞軍。在EmotiW2018的音視頻情感識(shí)別比賽中,前五名的方法基本上都使用了人臉識(shí)別模型和物體識(shí)別模型進(jìn)行初始化。(Zhou 等,2019)在EmotiW2019的音視頻情感識(shí)別比賽中對(duì)人臉識(shí)別模型、人臉識(shí)別預(yù)訓(xùn)練的數(shù)據(jù)庫(kù)等進(jìn)行了綜合評(píng)估。另外,除了遷移學(xué)習(xí)策略,利用半監(jiān)督方法也是未來(lái)可能的發(fā)展趨勢(shì),其主要原因是1)大規(guī)模人臉識(shí)別數(shù)據(jù)庫(kù)中包含了非常多的表情人臉和2)像AffectNet和EmotioNet等數(shù)據(jù)庫(kù)還有很大一部分表情人臉沒有進(jìn)行標(biāo)注。最近,(Liu 等,2020)建立了一些半監(jiān)督人臉表情識(shí)別基本策略。
2 表情的不確定性問題
對(duì)于基本表情識(shí)別而言,模擬兩可的表情、低質(zhì)量表情圖片、以及標(biāo)注者的情感主觀性導(dǎo)致表情類別很多時(shí)候不是wei一確定的,即表情存在不確定性(Wang和Peng 等,2020)。表情的不確定性問題和噪聲標(biāo)簽問題非常類似,它們的差別主要體現(xiàn)在:1)表情是本身也存在模擬兩可的不確定性,而一般物體分類的噪聲標(biāo)簽是由于沒有進(jìn)行人工標(biāo)注的原因;2)物體分類的噪聲可以用人工標(biāo)注方式進(jìn)行有效消除,然而由于標(biāo)注者的主觀性,大規(guī)模的表情分類里面的噪聲很難用標(biāo)注的方式進(jìn)行消除。表情的不確定性問題也導(dǎo)致了很難有較大規(guī)模的可靠表情數(shù)據(jù)庫(kù)。
為了緩解表情的不確定性問題,(Zeng 等,2018)和(Wang和Peng等,2020)分別進(jìn)行了初步探索。其中,(Zeng 等,2018)利用多數(shù)據(jù)庫(kù)上的深度學(xué)習(xí)模型預(yù)測(cè)結(jié)果輔助訓(xùn)練潛在的正確標(biāo)簽,以提升特征學(xué)習(xí)的魯棒性。(Wang和Peng等,2020)在每個(gè)Batch使用自注意力機(jī)制和重標(biāo)注方案,抑制表情不確定的部分樣本。鑒于基本表情分類不可避免出現(xiàn)的不確定性問題,將大規(guī)模表情問題定義成多標(biāo)簽表情分類問題(Li 等,2018)或者符合表情問題EmotioNet(Benitez 等,2016)也是兩種可選策略。
3 非受控環(huán)境的人臉遮擋和姿態(tài)問題
類似于人臉識(shí)別,非受控自然環(huán)境下人臉表情識(shí)別受人臉的遮擋和姿態(tài)影響較大。傳統(tǒng)方法研究人臉表情識(shí)別的遮擋問題一般是使用人工設(shè)定局部黑塊方式(Irene等,2008),其不一定適合現(xiàn)實(shí)中的遮擋情況,如戴眼鏡、帶口罩等。最近,(Wang和Peng等,2020)統(tǒng)計(jì)了在FERPlus數(shù)據(jù)庫(kù)的測(cè)試集上的遮擋和大姿態(tài)識(shí)別情況,結(jié)果表明平均精度為86%左右的模型在遮擋和大姿態(tài)情況下的精度只有73%-75%。
為了緩解遮擋和姿態(tài)對(duì)人臉表情識(shí)別的影響,利用人臉局部信息是比較*的有效策略。(Li 等,2019)和(Wang和Peng等,2020)分別在特征層次和圖片層次使用局部塊注意力機(jī)制,以提升模型對(duì)遮擋和姿態(tài)的魯棒性。(Wang 等,2020)使用人臉關(guān)鍵點(diǎn)作為注意圖引導(dǎo)深度網(wǎng)絡(luò),使得網(wǎng)絡(luò)集中關(guān)注人臉關(guān)鍵區(qū)域提高模型的魯棒性。另一個(gè)可能的策略就是利用大規(guī)模人臉識(shí)別數(shù)據(jù),先學(xué)習(xí)一個(gè)對(duì)姿態(tài)和遮擋魯棒的人臉識(shí)別模型然后再對(duì)人臉表情識(shí)別進(jìn)行微調(diào)。筆者觀察到,(Wang 等,2020)使用VGGFace2數(shù)據(jù)庫(kù)進(jìn)行人臉識(shí)別模型預(yù)訓(xùn)練,最終得到的人臉表情識(shí)別性能比比其他數(shù)據(jù)庫(kù)預(yù)訓(xùn)練的模型要好2%左右,這充分表明了先學(xué)一個(gè)對(duì)姿態(tài)和遮擋魯棒的人臉識(shí)別模型是可行的。
4 表情識(shí)別方法的對(duì)比性不強(qiáng)
由于深度學(xué)習(xí)方法中超參數(shù)比較多,最終性能對(duì)各個(gè)超參數(shù)都有一定的影響,且這種影響有時(shí)候是新方法的關(guān)鍵因素,這就導(dǎo)致了表情識(shí)別方法存在對(duì)比性不強(qiáng)以及可重復(fù)性不強(qiáng)問題。雖然這個(gè)問題是深度學(xué)習(xí)的一個(gè)普遍性問題,但是由于前面三個(gè)問題的存在,筆者認(rèn)為超參數(shù)對(duì)表情識(shí)別性能的影響相對(duì)較大。比如其他參數(shù)相同情況下,在RAF-DB數(shù)據(jù)庫(kù)上使用batchsize為256訓(xùn)練的ResNet18模型(ImageNet預(yù)訓(xùn)練)比batchsize為32訓(xùn)練的模型(RAF-DB測(cè)試精度約86%)平均精度低5-10個(gè)百分點(diǎn)。如此簡(jiǎn)單的基本方法就能獲得86%的平均精度,已經(jīng)優(yōu)于最近很多發(fā)表方法。
為了提高人臉表情識(shí)別方法的對(duì)比性,筆者認(rèn)為有必要在對(duì)比時(shí)候?qū)⒚糠N預(yù)訓(xùn)練模型和對(duì)性能敏感的參數(shù)進(jìn)行討論評(píng)估。為了避免有些方法是在比較低的基線方法才有效,有必要在簡(jiǎn)單有效的基線方法(比如使用預(yù)訓(xùn)練的ImageNet模型、人臉識(shí)別模型)基礎(chǔ)上進(jìn)行比較。
總結(jié)與展望
目前,雖然非受控自然環(huán)境下的表情分析得到較快發(fā)展,但是眾多問題和挑戰(zhàn)仍然有待解決。人臉表情分析是一個(gè)比較實(shí)用的任務(wù),未來(lái)發(fā)展除了要討論方法的精度也要關(guān)注方法的耗時(shí)以及存儲(chǔ)消耗。在全面深度學(xué)習(xí)化的時(shí)代,人臉AU檢測(cè)也在飛快發(fā)展,人臉表情識(shí)別未來(lái)可以考慮用非受控環(huán)境下高精度的人臉AU檢測(cè)結(jié)果進(jìn)行表情類別推斷。由于人臉表情通常比較復(fù)雜多樣,單一標(biāo)簽很難進(jìn)行描述,未來(lái)多標(biāo)簽人臉表情問題應(yīng)該受到更多關(guān)注。另外,表情和情感本身是連續(xù)性的,未來(lái)應(yīng)該加強(qiáng)對(duì)非受控條件人臉的二維V-A情感研究。