Blogs / Estimando a previsão de atratividade facial para transmissões ao vivo

Estimando a previsão de atratividade facial para transmissões ao vivo

Soph-IA / 19 January 2025

Blog Image
Até o momento, a Predição de Atratividade Facial (FAP) tem sido estudada principalmente no contexto da pesquisa psicológica, na indústria de beleza e cosméticos e no contexto da cirurgia estética. É um campo de estudo desafiador, já que os padrões de beleza tendem a ser nacional em vez de global.
Isto significa que nenhum conjunto de dados eficaz baseado em IA é viável, porque as médias obtidas a partir da amostragem de rostos/classificações de todas as culturas seriam muito tendenciosas (onde as nações mais populosas ganhariam força adicional), caso contrário, seriam aplicáveis ​​a nenhuma cultura (onde a média de múltiplas corridas/classificações equivaleria a nenhuma corrida real).
Em vez disso, o desafio é desenvolver metodologias conceituais e fluxos de trabalho nos quais dados específicos de países ou culturas poderiam ser processados, para permitir o desenvolvimento de modelos FAP eficazes por região.
Os casos de uso do FAP em pesquisas psicológicas e de beleza são bastante marginais, além de específicos do setor; portanto, a maioria dos conjuntos de dados selecionados até o momento contém apenas dados limitados ou não foram publicados.
A fácil disponibilidade de preditores de atratividade online, principalmente voltados para públicos ocidentais, não representa necessariamente o estado da arte em FAP, que parece atualmente dominado por pesquisas do leste asiático (principalmente China) e conjuntos de dados correspondentes do leste asiático.

Exemplos de conjuntos de dados do artigo de 2020 'Predição de beleza facial feminina asiática usando redes neurais profundas via aprendizagem de transferência e fusão de recursos multicanal'. Fonte: https://www.semanticscholar.org/paper/Asian-Female-Facial-Beauty-Prediction-Using-Deep-Zhai-Huang/59776a6fb0642de5338a3dd9bac112194906bf30
Exemplos de conjuntos de dados do artigo de 2020 'Previsão de beleza facial feminina asiática usando redes neurais profundas por meio de aprendizagem de transferência e fusão de recursos multicanal'. 
Usos comerciais mais amplos para estimativa de beleza incluem aplicativos de namoro online, e sistemas de IA generativos projetados para 'retocar' imagens de avatares reais de pessoas (já que tais aplicações exigiam um padrão quantizado de beleza como métrica de eficácia).

Desenhando rostos
Indivíduos atraentes continuam sendo um recurso valioso na publicidade e na construção de influência, tornando os incentivos financeiros nesses setores uma oportunidade clara para o avanço de conjuntos de dados e estruturas de FAP de última geração.
Por exemplo, um modelo de IA treinado com dados do mundo real para avaliar e classificar a beleza facial poderia potencialmente identificar eventos ou indivíduos com alto potencial para impacto publicitário. Essa capacidade seria especialmente relevante em contextos de streaming de vídeo ao vivo, onde métricas como 'seguidores' e 'curtidas' atualmente servem apenas como implicitamente indicadores da capacidade de um indivíduo (ou mesmo de um tipo facial) de cativar o público.
Esta é uma métrica superficial, é claro, e voz, apresentação e ponto de vista também desempenham um papel significativo na coleta de público. Portanto, a curadoria de conjuntos de dados FAP requer supervisão humana, bem como a capacidade de distinguir atratividade facial de atratividade "especiosa" (sem a qual, influenciadores fora do domínio, como Alex Jones, poderiam acabar afetando a curva FAP média para uma coleção projetada exclusivamente para estimar a beleza facial).


Beleza ao vivo

Para lidar com a escassez de conjuntos de dados FAP, pesquisadores da China estão oferecendo o primeiro conjunto de dados FAP em larga escala, contendo 100,000 imagens de rostos, juntamente com 200,000 anotações humanas estimando a beleza facial.

Amostras do novo conjunto de dados LiveBeauty. Fonte: https://arxiv.org/pdf/2501.02509
Amostras do novo conjunto de dados LiveBeauty.
Intitulado Beleza ao vivo, o conjunto de dados apresenta 10,000 identidades diferentes, todas capturadas de plataformas de transmissão ao vivo (não especificadas) em março de 2024.
Os autores também apresentam o FPEM, um novo método FAP multimodal. O FPEM integra conhecimento prévio facial holístico e semântica estética multimodal. características por meio de um Módulo de Atratividade Prioritária Personalizada (PAPM), um Módulo Codificador de Atratividade Multimodal (MAEM) e um Módulo de Fusão Intermodal (CMFM).
O artigo argumenta que o FPEM atinge desempenho de ponta no novo conjunto de dados LiveBeauty e outros conjuntos de dados FAP. Os autores observam que a pesquisa tem aplicações potenciais para melhorar a qualidade do vídeo, recomendação de conteúdo e retoque facial em streaming ao vivo.
Os autores também prometem disponibilizar o conjunto de dados 'em breve' — embora deva ser reconhecido que quaisquer restrições de licenciamento inerentes ao domínio de origem provavelmente serão repassadas à maioria dos projetos aplicáveis ​​que podem fazer uso do trabalho.
novo papel é intitulado Previsão de atratividade facial em transmissão ao vivo: um novo benchmark e método multimodal, e vem de dez pesquisadores do Alibaba Group e da Universidade Jiao Tong de Xangai.


Método e dados

De cada transmissão de 10 horas das plataformas de transmissão ao vivo, os pesquisadores selecionaram uma imagem por hora nas primeiras três horas. As transmissões com as maiores visualizações de página foram selecionadas.
Os dados coletados foram então submetidos a várias etapas de pré-processamento. A primeira delas é medição do tamanho da região do rosto, que usa a CPU baseada em 2018 Caixas de rosto modelo de detecção para gerar uma caixa delimitadora ao redor dos lineamentos faciais. O pipeline garante que o lado mais curto da caixa delimitadora exceda 90 pixels, evitando regiões faciais pequenas ou pouco claras.
O segundo passo é detecção de desfoque, que é aplicado à região da face usando a variância do Operador Laplaciano no canal de altura (Y) do corte facial. Essa variância deve ser maior que 10, o que ajuda a filtrar imagens desfocadas.
O terceiro passo é estimativa de pose facial, que utiliza o 2021 3DDFA-V2 modelo de estimativa de pose:

Exemplos do modelo de estimativa 3DDFA-V2. Fonte: https://arxiv.org/pdf/2009.09960
Exemplos do modelo de estimativa 3DDFA-V2. 
Aqui, o fluxo de trabalho garante que o ângulo de inclinação do rosto cortado não seja maior que 20 graus, e o ângulo de guinada não seja maior que 15 graus, o que exclui rostos com poses extremas.
A quarta etapa é avaliação da proporção facial, que também usa os recursos de segmentação do modelo 3DDFA-V2, garantindo que a proporção da região do rosto recortada seja maior que 60% da imagem, excluindo imagens em que o rosto não é proeminente, ou seja, pequeno na imagem geral.
Por fim, o quinto passo é remoção de caracteres duplicados, que usa um modelo de reconhecimento facial de última geração (não atribuído), para casos em que a mesma identidade aparece em mais de uma das três imagens coletadas para um vídeo de 10 horas.


Avaliação e Anotação Humana

Vinte anotadores foram recrutados, consistindo de seis homens e 14 mulheres, refletindo a demografia da plataforma ao vivo usada*. Os rostos foram exibidos na tela de 6.7 polegadas de um iPhone 14 Pro Max, sob condições laboratoriais consistentes.
A avaliação foi dividida em 200 sessões, cada uma das quais empregou 50 imagens. Os sujeitos foram solicitados a classificar a atratividade facial das amostras em uma pontuação de 1 a 5, com um intervalo de cinco minutos imposto entre cada sessão, e todos os sujeitos participando de todas as sessões.
Portanto, todas as 10,000 imagens foram avaliadas em vinte sujeitos humanos, chegando a 200,000 anotações.


Análise e Pré-Processamento

Primeiro, a triagem pós-sujeito foi realizada usando a razão de outliers e Coeficiente de correlação de classificação de Spearman (SROCC). Os indivíduos cujas classificações tiveram um SROCC inferior a 0.75 ou um ponto fora da curva proporção maior que 2% foi considerada não confiável e foi removida, com 20 indivíduos finalmente obtidos.
Uma Pontuação Média de Opinião (MOS) foi então computada para cada imagem facial, pela média das pontuações obtidas pelos sujeitos válidos. O MOS serve como verdade fundamental rótulo de atratividade para cada imagem, e a pontuação é calculada pela média de todas as pontuações individuais de cada sujeito válido.
Finalmente, a análise das distribuições MOS para todas as amostras, bem como para as amostras femininas e masculinas, indicou que elas apresentaram uma Forma de estilo gaussiano, o que é consistente com as distribuições de atratividade facial do mundo real:

Exemplos de distribuições LiveBeauty MOS.
Exemplos de distribuições LiveBeauty MOS.
A maioria dos indivíduos tende a ter atratividade facial média, com menos indivíduos nos extremos de atratividade muito baixa ou muito alta.
Além disso, a análise de assimetria e curtose os valores mostraram que as distribuições foram caracterizadas por caudas finas e concentradas em torno da pontuação média, e que a alta atratividade foi mais prevalente entre as amostras femininas nos vídeos coletados de transmissão ao vivo.


Arquitetura

Uma estratégia de treinamento de dois estágios foi usada para o modelo multimodal aprimorado anterior facial (FPEM) e a fase de fusão híbrida no LiveBeauty, dividida em quatro módulos: um módulo prévio de atratividade personalizada (PAPM), um módulo codificador de atratividade multimodal (MAEM), um módulo de fusão intermodal (CMFM) e um módulo de fusão de decisões (DFM).

Esquema conceitual para o pipeline de treinamento da LiveBeauty.
Esquema conceitual para o pipeline de treinamento da LiveBeauty.
O módulo PAPM recebe uma imagem como entrada e extrai recursos visuais em várias escalas usando um Transformador Swin, e também extrai recursos de reconhecimento facial usando um pré-treinado FaceNet modelo. Esses recursos são então combinados usando um atenção cruzada bloco para criar um recurso de 'atratividade' personalizado.
Também na Fase de Treinamento Preliminar, o MAEM utiliza descrições de imagens e textos de atratividade, alavancando CLIP para extrair características semânticas estéticas multimodais.
As descrições de texto modeladas estão no formato de 'uma foto de uma pessoa com {uma} atratividade' (Onde {uma} pode ser ruimpobrefeiraBom estado, com sinais de uso or perfeita). O processo estima o similaridade de cosseno entre incorporações textuais e visuais para chegar a um nível de probabilidade de atratividade.
Na Fase de Fusão Híbrida, o CMFM refina os embeddings textuais usando o recurso de atratividade personalizada gerado pelo PAPM, gerando assim embeddings textuais personalizados. Ele então usa um regressão de similaridade estratégia para fazer uma previsão.
Finalmente, o DFM combina as previsões individuais do PAPM, MAEM e CMFM para produzir uma pontuação de atratividade única e final, com o objetivo de alcançar um consenso sólido


Funções de perda

Para a métricas de perda, o PAPM é treinado usando um Perda L1, uma medida da diferença absoluta entre a pontuação de atratividade prevista e a pontuação de atratividade real (verdade básica).
O módulo MAEM usa uma função de perda mais complexa que combina uma perda de pontuação (LS) com uma perda de classificação mesclada (LR). A perda de classificação (LR) compreende uma perda de fidelidade (LR1) e uma perda de classificação bidirecional (LR2).
LR1 compara a atratividade relativa de pares de imagens, enquanto LR2 garante que a distribuição de probabilidade prevista dos níveis de atratividade tenha um único pico e diminua em ambas as direções. Essa abordagem combinada visa otimizar tanto a pontuação precisa quanto a classificação correta das imagens com base na atratividade.
O CMFM e o DFM são treinados usando uma perda L1 simples.


Testes

Nos testes, os pesquisadores compararam o LiveBeauty com nove abordagens anteriores: ComboNet2D-FAPREX-INCEP; CNN-ER (destaque no REX-INCEP); MEBelezaAVA-MLSPTANetDele-Trans; e COMER.
Métodos de linha de base em conformidade com uma Avaliação Estética de Imagem (IAA) também foram testados. Estes foram Vitamina BResNeXt-50; e A Origem-V3.
Além do LiveBeauty, os outros conjuntos de dados testados foram SCUT-FBP5000 e MEBeauty. Abaixo, as distribuições MOS desses conjuntos de dados são comparadas:

Distribuições MOS dos conjuntos de dados de referência.
Distribuições MOS dos conjuntos de dados de referência.
Respectivamente, esses conjuntos de dados de convidados foram divisão 60%-40% e 80%-20% para treinamento e teste, separadamente, para manter a consistência com seus protocolos originais. A LiveBeauty foi dividida em uma base de 90%-10%.
Para inicialização do modelo no MAEM, VT-B/16 e GPT-2 foram usados ​​como codificadores de imagem e texto, respectivamente, inicializados pelas configurações do CLIP. Para PAPM, Swin-T foi usado como um codificador de imagem treinável, de acordo com Rosto de porco.
Adam W foi utilizado um otimizador e um taxa de Aprendizagem agendador Definido com aquecimento linear debaixo de recozimento de cosseno esquema. As taxas de aprendizagem diferiram entre as fases de treinamento, mas cada uma teve um tamanho do batch de 32, por 50 épocas.

Resultados dos testes
Resultados dos testes
Os resultados dos testes nos três conjuntos de dados FAP são mostrados acima. Destes resultados, o artigo afirma:
'Nosso método proposto alcança o primeiro lugar e supera o segundo lugar em cerca de 0.012, 0.081, 0.021 em termos de valores de SROCC no LiveBeauty, MEBeauty e SCUT-FBP5500, respectivamente, o que demonstra a superioridade do nosso método proposto.
'[Os] métodos IAA são inferiores aos métodos FAP, o que demonstra que os métodos genéricos de avaliação estética ignoram as características faciais envolvidas na natureza subjetiva da atratividade facial, levando a um desempenho ruim nas tarefas FAP.
'[O] desempenho de todos os métodos cai significativamente no MEBeauty. Isso ocorre porque as amostras de treinamento são limitadas e os rostos são etnicamente diversos no MEBeauty, indicando que há uma grande diversidade na atratividade facial.
'Todos esses fatores tornam a previsão da atratividade facial no MEBeauty mais desafiadora.'


Considerações éticas

A pesquisa sobre atratividade é uma atividade potencialmente polêmica, pois, ao estabelecer padrões supostamente empíricos de beleza, tais sistemas tendem a reforçar preconceitos em torno de idade, raça e muitas outras seções da pesquisa de visão computacional relacionadas aos humanos.
Poder-se-ia argumentar que um sistema FAP é inerentemente predisposto para reforçar e perpetuar perspectivas parciais e tendenciosas sobre atratividade. Esses julgamentos podem surgir de anotações conduzidas por humanos – frequentemente conduzidas em escalas muito limitadas para generalização efetiva de domínio – ou da análise de padrões de atenção em ambientes online como plataformas de streaming, que estão, sem dúvida, longe de serem meritocráticas.
 
O artigo se refere ao(s) domínio(s) de origem não nomeado(s) tanto no singular quanto no plural.
Primeira publicação quarta-feira, 8 de janeiro de 2025

Fonte: Unite