Google PaliGemma 2: novo modelo de linguagem visual de IA é capaz de identificar emoções

O Google apresentou na última semana o PaliGemma 2, seu mais novo modelo aberto de visão-linguagem (VLM), projetado para aplicações como legendagem de imagens, reconhecimento de objetos, segmentação e resposta a perguntas visuais através de inteligência artificial.

O modelo traz capacidades expandidas, como o reconhecimento de estruturas em tabelas e análises específicas, como fórmulas químicas e partituras musicais. Disponível em diferentes tamanhos de parâmetros, como 3B, 10B e 28B, o PaliGemma 2 traz avanços significativos em relação à primeira versão, lançada em maio deste ano.

Legendas mais detalhadas e a identificação de emoções

O grande destaque do PaliGemma 2 é sua habilidade de produzir “legendas longas e contextualmente relevantes” para imagens, indo além da identificação de objetos, para descrever emoções, ações e narrativas visuais completas.

Isso coloca o Google em uma posição de vanguarda no desenvolvimento de inteligência artificial voltada à visão computacional, fornecendo aos desenvolvedores a oportunidade de integrar facilmente o PaliGemma 2 em suas aplicações sem modificações substanciais no código.

Este tipo de modelo é conhecido como “replacement plug-and-play”, que facilita atualizações e traz melhorias de performance automáticas.

Preocupações éticas sobre o reconhecimento de emoções

Porém, a novidade também levanta preocupações éticas. Entre os recursos destacados está a capacidade do modelo de identificar emoções em imagens, o que exigiria um ajuste fino específico.

Especialistas, como Sandra Wachter, da Universidade de Oxford, expressaram preocupações sobre a confiabilidade e o uso desse tipo de tecnologia. Segundo ela, inferir emoções humanas com base em expressões faciais pode ser tão incerto quanto consultar uma bola de cristal.

O tema é relevante quando consideramos que tais modelos podem ser utilizados em contextos sensíveis, como recursos humanos ou segurança, onde há um alto risco de interpretações errôneas e discriminação.

Divulgação/Google

Riscos e impactos sociais da inteligência artificial

Como sabemos, a preocupação não é nova. Como mencionado em uma matéria recente, sobre os riscos da utilização de IA em relacionamentos virtuais, a interpretação inadequada de sentimentos humanos por parte de modelos de IA pode ter impactos diretos na saúde mental dos usuários.

Similarmente, na área de criação de vídeos por IA, o Google já demonstrou o poder de suas ferramentas, mas é preciso discutir sobre o controle e a segurança dos dados tratados.

A empresa alega que testes foram realizados para minimizar vieses demográficos e que o PaliGemma 2 se deu bem em benchmarks como o FairFace, que analisa diversidade em conjuntos de imagens.

No entanto, os especialistas ressaltam que o FairFace é limitado em termos de representação de grupos raciais, e que a capacidade de interpretação emocional é intrinsecamente subjetiva e fortemente dependente do contexto cultural.

Disponibilidade e desafios futuros

Diante de um cenário em que modelos como o PaliGemma 2 se tornam cada vez mais acessíveis por plataformas, como Hugging Face, surge mais um dilema: como garantir que tais avanços não resultem em usos nocivos e perpetuação de discriminações?

Heidy Khlaaf, cientista-chefe do AI Now Institute, alerta para os riscos de sistemas de reconhecimento emocional se basearem em premissas pseudocientíficas, levando a impactos negativos em áreas como policiamento, gestão de fronteiras e seleção de pessoal.

Conforme a legislação de IA avança, como o AI Act da União Europeia que restringe o uso desses sistemas em áreas sensíveis, é preciso que tanto as empresas quanto os reguladores se alinhem para que as promessas da IA venham acompanhadas da devida responsabilidade e ética.

Fonte: Google

Conteúdo Relacionado
Shipmas: OpenAI promete 12 dias de grandes e pequenos anúncios

Prepare-se

Shipmas: OpenAI promete 12 dias de grandes e pequenos anúncios

Adicionar aos favoritos o Link permanente.