Entre bits e emoções, computação afetiva é fronteira tecnológica
Entre bits e emoções, computação afetiva é fronteira tecnológica
Grupo de pesquisa da Feec desenvolve recursos que ampliam possibilidade de comunicação entre pessoas e máquinas
Um dos personagens mais instigantes do cinema é uma máquina dotada de inteligência artificial (IA). Criado por Stanley Kubrick e Arthur C. Clarke como antagonista no filme 2001: Uma Odisseia no Espaço (1968), o computador HAL 9000 tem a função de comandar a nave Discovery One rumo a Júpiter, além de conversar com os membros da tripulação de uma forma mais natural do que hoje fazemos com dispositivos como a Alexa, assistente virtual da Amazon. Em um determinado momento, um erro de HAL faz com que os dois astronautas a bordo passem a questionar sua capacidade operacional e planejem sua substituição. O computador percebe a desconfiança dos colegas de missão e, acuado, começa a sabotá-los
O que torna esse computador um personagem tão marcante é sua capacidade de movimentar o enredo lançando mão de sua habilidade de compreender as emoções dos astronautas e de tomar decisões com base nisso. No filme, HAL perde a disputa e acaba desligado. No mundo real, porém, os sistemas de IA vêm ganhando cada vez mais espaço.
De acordo com uma pesquisa de 2024 da consultoria McKinsey, feita com 1.363 representantes de diversos setores empresariais, 72% das empresas afirmam já adotar a IA para a execução de tarefas e 65% contam investir em sistemas de IA generativa, que criam novos conteúdos baseados em padrões identificados em dados de treinamento, como é o caso do ChatGPT, lançado em 2022 pela OpenAI.
Na busca por IAs que se assemelhem cada vez mais à capacidade humana de tomar decisões, cientistas e desenvolvedores dedicam-se à criação de recursos computacionais capazes de identificar, expressar e simular emoções. “Historicamente, a IA se desenvolveu baseada em modelos lógicos. Por muito tempo, desconsiderou-se o papel das emoções nas tomadas de decisão e na construção de engajamentos sociais, aspecto de fundamental importância para o aprendizado de novas habilidades. A computação afetiva é nossa última fronteira”, afirma Paula Dornhofer, professora da Faculdade de Engenharia Elétrica e de Computação (Feec) da Unicamp e coordenadora de uma das linhas de pesquisa do Hub de Inteligência Artificial e Arquiteturas Cognitivas (H.IAAC).
Uma das frentes de trabalho da equipe consiste no desenvolvimento de sistemas capazes de reconhecer padrões de personalidade e de emoções humanas manifestadas na fala, por expressões faciais e por gestos. Servindo-se da aprendizagem de máquina, a tecnologia consegue reproduzir essas emoções em diferentes modalidades.
Busca-se assim que as tecnologias do tipo tornem os sistemas de IA mais autônomos e eficazes em sua comunicação – não a ponto de assumirem o controle de uma nave espacial, como no caso do HAL 9000, mas de forma a revolucionar a computação e a interação entre humanos e máquinas, como 2001: Uma Odisseia no Espaço revolucionou a ficção científica.
Treinando emoções
Sistemas de IA funcionam recorrendo a algoritmos para identificar padrões em bases de dados, que servem como um repertório inicial. O treinamento desses sistemas visa fazer com que consigam desempenhar uma determinada tarefa, como identificar cores ou formas em imagens, ou reproduzir um tipo de som. Conforme o processo avança, os sistemas passam a realizar essas mesmas tarefas de forma autônoma, com dados novos, não apresentados anteriormente.
No caso das IAs generativas, os sistemas vão além, criando textos, imagens, músicas, entre outros conteúdos, também com base no arcabouço de dados oferecido. Quanto mais sofisticada é a tarefa a ser executada ou o conteúdo a ser criado, e quanto maior a autonomia que se deseja para o sistema, maior deve ser o repertório de dados oferecido e mais extenso o treinamento a ser executado com os algoritmos.
No caso da computação afetiva, a novidade consiste no reconhecimento e na expressão de emoções, que passam a ser uma das tarefas da IA. Logo, faz-se necessário fornecer aos algoritmos bases de dados que permitam esse trabalho. Se um sistema deve reconhecer expressões faciais relacionadas a emoções, os dados de treinamento devem informar isso, assim como no caso do reconhecimento de um tom de fala mais ríspido ou gentil, ou um padrão de gestos que indiquem uma personalidade mais extrovertida ou introspectiva.
O desafio passa por dar conta da complexidade envolvida na comunicação humana. “Emoções e expressividade têm múltiplas camadas, e os seres humanos agregam tudo isso”, reflete Dornhofer. Segundo a docente, ao contrário de outros sistemas de IA em que é possível isolar as competências para a execução de tarefas em diferentes aplicações, os processos de comunicação combinam diversos elementos – voz, expressão facial, gestos – que se complementam e também informam. Assim, os pesquisadores buscam construir sistemas capazes de sintetizar a expressão humana da forma mais completa possível. “Queremos desenvolver sistemas que tenham uma comunicação não verbal coerente.”
Fala, expressões e gestos
O Jornal da Unicamp conheceu três das pesquisas desenvolvidas pelo H.IAAC voltadas à emulação de aspectos da personalidade e da expressividade dos seres humanos. A primeira dedica-se à criação de personagens virtuais que expressem gestos relacionados à personalidade extrovertida, introvertida e neutra, de forma autônoma e natural, baseado no som da voz. “Pensamos na criação de um assistente virtual ou de um personagem de um jogo com quem fosse possível interagir de forma mais realista”, comenta Rodolfo Tonoli, doutorando integrante do grupo.
O primeiro passo deu-se na construção de uma base de dados de movimentos corporais combinados à fala. Para isso, os pesquisadores gravaram atores profissionais interpretando um roteiro com aspectos dos três padrões de personalidade. Com o objetivo de captar a amplitude dos movimentos corporais, acoplaram-se sensores nas mãos, nos cotovelos, na cabeça e em outras partes do corpo desses atores.
“Orientamos os atores seguindo um protocolo, para que o algoritmo não fosse enviesado”, explica. As imagens foram processadas e convertidas em dados de treinamento, a fim de que a IA começasse a gerar movimentos sintéticos em uma espécie de modelo virtual a partir de áudios gravados”, afirmou Tonoli.
O pesquisador conta que, no início, o sistema executava movimentos aleatórios. No entanto, conforme mais dados eram inseridos, a IA passou a aprender a dinâmica da movimentação humana e sua correlação com a voz, entregando gestos mais enérgicos em uma fala enfática ou uma postura contida em falas mais neutras. Para confirmar os resultados, voluntários assistiram aos gestos sintéticos e apontaram qual tipo de personalidade identificavam. Segundo o pesquisador, a impressão correspondia ao que era expresso pelo sistema. “O grande sucesso é conseguirmos os mesmos resultados de percepção nos movimentos sintéticos e nos reais”, disse.
Outro projeto foca a síntese da fala de forma expressiva, quer dizer, reproduzir a fala humana não apenas com entonações que manifestem emoções ou estado de humor, mas de forma autônoma, para se adequar ao humor do interlocutor, tornando a comunicação mais eficiente. Os pesquisadores dão o exemplo de um sistema de atendimento que informe o atraso de voos em aeroportos, com a capacidade de reconhecer uma possível frustração do passageiro por seu tom de voz. “Um sistema inteligente precisa tomar a decisão de comunicar, mas sabendo que a mensagem pode ser indesejada e identificando a emoção de quem a ouve”, detalha Dornhofer.
Aqui, o treinamento dos algoritmos ocorre da mesma forma, pela identificação de padrões de fala – tom, ritmo e ênfase – expressos em dados oferecidos previamente. Uma vantagem da pesquisa, realizada em parceria com o Centro de Pesquisa e Desenvolvimento em Telecomunicações (CPQD), é contribuir com a ampliação da diversidade nos sistemas de IA por meio da possibilidade de reprodução de sotaques de diferentes regiões do país.
“Existem poucas bases de dados de fala do português do Brasil. Nossa pesquisa contribui para suprir essa lacuna”, ressalta Leonardo Boulitreau, mestrando do grupo, que salienta o cuidado de oferecer ao sistema falas típicas do cotidiano, para que o algoritmo não fique restrito a arquétipos.
Já a terceira pesquisa dedica-se à produção de expressões faciais sintéticas, a partir de áudios em português. Nesse caso, empregam-se dois algoritmos com atuação complementar: o primeiro faz o processamento de imagens gravadas de uma atriz para transformar em dados a relação entre os sons da fala e os correspondentes movimentos faciais, chamados de visemas.
Em um segundo momento, outro algoritmo converte novos áudios de fala em rostos sintéticos que reproduzem os movimentos faciais e as expressões correspondentes à emoção empregada na fala. A técnica assemelha-se à utilizada nos chamados deep fakes, em que se atribui uma fala a alguém de forma realista. O estudo, diferentemente, pretende ampliar as possibilidades de comunicação entre usuários e máquinas, além de difundir o cuidado necessário com golpes e ações de desinformação. “Com essas tecnologias, nossa régua para julgar se algo é real ou não precisa aumentar”, avalia Brayan Bernardo, mestre e pesquisador do grupo.
FUTURO INTELIGENTE
A combinação de emoções e computação pode parecer um contrassenso do ponto de vista científico tradicional. A própria tradição filosófica ocidental recomenda o olhar objetivo para as questões científicas, atribuindo às emoções um valor negativo, vendo-as como um empecilho à verdade racional.
“É comum encararmos as emoções como algo pejorativo. Atribuímos à ação emocional a ideia de não tomar uma boa decisão”, comenta Dornhofer. Em seu livro Affective Computing (The MIT Press, 1997), Rosalind Picard, pesquisadora do Instituto de Tecnologia de Massachusetts (MIT, na sigla em inglês), nos Estados Unidos, e precursora do conceito de computação afetiva, também questiona se as emoções não deveriam ser apartadas da computação.
Picard, contudo, lembra que pesquisas da área da neurociência já comprovaram a participação e a importância, nos processos de tomada de decisão, do sistema límbico, região do cérebro que controla nossas emoções. Quer dizer, o ser humano não toma decisões de forma independente das emoções. Assim, à medida que almejam se aproximar da capacidade humana de pensar e tomar decisões, tornando a interatividade mais natural, os sistemas de IA precisam aprender a reconhecer e expressar emoções.
Além de promoverem o avanço das tecnologias, as pesquisas mobilizam novos conhecimentos que enriquecem a formação de profissionais da área. “Estudamos não só como o computador consegue modelar as emoções, mas também criamos bases para outros estudos, inclusive culturais”, lembra Tonoli.
Segundo os pesquisadores, o contato com outras áreas também chama a atenção para a necessidade de tornar a IA um assunto do cotidiano. “As tecnologias avançam muito rápido e o debate público anda devagar. As demais áreas do saber, como a filosofia e a sociologia, precisam se debruçar sobre isso”, reflete Bernardo.
Nesse sentido, é fundamental que as universidades conduzam pesquisas a respeito do tema, pois o setor, hoje, encontra-se sob o domínio das grandes empresas de tecnologia. O cenário difere do de outros períodos, em que a academia representava o estado da arte das tecnologias, papel hoje desempenhado pelas chamadas big techs, que monopolizam tanto o acesso a dados de pesquisa quanto a potência computacional para desenvolvê-las.
“A academia tem se transformado em um local para abrir as caixas-pretas de modelos desenvolvidos pelas big techs, investigar contramedidas para ferramentas que criam fake news, tornar a IA explicável e pensar formas de regulação”, pontua Dornhofer. Outro ganho para o setor surge no cuidado ético quando da realização dos estudos. “Muitas pesquisas das big techs são extremamente fechadas, ou então não seguem protocolos estritamente científicos”, lembra Boulitreau.
Frente a tantas possibilidades e em um cenário no qual as pesquisas apontam para sistemas de IA cada vez mais autônomos, torna-se inevitável não pensar no futuro e no papel que as emoções terão na evolução dessas tecnologias. Para os pesquisadores do grupo, a resposta está nos fundamentos dos sistemas.
“A IA será tudo o que construirmos para que ela seja”, afirma Dornhofer ao recordar que os dados responsáveis por garantir a aprendizagem das máquinas são fornecidos pelos próprios seres humanos. Tanto nossas qualidades quanto nossas imperfeições podem se refletir nos e serem replicadas pelos algoritmos. “Ao mesmo tempo que ela [a IA] evolui, o ser humano pode se revisitar, desenvolver um pensamento crítico em relação a ela. Como qualquer tecnologia disruptiva, a IA vai fazer com que nos repensemos.”