Algoritmo reproduz nuances da fala por meio de modulações na tipografia
Você, que chegou até o fim desta edição do Jornal da Unicamp, parou para pensar, em algum momento da leitura, de que forma os repórteres desejavam expressar suas palavras? Pode ser que algum deles tenha se empolgado com um dos temas e quisesse falar sobre isso em alto e bom som. Ou, então, que preferisse enfatizar conceitos importantes pronunciando as palavras pausadamente. Existem aspectos do discurso falado, como o tom de voz e o ritmo, que carregam sentidos importantes e que não conseguem ser expressos apenas pelas palavras escritas.
Uma pesquisa realizada na Faculdade de Engenharia Elétrica e de Computação (Feec) busca ampliar esse potencial da linguagem escrita para reproduzir emoções. Ela consiste na criação de uma tipografia modulada de acordo com o discurso falado, na qual os traços e o posicionamento das letras podem expressar aspectos da prosódia, área da linguística dedicada à emissão de sons da fala. No caso, os traços indicam o tom mais grave ou agudo do enunciador, a energia empregada na fala e o ritmo das palavras. O recurso foi desenvolvido por Caluã Pataca, mestre em Engenharia da Computação pela Unicamp, com orientação de Paula Dornhofer, professora da Feec.
“Partimos da ideia de que existe um componente afetivo na comunicação, que não é retratado no texto escrito pela tipografia convencional”, explica Pataca. Ele conta que a iniciativa teve inspiração nos estudos da belga Ann Bessemans, que propôs intervenções tipográficas para auxiliar alunos com dificuldades de aprendizagem. O pesquisador trouxe o tema para a área da computação afetiva, ligada ao reconhecimento e modelagem de emoções por sistemas de inteligência artificial. O conceito foi criado por Rosalind Picard, do Massachusetts Institute of Technology (MIT), e combina estudos de computação, psicologia, filosofia, entre outros. “Há dimensões muito sutis, muitas delas afetivas, que pesam em nossas decisões. Em grande parte dessas situações, se dependêssemos apenas da lógica, não chegaríamos a uma conclusão”, comenta Dornhofer.
O desenho dos tipos foi feito em uma primeira etapa da pesquisa, aproveitando conhecimentos da área de design. As intervenções estão na espessura dos traços, no espaçamento e na disposição vertical das letras nas palavras e frases, de forma que os leitores associem os novos tipos com as nuances da fala de forma intuitiva. Em seguida, foi criado um sistema algorítmico que processa arquivos de áudio e os reproduz em textos escritos com a nova tipografia. Pataca ressalta que a escolha da prosódia se deve ao fato de essa constituir-se de nuances marcadas pela emissão de sons, sem delegar à máquina a interpretação das emoções. “É algo contextual. Depende de quem fala e de quem ouve. Não queremos supor que um aspecto como o volume da fala tenha uma carga emocional positiva ou negativa. Isso depende da situação.”
O sistema foi testado com 117 voluntários, que ouviram áudios com diferentes versões de um mesmo poema, declamado por um ator, e que deveriam apontar qual áudio correspondia ao texto escrito na tipografia. Parte do grupo teve acesso ao texto estático, enquanto outra assistia a uma animação em que as palavras eram formadas no ritmo da leitura. Entre os que viram o texto estático, a taxa de acerto foi de 67%. Já entre os que assistiram à animação, 63% fizeram a correlação correta. A diferença é pequena, mas os pesquisadores argumentam que “tudo o que é adicionado como informação pode contribuir com o processo de comunicação ou se tornar um ruído e atrapalhar. Nesse caso, a animação pode ter sido um ruído”.
Cultura e acessibilidade
Atualmente, a principal aplicação da tecnologia desenvolvida na pesquisa é o aperfeiçoamento de recursos de acessibilidade, como legendas empregadas em vídeos para pessoas surdas. Essa é uma área em que a computação afetiva traz contribuições importantes. Pataca dá, neste momento, continuidade à pesquisa no doutorado, cursado no Rochester Institute of Technology, nos Estados Unidos, direcionando seu trabalho para o público surdo. O pesquisador conta que novos recursos precisam ser implementados, pois a lembrança das nuances identificadas na prosódia é um referencial próprio de pessoas ouvintes. “Agora o desafio é pensar em como representar o som para pessoas que não têm, em suas experiências de vida, um referencial prévio.”
O uso da tecnologia, em diferentes contextos, evidencia o quanto certos recursos, como os sistemas inteligentes, não podem ser dissociados da língua e da cultura da comunidade em que estão inseridos. “Em português, conseguimos estabelecer o ritmo pela cadência das sílabas. Em inglês, isso não acontece”, exemplifica. “A duração das sílabas no inglês oscila naturalmente, o que não significa que a pessoa esteja falando mais rápido ou mais devagar. Por isso, aqui o algoritmo precisa de adaptações”, reflete o pesquisador.