Chegamos à era do Big Data. É absurdamente grande o número de dados que se avolumam no dia a dia em todas as atividades humanas. Analisar e selecionar as informações mais significativas constituem um dos grandes problemas do nosso tempo. No meio científico o número de publicações cresce diuturnamente e fica cada vez mais difícil para o pesquisador localizar o que está sendo feito de mais significativo na área em que atua e correlacionar os conhecimentos disponíveis.
Na perspectiva do enfrentamento desse desafio se situa a dissertação desenvolvida pelo engenheiro de computação Leonardo Maia Barbosa, orientada pelo professor Romis Attux, do Departamento de Engenharia de Computação e Automação Industrial, da Faculdade de Engenharia Elétrica e de Computação (FEEC), da Unicamp, e coorientada pelo pesquisador do CPqD Alan Godoy Souza Mello, que propõe um modelo para extrair e correlacionar informações de artigos científicos, utilizando ciência de redes.
A respeito da importância do trabalho, o docente enfatiza que os pesquisadores precisam constantemente tomar decisões sobre os rumos de suas pesquisas. Ao fazê-lo se deparam com uma quantidade de artigos publicados e de informações científicas cada vez maiores e analisá-los todos é humanamente inviável. As mesmas dificuldades são enfrentadas pelas agências de fomento como Fapesp, Capes, CNPq, entre outras, que precisam orientar seus investimentos e definir estratégias de colaboração em projetos envolvendo centros de pesquisa nacionais e internacionais.
Seria, portanto, bastante útil uma ferramenta que auxiliasse pesquisadores e instituições a identificar determinados padrões subjacentes aos dados disponíveis de modo que possam orientar decisões. Diante dessa perspectiva, o trabalho procurou estabelecer relações nas publicações científicas que permitissem determinar como se dá, em um determinado tema, a interação, por exemplo, entre países, instituições, pesquisadores, palavras-chave.
Contexto
Leonardo explica que, diferentemente do que acontece na revisão bibliográfica, o interesse era tentar entender como a ciência é feita, quais as relações que existem entre diferentes países e pesquisadores e resultados obtidos, além de delinear tendências. Daí surgiu a ideia de, a partir de um conjunto de artigos, tentar determinar como eles se desenvolveram e quais as relações envolvidas até suas publicações. Isso implicava em encontrar um modo de selecionar as informações das publicações e viabilizar sua análise automática, além de possibilitar a visualização dos dados de forma a acessá-los e entendê-los facilmente.
Para tanto, inicialmente foram definidos atributos que deveriam constituir a rede como título do artigo, autores, países envolvidos no trabalho, palavras-chave mais importantes para classificar o tema, ano de publicação, frequência de menções do trabalho em outras publicações.
Os atributos foram então lançados em uma rede heterogênea, assim chamadas aquelas em que são utilizados vários parâmetros selecionados. Esta metodologia envolve a elaboração de um modelo computacional que permite a mineração de dados, suas análises e acessibilidades. A utilização das redes heterogêneas possibilita o estabelecimento de conexões, relações e análises muito mais amplas entre os dados disponíveis.
Estabelecendo uma analogia simples, é o que acontece quando estabelecemos uma rede em que utilizamos cidades onde conhecemos pessoas, procurando determinar conexões que possam existir entre elas. As cidades seriam os nós da rede e as estradas seriam as conexões existentes. Esta seria uma rede homogênea que se transforma em heterogênea quando nela é introduzido mais de um parâmetro, como por exemplo, os pontos turísticos dessas cidades e de seus entornos, que passariam a constituir outros nós, com propriedades diferentes dos primeiros. Da mesma forma, nos trabalhos científicos os diferentes nós são constituídos por artigos, palavras-chave, autores, países, citações e as conexões constituem as relações que podem ser estabelecidas entre esses vários elementos.
Para o autor, a utilização de redes heterogêneas, que possibilita maior precisão e alcance das análises, constitui o grande diferencial do trabalho, já que em geral as publicações existentes atêm-se a redes homogêneas.
Resultados
As correlações estabelecidas entre os vários parâmetros utilizados permitiram concluir, por exemplo, que os autores mais citados, embora em pequeno número, são também os mais cooperativos; que a esmagadora maioria dos artigos não possui nenhuma ou muito poucas citações; que as palavras-chave dos artigos mais referenciados são amplamente empregadas em outras publicações; que as palavras-chave permitem determinar em que épocas ou com que sazonalidade temas foram abordados e quais as tendências atuais; em que grau se dá a cooperação científica entre países do mesmo continente ou de continentes diversos e como elas podem ser explicadas; que autores, grupos de pesquisas e países são mais atuantes. Estas informações podem ser acessadas através de uma tela clicando simplesmente os nós de interesse.
Para o professor Romis, esse conjunto de informações possibilita, entre outras coisas, que o pesquisador, se o desejar, decida-se com mais segurança em que país pretende complementar seus estudos, bem como saber em que centros eles se encontram mais avançados e em que grau têm interesse atual, permitindo uma filtragem maior e mais rápida das informações disponíveis.
Publicação
Dissertção: “Um modelo para extrair conhecimento de artigos científicos utilizando redes complexas”
Autor: Leonardo Maia
Orientador: Romis Attux
Coorientador: Alan Godoy Souza Mello (CPqD)
Unidade: Faculdade de Engenharia Elétrica e de Computação (FEEC)