A-Machine é o primeiro cluster do Brasil com placas FPGA trabalhando em conjunto
Pesquisadores do Laboratório de Sistemas de Computação (LSC) do Instituto de Computação (IC) da Unicamp desenvolveram um equipamento de aceleração de computação científica que traz como benefício a redução da demanda energética em treinamento de modelos de inteligência artificial (IA). Batizado de A-Machine, ele utiliza placas aceleradoras field--programmable gate array (FPGA), dispositivos reprogramáveis que se adaptam a diferentes problemas. A A-Machine é composta por oito delas, que podem trabalhar de forma coordenada. Esse é o quinto equipamento do tipo no mundo. No Brasil, é o primeiro.
O treinamento de modelos baseados em IA, explica o professor do IC Guido Araújo, demanda grandes quantidades de energia elétrica. Estimativas do Greenpeace apontam que clusters de computadores, em alguns anos, consumirão cerca de 8% de toda a energia produzida no mundo. Por isso, a A-Machine traz como um de seus principais benefícios a redução dessa demanda.
As placas FPGA consomem menos energia porque são adaptáveis aos problemas que precisam resolver. É como se fossem um carburador capaz de se ajustar ao tipo de combustível utilizado, ilustra Araújo, que lidera o projeto. “Essas placas aceleradoras FPGA fazem a mesma coisa. Elas são capazes de moldar suas partes de acordo com o problema a ser resolvido e, por isso, consomem muito menos energia que as GPUs [sigla em inglês para unidade de processamento gráfico].” Segundo o professor, essas últimas são um tipo de processador bastante utilizado no aprendizado de máquina e consomem muita energia elétrica, apresentando um desempenho menos eficiente diante de alguns problemas científicos.
A A-Machine é resultado do esforço de pesquisadores do LSC em parceria com o Centro de Pesquisa em Engenharia e Ciências Computacionais (CCES, na sigla em inglês), que é um Centro de Pesquisa, Inovação e Difusão (Cepid) da Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp) coordenado pelo professor Munir Skaf com a colaboração do laboratório irlandês da empresa AMD/Xilinx. Também conta com o apoio do projeto Tendências em Computação de Alto Desempenho, liderado por Alfredo Goldman, professor do Instituto de Matemática e Estatística (IME) da Universidade de São Paulo (USP) e membro da empresa Laniaq.
Diferencial do cluster
Outro diferencial do cluster – conjunto de servidores interconectados – desenvolvido na Unicamp é a coordenação entre as placas FPGA. “Até um tempo atrás, não se conseguia juntar uma placa dessas com outras para que cooperassem na resolução de um problema único. Agora, começaram a aparecer soluções para juntá-las, de modo que, se há um problema gigante, ele é quebrado em várias partes e as placas trabalham juntas na sua solução”, aponta o professor.
A coordenação entre as placas, no caso da A-Machine, foi possível por meio de um software de programação também criado no LSC. “Nós desenvolvemos um sistema chamado OpenMP Cluster. Uma das suas tarefas é coordenar essas placas para que trabalhem juntas. O software também permite que você coordene o trabalho de vários computadores para resolver um problema único. A combinação do software com as placas é algo que não existia”, diz Araújo. O OpenMP Cluster, ressalta o pesquisador, chamou atenção por sua funcionalidade e, hoje, é utilizado em quatro dos maiores supercomputadores do Brasil, incluindo um da Petrobras.
Potencializador de pesquisas
O equipamento A-Machine foi desenvolvido em cooperação interdisciplinar e deverá servir a diversos campos do conhecimento, facilitando e potencializando pesquisas em áreas como Química, Física, Biologia e Geofísica, cujos problemas requerem muitas vezes a realização de cálculos sofisticados, o que se traduz em um longo tempo de execução. O professor explica que “resolver problemas complexos nessas áreas demanda a execução desses programas, uma avaliação dos resultados e repetições sucessivas desse ciclo de execução-avaliação. Acelerar a execução desses programas é, portanto, uma atividade muito importante para a evolução da ciência”. Um dos exemplos mencionados pelo docente pertence à área da genética. “O equipamento pode se adaptar para fazer milhares de combinações de genes de modo a encontrar aquelas que podem resultar em determinadas doenças”, conclui Araújo.
O cluster de placas FPGA também se destaca por ter sido desenvolvido em uma instituição pública, o que vai na contramão da tendência de concentração da inovação e da pesquisa nas grandes corporações, um fenômeno que o pesquisador vê com preocupação. “Atualmente existe uma ebulição muito grande [de pesquisa e inovação] em grandes empresas. A concentração da pesquisa científica nesses locais tende a ser cada vez maior e pode representar uma ameaça ao progresso científico”, pondera.