A inteligência artificial do Google que prevê a estrutura das proteínas
A atividade desenvolvida pelo Google nos últimos tempos no domínio da pesquisa é incomparável. O que vamos descrever hoje é o algoritmo de inteligência artificial que levou o Google a prever a estrutura das proteínas. Esta tem sido uma questão muito debatida no mundo da ciência por mais de 50 anos. O problema foi tão sentido que levou a comunidade científica em 1994 a lançar uma competição global para encontrar uma solução possível.
A competição em questão é CASP (Avaliação Crítica da Predição da Estrutura de Proteínas) e, como previsto, ocorre globalmente a cada dois anos. O Google com seu grupo de pesquisa DeepMind participou do teste a partir de 2018 . Em apenas alguns anos, o estudo trouxe um progresso sem precedentes na capacidade dos métodos computacionais de prever a estrutura das proteínas.
Gênese do problema
As proteínas são moléculas presentes em todos os organismos vivos. Eles são compostos de cadeias de aminoácidos (21 no total) que se dobram para dar-lhes uma forma precisa. Como as letras do alfabeto formam palavras, os aminoácidos podem se desenvolver de várias maneiras para formar proteínas.
Durante o discurso de premiação, o Prêmio Nobel de Química de 1972, Christian Anfinsen, afirmou que, em teoria, a sequência de aminoácidos de uma proteína poderia determinar completamente sua estrutura . Essa hipótese gerou uma pesquisa de cinco anos que pode prever computacionalmente a estrutura 3D de uma proteína com base apenas em sua sequência de aminoácidos 1D. A ideia era substituir este novo tipo de pesquisa como uma alternativa complementar aos caros e caros métodos experimentais da época.
A ideia de prever a estrutura de uma proteína simplesmente calculando todas as combinações possíveis nas quais a sequência de aminoácidos poderia ser encontrada foi rapidamente descartada. Estima-se que levaria mais tempo do que a idade do universo conhecido para encontrar o número de todas as configurações possíveis de uma proteína típica pelo cálculo da força bruta. Um tempo definitivamente infinito. Quase como prever a comédia divina conhecendo as letras de A a Z.
Conhecer a estrutura de uma proteína representa um passo em frente no mundo científico. A partir de sua estrutura, de fato, é possível determinar quais funções serão desempenhadas. Prever como será sua aparência lhe dá uma vantagem. Um exemplo pode ser o da proteína Spike de Sars-CoV-2, que torna o COVID-19 tão medroso que pode ser combatido sabendo exatamente seu comportamento.
Como os algoritmos de inteligência artificial permitem que o Google preveja a estrutura das proteínas?
Google desenvolve AlphaFold
A equipe do projeto se concentrou principalmente em estudar o desenvolvimento de proteínas sem usar modelos previamente conhecidos como modelos. O aspecto extraordinário está no grau de precisão obtido. O nome do software do projeto é AlphaFold, agora na versão número 2 que está na boca de todo o mundo científico.
A abordagem usada é usar redes neurais profundas para prever as propriedades de uma proteína a partir de suas propriedades. Em particular, as duas propriedades examinadas pela rede neural são:
- as distâncias entre os pares de aminoácidos;
- os ângulos entre as ligações químicas que os conectam.
O treinamento da rede neural é, portanto, capaz de prever uma distribuição das distâncias entre cada par de aminoácidos. Essas probabilidades foram então combinadas em uma pontuação que estima a precisão de uma estrutura de proteína conhecida. Uma segunda rede neural foi então usada para estimar o quão perto a estrutura proposta está da resposta certa.
O método proposto é baseado em técnicas já conhecidas em biologia estrutural , uma vez que consiste em substituir repetidamente pedaços da estrutura de uma proteína por novos fragmentos de proteínas. A novidade está na ideia de gerar novos fragmentos, usados para melhorar continuamente o score da estrutura da proteína proposta.
O algoritmo foi capaz de alavancar um enorme conjunto de dados de treinamento. Na verdade, o campo da genômica é bastante rico em dados graças à rápida redução do custo do sequenciamento genético. Como resultado, as abordagens de aprendizado profundo para o problema de previsão que dependem de dados genômicos tornaram-se cada vez mais eficientes nos últimos anos. O estudo assim conduzido permitirá que o algoritmo de inteligência artificial desenvolvido pelo Google conheça de maneira tão rápida todas as estruturas possíveis de proteínas.
DeepMind, o laboratório do Google
DeepMind é uma start-up de pesquisa inglesa fundada em 2010 e adquirida pelo Google em 2014. Após sua aquisição, mudou seu nome para Google DeepMind. Embora inicialmente o trabalho desenvolvido pela empresa estivesse vinculado principalmente ao mundo dos videogames, em 2018 o foco do trabalho foi deslocado para a pesquisa científica e a ética . Já em sua primeira participação no CASP, ele ganhou o prêmio pelos resultados obtidos pela superação de softwares altamente experientes.
Nos últimos anos, a unidade DeepMind Ethics and Society também foi lançada, com foco principalmente nas questões éticas introduzidas pelo uso de inteligência artificial.
Temos certeza de que ouviremos mais sobre esses projetos e os resultados que serão divulgados periodicamente.
O artigo Artificial Intelligence Predicting Protein Structure do Google vem da TechCuE .