Google Lens: vai ler a caligrafia indecifrável dos médicos
A partir de hoje, a casa de Mountain View quer tentar o impossível, ler a caligrafia dos médicos com o Google Lens . Para os não iniciados, este serviço combina diferentes sistemas presentes na informática, incluindo o potencial da inteligência artificial. O objetivo declarado é “ conectar o mundo físico ao seu redor e o universo digital em seu dispositivo”. De fato, o Lens permite que você leia o texto e identifique objetos tanto nas imagens quanto na realidade. Uma função aparentemente oculta em nosso smartphone, que pode economizar seus esforços e tempo. E quem agora quer se dedicar a decifrar o pesadelo de todo paciente que lida com médicos: a caligrafia.
O novo desafio do Google Lens
A empresa americana anunciou que está trabalhando no projeto com a ajuda de farmacêuticos. Sempre protagonistas de memes e piadas, estes últimos estão a dar uma mãozinha ao que para já é apenas um protótipo. Assim, por meio do aplicativo, que utiliza uma câmera, será possível tirar fotos da prescrição médica. O sistema de Goolge então processará a imagem para evitar possíveis erros derivados de tratamentos médicos incorretos . Mas de Mountain View eles são claros:
nenhuma decisão será tomada com base apenas no resultado desta tecnologia
Google post Índia
O papel dos técnicos, entre os especialistas de saúde e os próprios farmacêuticos, continuará a ser fundamental para o exame da caligrafia.
Como funciona o Google Lens
O aplicativo do Google foi lançado há cinco anos, primeiro fornecido separadamente e depois integrado à câmera do Android. Basta enquadrar um objeto para iniciar o sistema de lentes do Google; um sistema que é precisamente capaz de realizar buscas com base no que é visto com a câmera . O serviço também fornece informações por meio da leitura de rótulos ou texto escrito. De fato, um exemplo é a leitura do nome e senha de uma rede WiFi: depois de ler os dois elementos, a lente rastreia a rede digitalizada.
Além disso, o aplicativo também é capaz de calcular gorjetas e dividir a conta em um menu. Ou recomende itens do próprio menu, uma vez reconhecidos. Pode até descrever os passos de uma receita a partir do texto escrito (talvez através da síntese vocal).
Uma característica interessante é o que o torna o Shazam da moda, ou seja, o Style Match . Na verdade, esta opção funciona de uma forma tão simples quanto surpreendente e eficaz. Mais uma vez, ao enquadrar uma peça de roupa, o sistema de lentes do Google fornecerá informações sobre ela. Informações úteis como o preço ou a loja onde é vendido . Porque na verdade ele consegue fazer o seu trabalho até com uma imagem do instagram, a foto de um blog ou revista. E pode fazer com móveis também! Caso não encontre o artigo específico, o app faz referência a uma série de produtos similares.
Finalmente chegamos ao que foi anunciado anteriormente e que é a Seleção Inteligente de Texto. Este recurso permite que você copie e cole texto tirado com uma câmera de documentos reais ou digitais. Daí a ideia de enfrentar o desafio da “caligrafia médica” . Mas como o Google Lens interpreta as informações do mundo físico por meio do uso de uma única lente? Se você respondeu ou pensou sobre inteligência artificial, adivinhou!
A IA por trás do Google app
O aplicativo Google Lens faz uso intenso das chamadas CNNs ou redes neurais convolucionais . Elas formam a espinha dorsal de muitos aplicativos baseados em visão computacional. O Lens usa CNNs para detectar blocos de texto coerente, como colunas ou texto em um estilo ou cor uniforme .Em seguida, dentro de cada bloco, ele usa o alinhamento do texto, a linguagem e a relação geométrica dos parágrafos para determinar sua ordem final de leitura.
Um pouco como o cérebro humano então, que faz simplificações para nos permitir reconhecer objetos. E como as últimas, as CNNs dividem seu trabalho em várias etapas, cada uma especializada em uma tarefa. Uma rede neural convolucional, portanto, se divide em um bloco de entrada, as camadas ocultas e o bloco de saída que fornece o resultado . Para ativar os níveis ocultos existem as funções de ativação (por exemplo, RELU) que permitem ao primeiro realizar os cálculos.
Como pode ser visto pela "direção" dos dados, as CNNs são redes feed foward, ou seja, com fluxo direto; as conexões entre os nós não formam loops, o que as diferencia das redes recorrentes. Mas as CNNs também são diferentes das próprias redes de feed forward. Na verdade, são precisamente os níveis de convolução que os caracterizam .
As camadas de convolução são como “Zooms” dentro das próprias redes. Ou seja, entre um nível intermediário e outro, eles extraem informações da imagem selecionando uma determinada característica . Isso se deve ao uso de "filtros" especiais. Dependendo do tipo de filtro usado, é possível identificar coisas diferentes na imagem de referência. Os contornos das figuras, as linhas verticais, as linhas horizontais, as diagonais, são exemplos do que pode ser focalizado.
Possíveis desenvolvimentos desta tecnologia
Pode-se, portanto, imaginar o potencial e os métodos de aplicação das ferramentas do Google Lens na área médica. Além da questão da caligrafia do nosso médico, o Google Lens pode dar resultados importantes no campo do diagnóstico .
Mas, por outro lado, o uso de tal tecnologia também pode gerar muita controvérsia e preocupação no mundo da saúde. Mais uma vez, a palavra não pertence apenas aos especialistas em IA, mas, como disse o Google, também a uma colaboração total com os médicos.
O artigo Google Lens: Ele lerá a caligrafia indecifrável dos médicos foi escrito em: Tech CuE | Engenharia de close-up .