Notícias da Região Metropolitana de Campinas

Artigos

Além das palavras: a IA se torna multimodal para atender às suas necessidades

Compartilhar

por Susanna Ray

Está chovendo há dias e alguém está navegando na web quando se depara com uma foto de uma bela praia com água azul-turquesa que brilha ao sol. “Onde é isso e como posso chegar lá?”, pergunta.

A resposta é imediata. O assistente de IA não apenas identifica a praia, mas também monta um plano de férias completo para a pessoa. Ela discute os detalhes para refinar seu itinerário, obtém dicas para lidar com o clima o começa a tocar uma trilha sonora  para ajudar a melhorar seu humor.

As experiências de IA estão se tornando cada vez mais multimodais, o que significa que podem ir além de simples prompts de texto. O indivíduo digita uma pergunta, a ferramenta responde – usando imagens, áudio e vídeo. Esses recursos estão ajudando as ferramentas de IA mais recentes a obter uma visão mais completa do que deseja fazer, ao mesmo tempo em que oferecem maneiras mais intuitivas de interagir com a tecnologia e obter informações de forma ainda mais rápida e fácil.

Assim como os cérebros humanos absorvem informações de texto, imagens e áudio simultaneamente, com a IA multimodal, os pesquisadores trabalharam para “colapsar todos esses recursos em um modelo universal”, diz Ryan Volum, que está orientando o desenvolvimento de produtos de IA na Microsoft. “Estamos dando a ele cada vez mais o mundo que vemos como humanos.”

Embora os modelos de IA multimodal não sejam totalmente novos, eles estão começando a ter impacto no mundo real com ferramentas para ajudar os médicos a diagnosticar e tratar pacientes com mais precisão e as agências meteorológicas a prever tempestades severas com mais precisão.  

“Cada vez mais, a inteligência artificial vai ao nosso encontro para que possa entender melhor nossas necessidades e atendê-las de forma proativa”.

As ferramentas multimodais estão ajudando as pessoas a simplificar questões  mundanas – como quando Volum estava recentemente tentando escolher entre diferentes opções de seguro de saúde.

Em vez de ter que se debruçar sobre a linguagem densa de cada plano, Volum recorreu ao Copilot Vision, um recurso da Microsoft que fornece assistência em tempo real para tornar a navegação na web menos opressora. Com sua permissão, o Copilot Vision foi capaz de ver tudo no site que ele estava examinando – não apenas texto, mas também gráficos e imagens – e resumir tudo para ele em menos tempo do que levaria para percorrer a primeira linha.  

Em seguida, respondeu às suas perguntas em uma conversa natural, trazendo informações de outras fontes para fornecer contexto que o ajudou a decidir.

“Foi capaz de me encontrar no meu mundo” e oferecer uma melhor assistência, diz Volum. Ele compara isso a como duas pessoas costumam trabalhar juntas para pilotar um avião.

“Se o seu copiloto em um avião pudesse ouvir apenas o que você está dizendo, mas não pudesse ver o que você está vendo, ele seria muito menos útil”, diz ele. “Mas como eles são capazes de ver as nuvens à frente, os indicadores do painel, a telemetria do avião, esse copiloto pode ser muito mais útil e há muito menos trabalho necessário para o usuário comunicar o que precisa.”

Como funcionam os modelos de IA multimodal e o que eles podem fazer

Com a IA multimodal, os desenvolvedores construíram sobre a base de avanços recentes com linguagem natural e estenderam esses recursos para diferentes entradas. Assim como os modelos tradicionais de linguagem grande (LLMs) executam tarefas baseadas em texto extraindo conceitos codificados na linguagem humana e pensados para fazer inferências lógicas, resolver problemas e gerar conteúdo, os modelos multimodais fazem o mesmo com outros modos de comunicação, como voz e recursos visuais.

Os modelos são treinados em vastos conjuntos de dados para identificar os principais recursos em diferentes tipos de dados, como palavras e frases em texto, formas e cores em imagens ou tons em áudio. Eles classificam essas entradas e as conectam de maneira unificada – ligando uma imagem de um gato à palavra digitada e falada, por exemplo – e então reconhecem padrões para fazer conexões entre as modalidades.

Depois de treinado, um modelo pode entender e criar conteúdo. Ele pode gerar uma imagem a partir das instruções faladas de alguém, por exemplo, ou criar áudio a partir de uma solicitação digitada.

Esses recursos expandidos estão ajudando médicos e cientistas, em particular, a fazer grandes avanços, diz Jonathan Carlson, que lidera a pesquisa em saúde e ciências da vida na Microsoft Health Futures.

Os LLMs estão sendo usados durante as consultas médicas para gravar e classificar as conversas com os pacientes – mesmo que a discussão tenha oscilado entre sintomas e perguntas – para várias tarefas de acompanhamento que, de outra forma, tomam muito tempo e atenção do médico, como redigir um resumo pós-consulta e um encaminhamento para um especialista que o médico só precisa provar e assinar.

E os modelos multimodais estão dando um passo adiante ao aplicar essa capacidade de raciocínio para analisar pixels em imagens médicas, identificando possíveis tumores ou outras anomalias que podem ser difíceis de encontrar. A IA pode ser usada para apoiar e validar o trabalho de um patologista e até mesmo capturar o que um olho humano pode perder, diz Carlson, ou ajudar a diagnosticar doenças raras que têm dados de treinamento limitados. 

“Agora temos modelos que entendem conceitos codificados em imagens e na linguagem”, diz Carlson. “Então você pode dizer: ‘Ei, eu tenho uma imagem de patologia, mostre-me todas as células imunológicas, identifique quaisquer células cancerígenas suspeitas e me diga se há algum biomarcador provável que possa me ajudar a escolher o tratamento apropriado’. Depois de ter modelos com esses conceitos, é realmente muito simples alinhar esses conceitos e basicamente juntá-los e acabar com essa experiência rica em que agora é possível conversar com uma imagem.

Essa capacidade ajuda a orientar os médicos em direção a testes mais direcionados e tratamentos precisos, melhorando os resultados por meio de diagnósticos precoces e economizando tempo, desconforto e dinheiro dos pacientes, reduzindo procedimentos desnecessários.

Como é possível explorar a multimodalidade

Muitas pessoas poderão usar recursos multimodais em navegadores Edge com o Copilot Vision, agora disponível para todos os usuários do Copilot Pro e do Copilot gratuito nos Estados Unidos. Cada pessoa está no controle quando se trata de usar a nova ferramenta: basta clicar no ícone Copilot Vision para iniciar uma sessão e, ao encerrá-la, os dados são excluídos.

Empresas e desenvolvedores podem escolher entre um catálogo completo de modelos multimodais — ou obter ajuda para misturar e combinar entre as 1.800 opções no Azure AI Foundry — para criar ferramentas comerciais mais inteligentes e interativas.

A Mercedes-Benz, por exemplo, criou uma ferramenta que usa o Azure AI Vision e o GPT-4 Turbo para ver os arredores de um carro e responder verbalmente as perguntas do motorista, como por exemplo se ele tem permissão para estacionar em uma determinada rua ou qual é o prédio do qual está se aproximando.

O modelo Magma recentemente introduzido pela Microsoft  integra a percepção visual com a compreensão da linguagem para ajudar assistentes ou robôs com inteligência artificial a entender ambientes nos quais não foram treinados e sugerir ações apropriadas para novas tarefas – como pegar uma ferramenta ou navegar em um site e clicar em um botão para executar um comando. É um passo significativo em direção a agentes de IA que podem servir como assistentes versáteis e de uso geral.

E o novo modelo multimodal Phi-4 pode processar fala, visão e texto diretamente em dispositivos, usando menos poder de computação do que seus antecessores. Esse modelo menor e mais acessível permite que os desenvolvedores criem aplicativos eficientes que se destacam em tarefas matemáticas e lógicas.

Os recursos multimodais em serviços como o Reconhecimento de Conteúdo de IA do Azure podem ajudar a encontrar insights de muitos dados não estruturados, como gravações de call center, documentos digitalizados ou postagens de mídia social.

Áudio e vídeo aumentam as apostas para a segurança

Toda essa capacidade vem com novos riscos e uma necessidade mais ampla de educação sobre IA e colaboração para protegê-la, diz Sarah Bird, diretora de produtos de IA responsável da Microsoft.

A forma como as pessoas são representadas – ou deturpadas – é um risco exclusivo da IA multimodal, diz Bird, uma vez que a maneira como alguém se parece ou soa pode ser representada com a tecnologia generativa.

E as reações das pessoas mudam com as modalidades utilizadas, diz ela. Por exemplo, imagens violentas são percebidas como mais graves do que textos violentos; um vídeo é visto como mais confiável do que uma história escrita; e quando um assistente de IA como o Copilot fala com uma voz audível, os erros parecem mais intencionais do que quando aparecem na tela.

Portanto, pesquisadores e engenheiros de segurança da Microsoft estão construindo em cima das proteções já existentes para IA generativa, segundo Bird.

À medida que mais modalidades introduzem mais riscos, entradas como texto, imagens ou áudio que podem ser benignos por si só podem ser usadas para criar conteúdo prejudicial quando combinadas, como uma foto de uma pessoa famosa com texto descrevendo-a como um animal. É por isso que a Microsoft está atualizando seus modelos de segurança para revisar a soma da saída, em vez de apenas as partes individuais, diz Bird.

A ampla conscientização sobre os riscos e como reconhecer o conteúdo gerado por IA também é fundamental. A Microsoft assina criptograficamente todo o conteúdo gerado por IA feito com sua tecnologia para que qualquer pessoa possa identificá-lo. A educação e o treinamento são cruciais para que as pessoas saibam esperar essas assinaturas e o que elas significam, assim como a colaboração entre organizações de tecnologia, como a coalizão C2PA fundada pela Microsoft e outros líderes do setor para desenvolver padrões para a certificação de fontes.

“Há muito que podemos fazer tecnologicamente e dentro da plataforma” para reduzir o risco, diz Bird. “Mas também, há novos conteúdos no mundo, e o mundo precisa ajustar sua abordagem a isso. Cada pessoa tem um papel a desempenhar na forma como avaliamos e nos defendemos contra riscos multimodais.”

Abrindo um mundo de oportunidades

A pesquisa está avançando rapidamente à medida que os desenvolvimentos ocorrem. Pela primeira vez, apenas nos últimos dois anos, segundo Carlson, os pesquisadores têm o maquinário e a assistência multimodal de IA que lhes permite construir uma imagem holística de uma célula.

“O próximo conjunto de coisas é: como um modelo aprende a entender as proteínas?” ele diz. “Temos trabalhado muito nisso, e você pode pegar as mesmas ideias da modelagem de linguagem e aplicá-las a centenas, milhares, milhões de sequências de proteínas” para projetar antígenos para vacinas, por exemplo.

“Trata-se de aprender a linguagem da natureza”, diz ele. “Da mesma forma que aprendemos a linguagem de como os humanos falam, podemos aprender a linguagem de como a célula se expressa ou como as sequências de proteínas realmente funcionam?”

Ser capaz de usar texto, fala, imagens, áudio e vídeo para resolver todos os tipos de problemas de uma só vez abre um mundo de novas oportunidades. “Cada vez mais, a inteligência artificial nos encontrará onde estamos”, diz Volum, “para que possa entender melhor nossas necessidades e atendê-las de forma mais proativa”.

Fonte: Assessoria de Imprensa

Deixe um comentário