'Alucinações' de IA podem levar a erros catastróficos, mas uma nova abordagem torna as decisões automatizadas mais confiáveis
Cientistas desenvolveram um novo método multiestágio para garantir inteligência artificial Os sistemas de (IA) projetados para identificar anomalias cometem menos erros e produzem recomendações explicáveis e fáceis de entender.
Avanços recentes tornaram a IA uma ferramenta valiosa para ajudar operadores humanos a detectar e abordar problemas que afetam infraestruturas críticas, como usinas de energia, gasodutos e represas. Mas, apesar de mostrarem muito potencial, os modelos podem gerar resultados imprecisos ou vagos — conhecidos como “alucinações”.
Alucinações são comuns em grandes modelos de linguagem (LLMs) como ChatGPT e Google Gêmeos. Eles derivam de dados de treinamento de baixa qualidade ou tendenciosos e de prompts de usuário que carecem de contexto adicional, de acordo com Nuvem do Google.
Alguns algoritmos também excluem humanos do processo de tomada de decisão — o usuário insere um prompt, e a IA faz o resto, sem explicar como fez uma previsão. Ao aplicar essa tecnologia a uma área séria como infraestrutura crítica, uma grande preocupação é se a falta de responsabilidade e confiança da IA pode resultar em operadores humanos tomando decisões erradas.
Alguns sistemas de detecção de anomalias foram anteriormente limitados pelos chamados algoritmos de IA “caixa preta”, por exemplo. Eles são caracterizados por processos de tomada de decisão opacos que geram recomendações difíceis de entender para humanos. Isso torna difícil para os operadores da planta determinar, por exemplo, a justificativa do algoritmo para identificar uma anomalia.
Uma abordagem multi-estágio
Para aumentar a confiabilidade da IA e minimizar problemas como alucinações, os pesquisadores propuseram quatro medidas, descrevendo suas propostas em um artigo publicado em 1º de julho no Conferência CPSS '24. No estudo, eles se concentraram na IA usada para infraestrutura nacional crítica (CNI), como tratamento de água.
Primeiro, os cientistas implantam dois sistemas de detecção de anomalias, conhecidos como Empirical Cumulative Distribution-based Outlier Detection (ECOD) e Deep Support Vector Data Description (DeepSVDD), para identificar uma gama de cenários de ataque em conjuntos de dados retirados do Secure Water Treatment (SWaT). Este sistema é usado para pesquisa e treinamento de sistemas de tratamento de água.
Os pesquisadores disseram que ambos os sistemas tinham tempos de treinamento curtos, forneciam detecção rápida de anomalias e eram eficientes — permitindo que detectassem uma miríade de cenários de ataque. Mas, conforme observado por Carvalho Rajvardhan, um cientista aplicado na Microsoft e pesquisador de ciência da computação na UC Davis, ECOD teve um “recall e pontuação F1 ligeiramente maiores” do que DeepSVDD. Ele explicou que as pontuações F1 são responsáveis pela precisão dos dados de anomalias e pelo número de anomalias identificadas, permitindo que os usuários determinem o “ponto operacional ideal”.
Em segundo lugar, os pesquisadores combinaram esses detectores de anomalias com eXplainable AI (XAI) — ferramentas que ajudam os humanos a entender e avaliar melhor os resultados gerados pelos sistemas de IA — para torná-los mais confiáveis e transparentes.
Eles descobriram que modelos XAI como o Shapley Additive Explanations (SHAP), que permitem aos usuários entender o papel que diferentes recursos de um modelo de aprendizado de máquina desempenham na realização de previsões, podem fornecer insights altamente precisos sobre recomendações baseadas em IA e melhorar a tomada de decisões humanas.
O terceiro componente girou em torno da supervisão e responsabilização humana. Os pesquisadores disseram que os humanos podem questionar a validade dos algoritmos de IA quando recebem explicações claras de recomendações baseadas em IA. Eles também podem usá-las para tomar decisões mais informadas sobre o CNI.
A parte final deste método é um sistema de pontuação que mede a precisão das explicações de IA. Essas pontuações dão aos operadores humanos mais confiança nos insights baseados em IA que estão lendo. Sarad Venugopalancoautor do estudo, disse que esse sistema de pontuação — que ainda está em desenvolvimento — depende do “modelo de IA/ML, da configuração do caso de uso do aplicativo e da exatidão dos valores inseridos no algoritmo de pontuação”.
Melhorando a transparência da IA
Em declarações à Live Science, Venugopalan explicou que este método visa fornecer aos operadores de plantas a capacidade de verificar se as recomendações de IA estão corretas ou não.
“Isso é feito por meio de notificações de mensagem para o operador e inclui os motivos pelos quais foi enviado”, disse ele. “Isso permite que o operador verifique sua correção usando as informações fornecidas pela IA e os recursos disponíveis para eles.”
Encorajado por esta pesquisa e como ela apresenta uma solução para o problema da caixa-preta da IA, Rajvardhan Oak disse: “Com explicações anexadas às descobertas do modelo de IA, é mais fácil para especialistas no assunto entenderem a anomalia, e para a liderança sênior tomar decisões críticas com confiança. Por exemplo, saber exatamente por que determinado tráfego da web é anômalo torna mais fácil justificar seu bloqueio ou penalização.”
Eerke Boitenum professor de segurança cibernética na Universidade De Montfort, também vê os benefícios de usar sistemas de IA explicáveis para detecção de anomalias em CNI. Ele disse que isso garantirá que os humanos sejam sempre mantidos informados ao tomar decisões cruciais com base em recomendações de IA. “Esta pesquisa não é sobre reduzir alucinações, mas sobre usar responsavelmente outras abordagens de IA que não as causam”, ele acrescentou.