A prática da medicina moderna é construída sobre o reconhecimento de padrões – seja na história de um paciente, exame físico, resultados laboratoriais ou resposta ao tratamento. Um médico qualificado pode identificar padrões cruciais cedo e distingui -los de outros que parecem enganosamente semelhantes.
Mas alguns padrões são caóticos demais, sutis demais ou fugazes para aumentar as bandeiras vermelhas. Nenhum médico pode capturar com segurança o câncer de pâncreas em estágio inicial de exames de sangue de rotina, por exemplo. Respostas a muitas perguntas de profunda importância que exigem conhecimento do futuro1como se um tumor se espalhará ou por quanto tempo uma pessoa pode viver, é assim subjetiva – geralmente descendo à experiência cumulativa de um médico ou ‘sentimento’.
Uma abordagem para reduzir a subjetividade na medicina é através do aprendizado de máquina supervisionado – uma técnica baseada na criação de modelos de computador que podem detectar padrões aprendendo com dados rotulados. Por exemplo, examinando muitas imagens de mamografia que incluem ou carecem de tumores, os modelos podem aprender a reconhecer as características estatísticas que tendem a acompanhar uma etiqueta ou outra, mesmo quando esses recursos não são óbvios para o olho humano.
Por que uma dependência excessiva da modelagem orientada pela IA é ruim para a ciência
Sem surpresa, o interesse em modelagem preditiva explodiu. Nos casos que envolvem a disseminação do tumor, a falha de órgãos ou as janelas de tratamento estreito, o conhecimento preciso de como a condição de alguém pode se desenrolar pode economizar recursos, reduzir o sofrimento e salvar vidas. Somente em 2024, o banco de dados de citação PubMed indexou mais de 26.000 estudos mencionando inteligência artificial (IA), aprendizado de máquina ou aprendizado profundo em assistência médica e medicina clínica do paciente. O mercado global de IA em assistência médica deve exceder US $ 46 bilhões até o final deste ano e US $ 200 bilhões até 2030.
No entanto, qualquer modelo, por mais sofisticado, ainda é uma fonte de incerteza. Se subestimar o risco, contribui para os médicos com vista para preocupações graves. E se superestimar o risco, pode levar a testes e intervenções desnecessários e desperdiçar recursos.
A utilidade de um modelo é normalmente julgada pelo quão bem generaliza para dados anteriormente invisíveis, que são tratados como um proxy para o desempenho do mundo real. Mas há um problema: ao aprender a prever resultados, os modelos também absorvem as decisões clínicas, relacionamentos e vieses que são assados nos dados usados para treiná -los. A aprendizagem supervisionada depende da suposição de que essas condições, incluindo os vieses, permanecerão estáveis durante o uso do modelo. Sem essa base, as coisas desmoronam.
Por exemplo, ‘este paciente corre o risco de morrer amanhã?’ é uma questão diferente em um ambulatório rural do que em uma unidade de cuidados intensivos cardíacos, e um modelo treinado em um ambiente provavelmente terá um desempenho ruim no outro.
Práticas recomendadas atuais2 Enfatize a transparência nas fontes de dados e incentive os modelos de teste nos ambientes onde eles serão usados. Ainda assim, dado que muitos conjuntos de dados médicos são pequenos, tendenciosos ou amarrados a populações estreitas, as chances de que os modelos tenham um desempenho inferior ou parem de funcionar completamente permanecem desconfortavelmente altos.
No entanto, a maior ameaça à adoção generalizada de modelagem preditiva nos cuidados de saúde pode vir não dos casos em que o modelo falha completamente, mas sim aqueles em que consegue fornecer resultados.
Contaminação dos dados
Onde quer que o aprendizado de máquina seja usado em um ambiente de assistência médica, ele normalmente é construído com base na base do registro eletrônico de saúde (EHR) para os pacientes. Embora a adoção de EHR varie globalmente, ela é profundamente incorporada em muitos países de alta renda, onde serve como fonte de dados de treinamento para modelos preditivos e o sistema pelo qual essas previsões são devolvidas aos médicos. Na sua essência, o EHR é um banco de dados dinâmico que registra continuamente quase todos os aspectos do atendimento ao paciente – incluindo resultados de laboratório, medicamentos, notas clínicas e eventos -chave, como infecções ou mortes.
Os biomarcadores podem significar melhor tratamento para dor?
Ao expandir a quantidade de dados do paciente disponível, o EHR permite um fluxo de trabalho padronizado: os dados são extraídos do EHR para treinar modelos e, uma vez implantados os modelos, eles analisam novos dados do paciente para prever possíveis riscos à saúde. Essas previsões podem orientar as decisões clínicas-por exemplo, levando a um médico a ordenar uma radiografia de tórax ou começar a administrar antibióticos se um modelo sinalizar um alto risco de pneumonia, mesmo antes de se desenvolverem completamente.
Mas o EHR também é o destino das previsões dos modelos – e as consequências dessas previsões. Tomemos, por exemplo, um modelo projetado para detectar sinais iniciais do início da sepse. Idealmente, o médico é alertado e toma medidas oportunas na administração de antibióticos ou fluidos para impedir que a condição progredisse. Esse é exatamente o tipo de impacto que queremos da IA nos cuidados de saúde. A sepse é notoriamente difícil de capturar cedo e tem uma taxa de mortalidade de 30 a 40%, portanto, a intervenção rápida pode salvar vidas.
Mas está nela está a massagem: como o médico interveio, o paciente não desenvolve sepse. Como resultado, o padrão que o modelo sinalizou-originalmente vinculado à sepse-agora é registrado no EHR como associado a um resultado não séptico. Isso cria uma ‘associação contaminada’3 Nos dados, nos quais os sinais de alerta de sepse parecem levar a bons resultados, simplesmente por causa da intervenção bem -sucedida. À medida que essas associações se acumulam, elas começam a corroer a confiabilidade dos modelos existentes e até futuros.
Com o tempo, mesmo os modelos de IA de bom desempenho podem se degradar. Mudanças na demografia dos pacientes, padrões de atendimento em evolução, novos medicamentos ou mudanças na prática clínica podem fazer com que as previsões de um modelo se tornem menos precisas – um fenômeno conhecido como desvio do modelo.

Um médico em um hospital francês estuda uma raio-x na qual um modelo de inteligência artificial sinalizou possíveis fraturas. Crédito: Damien Meyer/AFP/Getty
Modelos de reciclagem em dados mais novos e mais representativos são amplamente considerados a melhor maneira de recuperar o desempenho4. Mas, à medida que o banco de dados EHR é corrompido com associações falsas, a reciclagem se torna efetivamente impossível. O conjunto de dados usado para treinar o modelo agora contém um padrão que implica sepse, mas também ‘não-sepse’. Este é o equivalente a adição de ensino a uma criança, dizendo a eles que dois mais dois são quatro. Às vezes. Em outros momentos são três, mas apenas quando não são cinco3.
Condições graves, como pneumonia, lesão renal aguda (LRA) e sepse, geralmente ocorrem juntas durante uma única doença ou internação hospitalar. Um modelo que impede com sucesso uma dessas condições também pode impedir indiretamente os outros. Isso introduz associações enganosas no EHR – não apenas para modelos atuais, mas para aqueles que ainda estão a serem construídos3.
As coisas ficam ainda mais complicadas quando vários modelos de IA são usados no mesmo ambiente clínico. Por exemplo, um modelo pode prever o risco de LRA, enquanto outro pode prever coágulos sanguíneos. Essas são condições diferentes, mas ambas dependem dos mesmos valores de laboratório, como medições da creatinina do produto residual, plaquetas no sangue ou marcadores inflamatórios. Se um médico responder ao alerta da AKI ajustando fluidos ou medicamentos, isso poderá tornar as previsões do modelo de coagulação obsoleto ou não confiável. Dessa forma, uma intervenção desencadeada por um modelo pode interromper silenciosamente outro, mesmo que eles estejam focados em resultados totalmente diferentes3.
Efeitos de ordem superior
As abordagens atuais para a modelagem preditiva nos cuidados de saúde não explicam como os modelos interagem entre si ou com a tomada de decisão clínica. Isso levanta questões sérias sobre algumas das principais práticas do campo, começando com a forma como os pesquisadores monitoram o desempenho do modelo após a implantação.
Se um modelo ajudar a prevenir um evento adverso, suas previsões não ocorrem-por exemplo, os pacientes não morrem de sepse-e seu desempenho no mundo real pode parecer recusar5. Dito isto, uma queda no desempenho também pode significar que o modelo não está funcionando bem na prática e está fazendo previsões ruins. Muitas vezes, é difícil dizer a diferença entre essas duas situações.
Uma maneira de melhorar a compreensão do que está acontecendo é comparar regularmente os resultados entre os períodos em que o modelo está ativo e quando não é. Esse tipo de comparação lado a lado pode ajudar a determinar se o modelo é realmente eficaz ou se está ficando aquém. Nesse cenário, uma gama esperada de mudança de desempenho deve ser estabelecida como parte do processo de avaliação. Se o desempenho cair além desse intervalo, pode indicar degradação do modelo. Se a queda for menor que o esperado, pode apontar para o uso limitado do modelo ou a integração ineficaz na prática clínica. A estimativa desse intervalo com antecedência pode ser difícil, porque fatores como desvio do modelo ou variabilidade clínica podem interferir. Uma abordagem mais confiável pode ser determinar o intervalo experimentalmente, sob condições controladas.
Uma questão de confiança para a pesquisa de IA em medicina
Infelizmente, o atendimento ao paciente do mundo real, especialmente em ambientes com vários modelos e fornecedores, está muito longe das condições controladas. Embora ensaios clínicos randomizados6 (ECRs) continuam sendo o padrão-ouro para avaliar tratamentos e modelos clínicos, é possível aplicar esse nível de controle em ambientes clínicos do dia-a-dia. Na prática, os médicos podem precisar escolher entre vários modelos sobrepostos ou mesmo conflitantes. À medida que o número de modelos implantados aumenta, os resultados de estudos isolados e fortemente controlados se tornam menos confiáveis como indicadores da eficácia do mundo real. A menos que um modelo seja usado exatamente no mesmo ambiente controlado em que foi testado – livre de modelos concorrentes, alterações no sistema ou desvio – seu desempenho isoladamente deve ser interpretado com cautela.
Mesmo se aceitarmos os ECRs pelo valor nominal como capaz de fornecer provas utilizáveis da eficácia de um modelo preditivo, eles vêm com custos financeiros e de tempo substanciais. Uma maneira mais prática de avaliar um modelo é testá -lo em dados totalmente novos – como de outro hospital ou local. Esse processo, geralmente chamado de validação externa, ajuda a mostrar se o modelo pode detectar padrões biológicos reais, em vez de apenas aqueles específicos para os dados em que foi treinado. Mas semelhante aos desafios relacionados aos modelos de reciclagem, esse tipo de teste se torna muito mais difícil7 Quando modelos anteriores já moldaram ou influenciaram os dados usados para teste.