CBECLIN 2026 · São Paulo Expo · 21 de maio

Quando 97,48% de acurácia
não é o bastante.

Avaliação crítica de métricas em Deep Learning para classificação de tumores cerebrais por ressonância magnética — e o que isso significa para a incorporação de Software como Dispositivo Médico (SaMD).

Autoras

Claudia S. G. Martins

Ministério da Saúde · Brasília

Anne F. S. Dantona

TECSAÚDE · Recife

Inteligência ArtificialSaMDDeep LearningAcuráciaEngenharia Clínica

Sobre este material

Esta página foi desenvolvida a partir do artigo "Avaliação Crítica de Métricas em Deep Learning para Software como Dispositivo Médico (SaMD)", apresentado durante o CBECLIN 2026.

O conteúdo a seguir traduz visualmente os principais conceitos, diagramas e análises do pôster científico. Para ler o trabalho completo com todas as referências, faça o download do arquivo original.

Baixar artigo

Hipótese

A acurácia global elevada, tomada isoladamente como evidência suficiente de desempenho, pode ser inadequada na avaliação de modelos de IA em saúde.

Conceitos-chave

O vocabulário antes da crítica.

Quatro definições essenciais para situar o debate sobre métricas de IA aplicada à imagem médica.

SaMD

Software como Dispositivo Médico — regulado pela ANVISA via RDC 657/2022. Inclui sistemas de IA que interpretam imagens médicas para fins diagnósticos.

Deep Learning em RM

Redes neurais convolucionais aprendem padrões em imagens de ressonância magnética. Modelos como EfficientNet-B3 alcançam altíssimas acurácias agregadas.

Métricas além da acurácia

Precision, recall, F1-score e matriz de confusão revelam o que a média esconde: desempenho desigual por classe e erros clinicamente assimétricos.

Engenheiro clínico

Responsável pelo parecer técnico de incorporação de SaMD. Precisa interpretar criticamente as métricas declaradas pelo fabricante e a representatividade do dataset.

Metodologia

Dois modelos. Quatro classes. Uma pergunta.

O estudo comparou duas abordagens de Deep Learning na classificação de tumores cerebrais em imagens de ressonância magnética, com o objetivo de avaliar criticamente quais métricas realmente refletem segurança e utilidade clínica em um Software como Dispositivo Médico (SaMD).

ETAPA 01
Dataset público
Foi utilizado o Brain Tumor MRI Dataset (Kaggle, Nickparvar, 2021), composto por 7.023 imagens de ressonância magnética cerebral organizadas em quatro classes: glioma, meningioma, tumor pituitário e sem tumor.
ETAPA 02
Divisão treino/teste
O conjunto foi dividido em 5.712 imagens para treino e 1.311 para teste, mantendo a proporção original entre classes. O desbalanceamento observado foi baixo (1,21× entre a classe mais e a menos representada).
ETAPA 03
Modelos comparados
Foram treinados dois modelos para a mesma tarefa de classificação: uma CNN baseline construída do zero (~288 mil parâmetros) e uma EfficientNet-B3 com transfer learning a partir do ImageNet (~10,7 milhões de parâmetros).
ETAPA 04
Treinamento
Ambos os modelos foram treinados em ambiente Python com PyTorch, usando data augmentation leve, otimizador Adam e early stopping baseado na perda de validação, garantindo condições comparáveis entre as arquiteturas.
ETAPA 05
Avaliação multidimensional
Em vez de reportar apenas a acurácia global, o desempenho foi analisado em cinco dimensões: acurácia, precision, recall e F1-score por classe, além da matriz de confusão — com leitura clínica dos erros entre classes.

CLASSES

Glioma
Meningioma
Tumor pituitário
Sem tumor

DESBALANCEAMENTO

1,21×

Razão entre classe mais e menos representada.

MÉTRICAS AVALIADAS

Acurácia global, desempenho por classe, precision, recall, F1-score e matriz de confusão.

Diagrama interativo

A matriz de confusão revela o que a média esconde.

Cada célula mostra quantas imagens da classe real (linha) foram classificadas como cada classe predita (coluna). Passe o mouse sobre uma célula para ler a implicação clínica.

Glioma

Meningioma

Sem tumor

Pituitário

Glioma

Meningioma

Sem tumor

Pituitário

Predito →

Leitura

Passe o mouse por uma célula.

Diagonal — acertos

17 confusões glioma ↔ meningioma

Sem ocorrências

Resultados

Os números, lidos de perto.

0,00%

Acurácia global EfficientNet-B3 (teste)

0,0%

Recall para meningioma

0,0%

Desempenho classe 'sem tumor'

Confusões críticas glioma ↔ meningioma

Desempenho por classe

A média esconde a desigualdade.

Recall do EfficientNet-B3 por classe no conjunto de teste. As classes destacadas concentram os erros clinicamente mais relevantes.

Sem tumor

99,8%

405 amostras

Tumor pituitário

99,7%

300 amostras

Glioma

96,0%

300 amostras

Meningioma

94,4%

306 amostras

Risco clínico

Confundir glioma com meningioma não é um erro estatístico. É uma decisão clínica equivocada.

Prognóstico

Sobrevida e curso da doença diferem radicalmente entre as duas neoplasias.

Conduta cirúrgica

Abordagens, ressecção e margens são planejadas de forma distinta.

Terapêutica adjuvante

Indicação de radioterapia, quimioterapia e seguimento varia conforme o tipo.

Análise crítica

Cinco dimensões para um parecer técnico íntegro.

Impacto do desbalanceamento

Mesmo com razão leve (1,21×), classes minoritárias performam pior. Pesos atenuam, não eliminam o viés.

Limitações da acurácia

Métrica agregada oculta heterogeneidade entre classes e perfis de erro.

III

Risco clínico dos erros

Erros não são equivalentes. Trocar tumores com condutas distintas tem peso assimétrico.

Caracterização do dataset

Sem descrição populacional e técnica, não há como avaliar viés, reprodutibilidade ou generalização.

Implicações para SaMD

Validação externa, contexto de uso pretendido e aderência regulatória são exigências, não acessórios.

Conclusão

A acurácia global é útil como indicador inicial — mas insuficiente como evidência isolada para incorporar SaMD baseados em IA. A avaliação técnica deve integrar desempenho por classe, risco dos erros, representatividade do dataset, validação externa e aderência ao contexto de uso pretendido.

RDC 657/2022RDC 509/2021CFM 2.454/2026

As autoras

Quem assina o trabalho.

Autora

Cláudia Martins

Engenheira Biomédica · Consultora do Ministério da Saúde

▸ +20 ANOS EM ENGENHARIA CLÍNICA

Engenheira biomédica com MBA em Gestão de Projetos, Black Belt em Lean Six Sigma e especializações em IA aplicada a negócios. Mestranda em Engenharia Biomédica pela UnB e cerca de 20 anos de experiência na área.

Atuou em mais de 40 serviços de saúde no Brasil e em projetos internacionais de avaliação e implementação de tecnologias em mais de 2.000 unidades. Hoje é consultora do Ministério da Saúde, analista sênior de Engenharia Biomédica/Clínica na UNOPS e perita judicial no DF, além de professora e palestrante.

Engenharia BiomédicaIA em SaúdeLean Six SigmaMinistério da Saúde

Coautora

Anne Stegmann D'Antona

Especialista em Inteligência de Mercado e Inovação em Saúde

▸ +20 ANOS NO SETOR DA SAÚDE

Anne Stegmann D'Antona atua há mais de 20 anos no setor da saúde, com experiência em Engenharia Clínica, operações, expansão comercial, marketing e inteligência de mercado.

Atualmente lidera iniciativas voltadas à inovação, análise estratégica e desenvolvimento de negócios na área da saúde, com foco em transformação digital, inteligência de mercado e aplicação ética de tecnologias emergentes. Sua trajetória integra experiência técnica e visão estratégica para apoiar decisões orientadas por dados, governança e sustentabilidade organizacional.

Engenharia ClínicaInteligência de MercadoEstratégiaInovação em Saúde

Quando 97,48% de acurácianão é o bastante.

Esta página foi desenvolvida a partir do artigo "Avaliação Crítica de Métricas em Deep Learning para Software como Dispositivo Médico (SaMD)", apresentado durante o CBECLIN 2026.

O vocabulário antes da crítica.

SaMD

Deep Learning em RM

Métricas além da acurácia

Engenheiro clínico

Dois modelos. Quatro classes. Uma pergunta.

Dataset público

Divisão treino/teste

Modelos comparados

Treinamento

Avaliação multidimensional

A matriz de confusão revela o que a média esconde.

Os números, lidos de perto.

A média esconde a desigualdade.

Confundir glioma com meningioma não é um erro estatístico. É uma decisão clínica equivocada.

Cinco dimensões para um parecer técnico íntegro.

Quem assina o trabalho.

Cláudia Martins

Anne Stegmann D'Antona

Quando 97,48% de acurácia
não é o bastante.