CBECLIN 2026 · São Paulo Expo · 21 de maio

Quando 97,48% de acurácia
não é o bastante.

Avaliação crítica de métricas em Deep Learning para classificação de tumores cerebrais por ressonância magnética — e o que isso significa para a incorporação de Software como Dispositivo Médico (SaMD).

Autoras
Claudia S. G. Martins
Ministério da Saúde · Brasília
 
Anne F. S. Dantona
TECSAÚDE · Recife
Inteligência ArtificialSaMDDeep LearningAcuráciaEngenharia Clínica
Sobre este material

Esta página foi desenvolvida a partir do artigo "Avaliação Crítica de Métricas em Deep Learning para Software como Dispositivo Médico (SaMD)", apresentado durante o CBECLIN 2026.

O conteúdo a seguir traduz visualmente os principais conceitos, diagramas e análises do pôster científico. Para ler o trabalho completo com todas as referências, faça o download do arquivo original.

Baixar artigo
Hipótese
A acurácia global elevada, tomada isoladamente como evidência suficiente de desempenho, pode ser inadequada na avaliação de modelos de IA em saúde.
Conceitos-chave

O vocabulário antes da crítica.

Quatro definições essenciais para situar o debate sobre métricas de IA aplicada à imagem médica.

01

SaMD

Software como Dispositivo Médico — regulado pela ANVISA via RDC 657/2022. Inclui sistemas de IA que interpretam imagens médicas para fins diagnósticos.

02

Deep Learning em RM

Redes neurais convolucionais aprendem padrões em imagens de ressonância magnética. Modelos como EfficientNet-B3 alcançam altíssimas acurácias agregadas.

03

Métricas além da acurácia

Precision, recall, F1-score e matriz de confusão revelam o que a média esconde: desempenho desigual por classe e erros clinicamente assimétricos.

04

Engenheiro clínico

Responsável pelo parecer técnico de incorporação de SaMD. Precisa interpretar criticamente as métricas declaradas pelo fabricante e a representatividade do dataset.

Metodologia

Dois modelos. Quatro classes. Uma pergunta.

O estudo comparou duas abordagens de Deep Learning na classificação de tumores cerebrais em imagens de ressonância magnética, com o objetivo de avaliar criticamente quais métricas realmente refletem segurança e utilidade clínica em um Software como Dispositivo Médico (SaMD).

  1. ETAPA 01

    Dataset público

    Foi utilizado o Brain Tumor MRI Dataset (Kaggle, Nickparvar, 2021), composto por 7.023 imagens de ressonância magnética cerebral organizadas em quatro classes: glioma, meningioma, tumor pituitário e sem tumor.

  2. ETAPA 02

    Divisão treino/teste

    O conjunto foi dividido em 5.712 imagens para treino e 1.311 para teste, mantendo a proporção original entre classes. O desbalanceamento observado foi baixo (1,21× entre a classe mais e a menos representada).

  3. ETAPA 03

    Modelos comparados

    Foram treinados dois modelos para a mesma tarefa de classificação: uma CNN baseline construída do zero (~288 mil parâmetros) e uma EfficientNet-B3 com transfer learning a partir do ImageNet (~10,7 milhões de parâmetros).

  4. ETAPA 04

    Treinamento

    Ambos os modelos foram treinados em ambiente Python com PyTorch, usando data augmentation leve, otimizador Adam e early stopping baseado na perda de validação, garantindo condições comparáveis entre as arquiteturas.

  5. ETAPA 05

    Avaliação multidimensional

    Em vez de reportar apenas a acurácia global, o desempenho foi analisado em cinco dimensões: acurácia, precision, recall e F1-score por classe, além da matriz de confusão — com leitura clínica dos erros entre classes.

CLASSES
  • Glioma
  • Meningioma
  • Tumor pituitário
  • Sem tumor
DESBALANCEAMENTO
1,21×

Razão entre classe mais e menos representada.

MÉTRICAS AVALIADAS

Acurácia global, desempenho por classe, precision, recall, F1-score e matriz de confusão.

Diagrama interativo

A matriz de confusão revela o que a média esconde.

Cada célula mostra quantas imagens da classe real (linha) foram classificadas como cada classe predita (coluna). Passe o mouse sobre uma célula para ler a implicação clínica.

Glioma
Meningioma
Sem tumor
Pituitário
Glioma
Meningioma
Sem tumor
Pituitário
Predito →
Leitura
Passe o mouse por uma célula.
Diagonal — acertos
17 confusões glioma ↔ meningioma
Sem ocorrências
Resultados

Os números, lidos de perto.

0,00%
Acurácia global EfficientNet-B3 (teste)
0,0%
Recall para meningioma
0,0%
Desempenho classe 'sem tumor'
0
Confusões críticas glioma ↔ meningioma
Desempenho por classe

A média esconde a desigualdade.

Recall do EfficientNet-B3 por classe no conjunto de teste. As classes destacadas concentram os erros clinicamente mais relevantes.

Sem tumor
99,8%
405 amostras
Tumor pituitário
99,7%
300 amostras
Glioma
96,0%
300 amostras
Meningioma
94,4%
306 amostras
Risco clínico

Confundir glioma com meningioma não é um erro estatístico. É uma decisão clínica equivocada.

Prognóstico

Sobrevida e curso da doença diferem radicalmente entre as duas neoplasias.

Conduta cirúrgica

Abordagens, ressecção e margens são planejadas de forma distinta.

Terapêutica adjuvante

Indicação de radioterapia, quimioterapia e seguimento varia conforme o tipo.

Análise crítica

Cinco dimensões para um parecer técnico íntegro.

I
Impacto do desbalanceamento
Mesmo com razão leve (1,21×), classes minoritárias performam pior. Pesos atenuam, não eliminam o viés.
II
Limitações da acurácia
Métrica agregada oculta heterogeneidade entre classes e perfis de erro.
III
Risco clínico dos erros
Erros não são equivalentes. Trocar tumores com condutas distintas tem peso assimétrico.
IV
Caracterização do dataset
Sem descrição populacional e técnica, não há como avaliar viés, reprodutibilidade ou generalização.
V
Implicações para SaMD
Validação externa, contexto de uso pretendido e aderência regulatória são exigências, não acessórios.
Conclusão

A acurácia global é útil como indicador inicial — mas insuficiente como evidência isolada para incorporar SaMD baseados em IA. A avaliação técnica deve integrar desempenho por classe, risco dos erros, representatividade do dataset, validação externa e aderência ao contexto de uso pretendido.

RDC 657/2022RDC 509/2021CFM 2.454/2026
As autoras

Quem assina o trabalho.

Cláudia Martins
Autora

Cláudia Martins

Engenheira Biomédica · Consultora do Ministério da Saúde

+20 ANOS EM ENGENHARIA CLÍNICA

Engenheira biomédica com MBA em Gestão de Projetos, Black Belt em Lean Six Sigma e especializações em IA aplicada a negócios. Mestranda em Engenharia Biomédica pela UnB e cerca de 20 anos de experiência na área.

Atuou em mais de 40 serviços de saúde no Brasil e em projetos internacionais de avaliação e implementação de tecnologias em mais de 2.000 unidades. Hoje é consultora do Ministério da Saúde, analista sênior de Engenharia Biomédica/Clínica na UNOPS e perita judicial no DF, além de professora e palestrante.

Engenharia BiomédicaIA em SaúdeLean Six SigmaMinistério da Saúde
Anne Stegmann D'Antona
Coautora

Anne Stegmann D'Antona

Especialista em Inteligência de Mercado e Inovação em Saúde

+20 ANOS NO SETOR DA SAÚDE

Anne Stegmann D'Antona atua há mais de 20 anos no setor da saúde, com experiência em Engenharia Clínica, operações, expansão comercial, marketing e inteligência de mercado.

Atualmente lidera iniciativas voltadas à inovação, análise estratégica e desenvolvimento de negócios na área da saúde, com foco em transformação digital, inteligência de mercado e aplicação ética de tecnologias emergentes. Sua trajetória integra experiência técnica e visão estratégica para apoiar decisões orientadas por dados, governança e sustentabilidade organizacional.

Engenharia ClínicaInteligência de MercadoEstratégiaInovação em Saúde