Durante años, la inteligencia artificial (IA) ha sido considerada como un campo muy prometedor en el futuro de la medicina. Una vez considerado un concepto abstracto limitado a la investigación en informática y las megacorporaciones digitales, la inteligencia artificial se ha convertido rápidamente en un motor clave de la innovación en la atención médica.
Entre 2018 y 2023, al menos 86 ensayos clínicos aleatorios han evaluado los procedimientos clínicos guiados por IA, cientos de productos médicos basados en IA han recibido la aprobación regulatoria y decenas de miles de pacientes se han sometido a intervenciones médicas asistidas por IA. Entre los campos más profundamente impactados por la IA, la imagen médica se destaca como un importante beneficiario de esta revolución tecnológica. Sin embargo, la medicina nuclear se ha quedado atrás de otras disciplinas de imágenes para adoptar completamente la IA. Varios factores han contribuido a esta integración más lenta, incluido el tamaño relativamente pequeño de los conjuntos de datos de medicina nuclear en comparación con otras modalidades de imagen, la complejidad de la fusión de datos multimodal y la biología subyacente a la imagen molecular, y la necesidad de estandarización a través de protocolos de imagen y el uso de radiotrazadores. Además, los obstáculos regulatorios, la aceptación clínica y la necesidad de explicar la explicabilidad en la toma de decisiones impulsada por la IA han planteado desafíos significativos.
A pesar de estos obstáculos, la IA tiene un inmenso potencial para transformar la medicina nuclear mediante la mejora de la interpretación de la imagen, la mejora de la precisión del diagnóstico y la realización de una planificación de tratamiento más personalizada. A medida que avance la investigación en este campo, superar estas barreras será crucial para desbloquear todas las capacidades de la IA en medicina nuclear.
Un manual para entender los enfoques de IA
Durante la última década y en curso, estamos observando un rápido progreso en el desarrollo de la IA, que se define como un aprendizaje independiente de una entidad computacional basada en la información disponible de cualquier tipo. Dicha cantidad de información obtenida de pacientes o estudios preclínicos es demasiado compleja, vasta y heterogénea para ser interpretable de manera integral por los humanos sin ningún apoyo tecnológico [1]. Con los albores de la IA, que abarca los conceptos de Machine Learning (ML) y Deep Learning (DL), un tipo específico de ML, el análisis de apoyo de información específica de pacientes de alta dimensión podría permitir a los médicos mejorar sus decisiones de diagnóstico, pronóstico y terapéuticas.
Se han desarrollado numerosas arquitecturas de IA y se utilizan para clasificar, imputar, predecir y agrupar conjuntos de datos basados en las llamadas características. Tales características pueden incluir información específica relevante del paciente, tal como rasgos médicos y mediciones clínicas como parámetros de análisis de sangre, datos sensoriales de reloj inteligente, imágenes convencionales o datos de imágenes híbridas, tales como SPECT/CT o PET/MRI, que abren la puerta a la evaluación multiparamétrica de enfermedades [2]. Un término que se usa con frecuencia es Radiomics, que se refiere a la extracción de alto rendimiento de características cuantitativas de imágenes para construir modelos de diagnóstico o predictivos a través de ML o DL [3]. La principal diferencia entre los enfoques tradicionales de ML y DL radica en cómo se obtienen las características. En ML, las características están predeterminadas. En el caso de que los datos de imagen se utilicen para la ML tradicional, este proceso se realiza mediante la extracción de características artesanales (o diseñadas) y seleccionándolas a través de algoritmos de ML o preselección manual o etiquetado, a menudo identificado por un experto en dominio. Como resultado, los enfoques tradicionales de ML integran el conocimiento previo, evitando así la tarea compleja y computacionalmente costosa de determinar características potencialmente importantes a partir de un vasto espacio de información. Sin embargo, la selección de características puede introducir sesgo y limitar el enfoque del conocimiento existente. Por el contrario, DL tiene como objetivo asociar directamente patrones dentro de datos (de imagen) con un objetivo de predicción dado. Este enfoque puede conducir a modelos complejos y robustos con menos sesgo y dependencia del conocimiento experto previo [4], pero también es más dependiente de grandes cantidades de datos de capacitación de alta calidad.
La implementación técnica de un algoritmo de IA que utiliza características para la predicción se llama modelo. Los conceptos matemáticos subyacentes de un modelo de este tipo intentan encontrar combinaciones de límites o patrones de decisión lineales y no lineales en un conjunto dado de información para separar puntos de datos individuales como pacientes o enfermedades. El modelo clasifica o agrupa objetos similares en distintos grupos.
Se supervisa un análisis de IA si se proporciona la etiqueta de entrenamiento (por ejemplo, enfermedad, tipo de tratamiento, resultado del paciente, etc.) al algoritmo, por ejemplo, en el caso de datos etiquetados. Los algoritmos de aprendizaje supervisados difieren en la forma en que calculan el límite de decisión, que mapea un punto de datos de entrada a una clase específica basada en el patrón anteriormente aprendido. Una visión general de estos enfoques se puede encontrar en [5]. Los algoritmos de aprendizaje supervisados más comunes de última generación son Random Forest, Support Vector Machine, K-Nearest Neighbour, Logistic Regression y Boosting, como Gradient Boosting, XGBoost o AdaBoost y la mayoría de estos se han utilizado para radiomics [6].
El aprendizaje no supervisado se aplica para aprender de los datos no etiquetados en los que cada punto de datos solo consiste en las características y las etiquetas verdaderas son desconocidas. Esto se utiliza principalmente por los métodos de agrupación, que tratan de encontrar patrones comunes para agrupar los puntos de datos o los pacientes en grupos en función de sus similitudes de características. Estos métodos de agrupamiento son diferentes según la determinación del grupo y la medida de similitud. Los enfoques de agrupamiento más comúnmente utilizados incluyen agrupamiento jerárquico y agrupamiento de k-medios [7]. Después de agrupar a los pacientes en grupos, es posible utilizar estos grupos recién identificados como etiquetas para poder aplicar los enfoques supervisados anteriormente mencionados. Otros métodos que pertenecen al dominio del aprendizaje no supervisado incluyen técnicas de reducción de la dimensionalidad tales como análisis de componentes principales (PCA), análisis factorial, aproximación de colectores uniforme y proyección para la reducción de dimensiones (UMAP), así como incrustación de vecinos estocásticos distribuidos en t (t-SNE) [8]. Estas técnicas se explotan con menos frecuencia en los estudios radiómicos. Los enfoques basados en el aprendizaje profundo para el aprendizaje no supervisado incluyen autocodificadores y redes adversarias generativas, que se pueden utilizar para la reducción de la dimensionalidad, la eliminación de ruidos, la estandarización y el aumento de datos [9-11].
Transferencia de enfoques de IA a la medicina nuclear
A pesar de ser cuantitativas por naturaleza, las imágenes de medicina nuclear son, en la mayoría de las publicaciones clínicas, ensayos clínicos y, obviamente, la práctica clínica de rutina, explotadas de una manera muy restrictiva (es decir, analizadas principalmente visualmente o semicutanicamente) [12]. Cuando los radiólogos o los médicos de medicina nuclear se basan principalmente en el reconocimiento de un puñado de características semánticas, por ejemplo, para detectar y describir tumores, miles de características agnósticas pueden extraerse potencialmente de imágenes médicas [13], incluyendo algunas que ni siquiera son visibles para un ojo capacitado por expertos [14]. Esta complejidad dentro de las imágenes médicas que se extienden más allá del alcance del cerebro humano es susceptible de un análisis por enfoques de ML y DL que revelará la información adicional que las imágenes pueden contener. El campo de Radiomics ha progresado desde una selección directa de características predefinidas que se pueden usar solas o en combinación como entradas en clasificadores de ML, hasta obtener características aprendidas indirectas sin definición a priori utilizando la metodología basada en datos de DL [15].
Las trampas de la IA en la medicina nuclear
Gestión de datos
Las directrices de Buenas Prácticas Clínicas (GCP) y de Buenas Prácticas de Laboratorio (GLP) definen cómo se llevarán a cabo procesos clínicos estandarizados y de investigación médica de alto nivel para lograr datos de alta calidad, confiables y reutilizables [16]. Sin embargo, la comprensión de cómo y en qué medida tales directrices han sido seguidas por grupos de investigación particulares es difícil de mantener. Si bien las revistas de alto impacto requieren informar ciertos aspectos de los pasos de procesamiento en línea con las directrices anteriores, la publicación de datos de investigación representa diferentes prácticas. Muchas revistas no hacen que la publicación de datos sea obligatoria, sin embargo, incluso si los datos son obligatorios para ser publicados, no hay garantía de que haya sido revisada adecuadamente por pares [17]. Este fenómeno hace que la mayoría de los estudios médicos relacionados con la IA sean difíciles de reproducir por otros grupos de investigación en sus propios conjuntos de datos. Se están elaborando recomendaciones actuales para que los datos sean FAIR (es decir, que se puedan encontrar, sean accesibles, interoperables y reutilizables) en dichas investigaciones [18, 87].
Propiedades de los datos de imagen
Las propiedades típicas de los datos de imágenes complican aún más su análisis exitoso con la IA. Debido al hecho de que varias imágenes y protocolos clínicos cambian con el tiempo, incluso dentro de un solo centro, una cohorte de pacientes retrospectivo puede representar registros de datos faltantes, no homogéneos o no estructurados. Por lo tanto, los médicos que suministran los datos para el análisis de IA a menudo deben eliminar los casos incompletos de la base de datos recopilada, lo que puede reducir drásticamente la cantidad de datos explotables a un nivel insuficiente para entrenar algoritmos complejos de IA [19]. Además, los datos en el campo a menudo están desequilibrados, ya que, por ejemplo, los subtipos de enfermedades o eventos de resultado adversos no se presentan típicamente con la misma aparición en la población de pacientes dada [20]. Los datos desequilibrados son una de las principales razones por las que los modelos predictivos establecidos por la IA pueden dar lugar a un bajo rendimiento sobre un subgrupo de enfermedades minoritarias [21], especialmente si no se aplicaron enfoques adecuados de gestión de desequilibrios [22]. La naturaleza desequilibrada de los subgrupos de datos es particularmente cierta para los tumores, donde la imagen híbrida desempeña un papel destacado en las fases de detección y caracterización [23]. Los datos pueden variar entre los centros y con el tiempo también, por ejemplo, debido a los diferentes procesos metabólicos del cuerpo humano presentados en las imágenes de PET, especialmente si los pacientes se han sometido a diferentes tratamientos antes de las imágenes [24].
Datos multicéntricos
Los datos multicéntricos son generalmente de difícil acceso y procesamiento de una manera normalizada. En primer lugar, hay un cierto elemento de renuencia presente en la mayoría de los médicos y algunos científicos de la imagen para compartir datos en general. En segundo lugar, las reglas locales del hospital y los procesos de intercambio pueden parecer demasiado complicados y lentos, lo que retrasa la investigación exitosa basada en colaboraciones multicéntricas. Y por último, incluso si la voluntad de compartir está presente y los datos pasaron por procesos de anonimización locales, los datos de imágenes aún pueden revelar ciertas características de los individuos [25]. Todos estos factores juntos, especialmente a la luz de los procedimientos altamente apreciados del reglamento general de protección de datos, parecen desafiar el establecimiento de un conjunto de datos de imágenes multicéntrico disponible públicamente, lo que podría impulsar la investigación relacionada con la IA [2]. A pesar de que algunas bases de datos proporcionan pequeños datos de imágenes multicéntricas, como la TCIA (https://www.cancerimagingarchive.net/), la falta de datos multicéntricos generalmente se considera una de las principales razones por las que solo se han integrado pocas soluciones de IA en la práctica de rutina clínica [26].
Evaluación
Las soluciones de IA existentes que se aplican en el campo de la investigación de imágenes funcionales e híbridas se basan en radiómicas o DL con un sobrepeso actual de enfoques de radiómica [24]. Hay múltiples razones para este fenómeno. Por un lado, los modelos de radiómica son más simples, construidos sobre las llamadas características diseñadas o manualmente hechas a mano [27], lo que hace que su aplicabilidad y interpretabilidad sean más fáciles que los marcos DL más complejos. En segundo lugar, dado el hecho de que la mayoría de los grupos de investigación solo tienen acceso a pequeños conjuntos de datos, los modelos de radiómicas simples, que tienen menos parámetros desconocidos para optimizar, pueden capacitarse mejor utilizando conjuntos de datos de pequeño tamaño. Por el contrario, los enfoques de DL parecen ser alternativas poderosas hacia la radiomética, pero como tienen parámetros mucho más desconocidos para identificar y optimizar durante el proceso de entrenamiento, por lo tanto, requieren muestras de datos más grandes para un entrenamiento adecuado [28]. Independientemente de la elección de los enfoques de IA, los estudios de IA de imágenes funcionales e híbridas son generalmente propensos a establecer modelos sobreequipados que operan con datos pequeños de un solo centro [29].
También hay un cierto elemento de sesgo en la selección de los métodos de IA, que generalmente está impulsado por la experiencia previa y la familiaridad de las herramientas de IA o la popularidad de ciertos métodos de IA que pueden ser subóptimos para un estudio determinado. El “teorema del almuerzo sin comida gratis” establece que no hay un enfoque de IA superior sobre todo en general, pero el enfoque de IA ideal es más bien específico de datos y aplicaciones [30,31]. Esto sugiere que se probarán múltiples modelos de IA sobre los datos disponibles para comprender las características subyacentes de los datos y la aplicabilidad del método de IA. Sin embargo, hasta la fecha, este enfoque rara vez está presente en la literatura correspondiente [24]. Además, diferentes métricas de rendimiento, como el área bajo la curva característica operativa del receptor (AUC), la curva característica operativa del receptor (ROC), el coeficiente de correlación de Matthews (MCC) o la puntuación F1/F2 también dificultan la comparación entre diferentes grupos de investigación, especialmente porque las diferentes herramientas de IA tienden a utilizar diferentes métricas para el proceso de entrenamiento [32]. La falta de validación cruzada adecuada en estudios de un solo centro es una de las principales preocupaciones de los modelos predictivos impulsados por la IA [24]. A pesar de que las capacidades de procesamiento principales de hoy en día pueden permitir realizar una validación cruzada avanzada, por ejemplo, una alta validación cruzada basada en el recuento de pliegues de Monte Carlo de modelos radiómicos [33], esta práctica rara vez se sigue en la literatura correspondiente, lo que podría representar la mayoría de los trabajos al nivel de análisis de correlación avanzada, en lugar de modelos predictivos clínicamente aplicables [34]. De manera similar, dado que el entrenamiento de DL puede llevar mucho tiempo, la gran mayoría de los estudios que utilizan DL realizan un enfoque de validación de entrenamiento uniplegos o un recuento de validación cruzada muy bajo, lo que deja espacio para el sesgo de selección y altas variaciones de los rendimientos predictivos relacionados con la DL. Debido a los desafíos mencionados anteriormente, la gran mayoría de la investigación relacionada con PET e imágenes híbridas centrada en la IA son solo un centro [35], que por sí solo potencialmente introduce una sobreestimación de modelos predictivos [36].
Por último, la falta de interpretabilidad y explicabilidad de los modelos predictivos es una preocupación general para los médicos en lo que respecta a la capacidad de interpretación de la transparencia del modelo en sí y la explicabilidad con los métodos post-hoc utilizados para hacer que los modelos complejos sean más comprensibles [88]. Los modelos predictivos de IA pueden considerarse como “cajas negras” a partir de las cuales es posible comprender los mecanismos básicos subyacentes y recopilar nuevos conocimientos [37]. Lo mismo es cierto para la salida de modelos predictivos, que normalmente se basan en la probabilidad y necesitan un procesamiento adicional. Por el contrario, existe un deseo inherente de simplificar los resultados de modelos predictivos complejos al nivel de los resultados “verde-amarillo-rojo”, que pueden desafiar el establecimiento de un proceso de decisión de tratamiento verdaderamente personalizado [88].
La promesa de la IA en la medicina nuclear
Despite these challenges, AI will, without any doubt, transform healthcare. It has the potential to play a pivotal role in personalized/precision/systems medicine, where interpreting large amounts of multi-modal data into a single model or Clinical Decision Support System (CDS) might be central. AI shows great promise in the field of nuclear medicine and is already setting new standards. At this point, there is no universal nuclear medicine AI algorithm that can replace all parts of the medical imaging workflow. The research has therefore been focused on developing specialized alternatives to each task. A typical medical imaging workflow can be divided into planning, image acquisition, interpretation, and reporting [38]. AI has the potential to assist, guide and/or replace elements in all these steps. In the following, we will examine the areas of acquisition, interpretation, and reporting, where AI is already now being utilized.
Image acquisition
En lugar de centrarse en reemplazar a los médicos mediante la predicción directa de un resultado de la enfermedad, se ha centrado en los enfoques de apoyo, como la utilización de la IA para mejorar la calidad de la imagen [39]. Esta es típicamente una tarea de imagen a imagen, donde la ventaja es que los datos de entrenamiento son típicamente fácil y ampliamente accesibles. Dada una imagen de alta calidad, se puede simular una imagen de baja calidad. Tal esquema de entrenamiento permite la generación de datos emparejados perfectamente co-registrados para el entrenamiento. Por lo tanto, es posible construir y entrenar un modelo que predice una imagen de alta calidad a partir de una entrada de baja calidad, lo que permite protocolos de adquisición de imágenes más rápidos, reducción de ruido y una menor exposición a la radiación, en beneficio tanto de los pacientes como del personal.
En lugar de centrarse en las métricas cuantitativas de calidad de imagen, debe centrarse en la precisión clínica para que estos métodos se implementen en entornos de rutina hospitalarios. Si se logra la validación, entraremos en una nueva era para imágenes PET de dosis bajas [40]. Un dominio en el que el PET de dosis baja parece estar listo para la implementación clínica es la evaluación de la demencia. Chen et al. mostraron que una lectura de una imagen reducida en ruido con solo el 1% del radiotrazador original tenía una alta precisión para la definición del estado amiloide (89%), que era similar a la reproducibilidad intra-lector de las imágenes de dosis completa (91%).
En la imagen de PET híbrida, uno de los mayores desafíos ha sido lograr una corrección de atenuación precisa sin TC. Varios estudios han demostrado la capacidad de las redes basadas en DL para generar TC artificial a partir de solo la entrada de MRI, o incluso directamente desde el PET no corregido por atenuación hasta la atenuación y el PET corregido por dispersión, evitando la necesidad de AC todos juntos [43].
Interpretación y presentación de informes
Hay una gran parte de la investigación de IA en medicina nuclear con el objetivo de reemplazar las tareas manuales, como la delineación. Las delineaciones automatizadas podrían liberar al médico hasta tareas de mayor valor [44], o parte de la investigación que les permitiría recopilar más datos. Existen varios desafíos de segmentación automática para, por ejemplo, tumores cerebrales [45], nódulos pulmonares [46] o lesiones de accidente cerebrovascular isquémico [47,48]. Pocos de los métodos reportados se han trasladado a la rutina clínica a pesar de los resultados impresionantes en algunas poblaciones de pacientes, probablemente debido a la aparición extremadamente diversa de estas enfermedades, que requieren grandes cantidades de datos de entrenamiento etiquetados que surgen de varios centros [38].
Otra gran área de investigación es la detección temprana de la enfermedad de Alzheimer y el deterioro cognitivo leve utilizando DL [49–51]. Ding et al. mostraron cómo la DL fue capaz de superar a los intérpretes humanos para el diagnóstico temprano de la enfermedad de Alzheimer con un 82% de especificidad y una sensibilidad del 100% (AUC: 0,98) [52]. Del mismo modo, Kim et al. utilizaron 54 escaneos normales y 54 escaneos Anormales de 123 I-ioflupano SPECT para entrenar una red que predice el diagnóstico de la enfermedad de Parkinson [53], con una sensibilidad alcanzada del 96% con una especificidad del 67% (AUC: 0,87).
En oncología, existe la necesidad de predecir la supervivencia general o la respuesta a la terapia. Esta tarea a menudo no se puede lograr con imágenes solas, por lo que varios estudios incorporan características no de imagen. Papp et al. combinaron características de PET, características histopatológicas y características del paciente en un modelo de ML para predecir la supervivencia de 36 meses en 70 pacientes con gliomas negativos para el tratamiento (AUC: 0,9) [54]. Xiong et al. demostraron la viabilidad de predecir el control de la enfermedad local con quimiorradioterapia en pacientes con cáncer de esófago usando características radiómicas de 18 F-FDG PET/CT [55], y Milgron et al. encontraron que cinco características extraídas de sitios mediastinales son altamente predictivas de la enfermedad refractaria primaria en 251 pacientes con linfoma de Hodgkin en estadio I o II [56].
El principal inconveniente para las redes que predicen la evolución de la enfermedad es la cantidad de datos de entrenamiento disponibles. Mientras que la traducción de imagen a imagen, p. ej. La generación de MR a CT, esencialmente tiene un valor de salida para cada valor de entrada, la predicción de la enfermedad solo tiene la misma etiqueta única para toda la entrada de datos. Esto aumenta significativamente la cantidad de datos de entrenamiento requeridos, dependiendo de la complejidad de la enfermedad, a menudo a un nivel que un solo departamento no puede proporcionar. Una forma de superar la falta de datos es generando bases de datos compartidas con datos de múltiples hospitales. Un enfoque de estandarización es esencial para una implementación exitosa, especialmente para la resonancia magnética, donde hay un gran número de secuencias en uso e incluso variaciones entre escáneres para la misma secuencia. El trabajo de Gao et al. ha demostrado que esto se puede superar, de nuevo mediante el uso de un DL para transformar las imágenes de entrada de MR en una imagen de MR estandarizada [9]. Del mismo modo, las características radiómicas en sí mismas también se pueden armonizar para lograr una mejor validación cruzada en un entorno multicéntrico [57].
Modelos de Transformadores y Modelos de Lenguaje Grande (LLMs)
Los modelos de lenguaje grandes (LLM), construidos sobre arquitecturas de transformadores, se exploran cada vez más en la investigación de la medicina nuclear para tareas como la interpretación de imágenes, la redacción de informes y el apoyo a la decisión clínica. Si bien aún no se utiliza en la práctica clínica, los estudios han demostrado su capacidad para analizar los datos de imágenes de PET y SPECT, ayudar a correlacionar los hallazgos con los antecedentes de los pacientes y sugerir información de diagnóstico. Investigaciones recientes también muestran que los LLM pueden responder con éxito a las preguntas de los exámenes de la junta en radiología y cardiología nuclear, destacando su potencial en educación médica y apoyo a la decisión. Además, los transformadores de visión (ViT) están siendo investigados para el análisis de imágenes nucleares, mostrando ser prometedores para mejorar la detección y clasificación automatizada de lesiones. A medida que continúa el desarrollo, los transformadores pueden contribuir a reducir la variabilidad del diagnóstico y a la racionalización de los flujos de trabajo en medicina nuclear. Los transformadores también son candidatos ideales para construir modelos de base multimodal que, en lugar de predicciones específicas de tareas, son capaces de llevar a cabo una amplia gama de tareas, incluida la detección y clasificación de objetos en varios tipos de enfermedades. Si bien la promesa de modelos fundamentales está claramente presente [89], hasta la fecha, su aplicabilidad práctica a la luz del rendimiento general de la predicción, así como las necesidades de recursos, son temas de debate. Dado que el campo de los LLM y otras arquitecturas de transformadores están activos, actualmente, se desconoce qué arquitectura particular o esquema de modelo es mejor para construir modelos de base de alto rendimiento y clínicamente aplicables.
Mejores Prácticas
Standardized software tools
Standardized tools play an important role in facilitating universal applicability of predictive models by promoting reproducibility. Even though custom frameworks are sometimes used for performing data analysis in the field of nuclear medicine, there is a broad range of free and open-source software available that can help to improve the standardization of analysis workflows. The most commonly known AI frameworks include TensorFlow [58], Keras [59] and PyTorch for the development of DL-based predictive models [60]. For radiomics driven analysis, standardized frameworks include PyRadiomics [61], LIFEx [62], MITK [63], and MPRAD [64]. Additionally, there is a variety of tools and libraries for general-purpose ML including Scikit-learn [65] for pPython and rpart [66] as well as caret [67] for R. Oftentimes, custom code is required to use and extend pre-existing, standardized frameworks. In order to make maximum use of these implementations, they should be documented thoroughly and shared with the research community.
Standardized imaging protocols
Otro objetivo igualmente importante para la estandarización son los protocolos de formación de imágenes (multicéntricos) ya que la repetibilidad de las características de ML extraídas solo se puede garantizar si se sigue un protocolo unificado y amigable con la IA en la adquisición de imágenes. Como ejemplo, se han presentado configuraciones óptimas de protocolo PET que minimizan las variaciones multicéntricas de las características radiómicas en [68]. Además, se propuso la armonización de los dominios de las características de ComBat para hacer frente a las variaciones radiómicas multicéntricas [69]. Además de adoptar las directrices existentes de EANM y EANM Research Ltd. Los programas de acreditación (EARL), las futuras directrices de EANM y los programas de acreditación de EARL también deben centrarse en los requisitos impulsados por la IA [99].
Manejo de datos limitados
Algunas herramientas se centran en el manejo de pequeñas cantidades de datos y la mejora de la generalización de los modelos predictivos creados. El aumento de datos [22], por ejemplo, consiste en generar datos sintéticos adicionales con los mismos patrones que las imágenes innativas. Las técnicas simples de aumento de datos incluyen procedimientos como voltear, rotación y traducción de las imágenes de entrada. Técnicas más sofisticadas incorporan métodos como las redes adversarias generativas (GAN) para crear imágenes sintéticas completamente nuevas con respecto a los patrones clave [10,70,71]. En medicina nuclear, se ha demostrado que los datos de imágenes sintéticas son indistinguibles de imágenes reales por lectores expertos y se han utilizado para mejorar los modelos de diagnóstico. Cabe señalar que el aumento de datos tiene que ser restringido a imágenes que se utilizan para entrenar un modelo predictivo, no para su validación o prueba. Otra técnica aplicada con éxito adecuada para pequeñas cantidades de datos es el aprendizaje de transferencia [72,73]. El aprendizaje por transferencia es un concepto general de ML que es la adaptación especialmente útil de un modelo de DL que previamente se había entrenado en datos con una mayor cantidad de datos. El principio es reutilizar las primeras capas de la red entrenadas con una gran cantidad de datos, ya que las características extraídas por estas primeras capas resaltan patrones generalizables como puntos o bordes, incluso a través de dominios (incluyendo imágenes no médicas a médicas). Shin et al. demostraron el beneficio de confiar en el aprendizaje de transferencia que surge de imágenes no médicas para problemas de detección asistida por computadora (CADe), y consistentemente lograron un mejor rendimiento en comparación con el entrenamiento de las redes desde cero [74]. Dependiendo de la similitud y del modelo anterior, se pueden transferir diferentes números de capas.
IA Explicable
En general, el campo de la IA está cambiando actualmente del uso de modelos de caja negra a tuberías de análisis interpretables. Las técnicas actuales para encubrir las características de los modelos predictivos incluyen mapas de activación, visualizaciones de filtros, mapas de activación máximo y ponderación de características [75]. Sin embargo, se debe tener cuidado al interpretar los resultados de estas técnicas solo [76,75].
La IA explicable (XAI) tiene como objetivo proporcionar transparencia en la toma de decisiones impulsada por la IA, convirtiéndola en una herramienta valiosa en contextos médicos. Sin embargo, los métodos actuales se enfrentan a importantes desafíos. Muchas técnicas XAI existentes, tales como técnicas basadas en mapas de calor (por ejemplo, mapas de activación de clase) y atribuciones de características (p. ej. Las explicaciones aditivas de Shapley) ofrecen solo explicaciones superficiales que pueden no reflejar de manera confiable cómo un modelo llega a sus conclusiones. La investigación ha demostrado que los médicos y los usuarios de IA a menudo malinterpretan estas explicaciones, lo que podría conducir a una confianza o exceso de confianza en las predicciones de IA. En lugar de depender únicamente de la explicabilidad, algunos argumentan que la validación rigurosa debe priorizarse para garantizar la seguridad y confiabilidad de la IA. Esto se puede lograr mediante pruebas externas y evaluaciones de desempeño en el mundo real. Si bien XAI sigue siendo valioso para la auditoría de modelos y la detección de sesgos, su papel en la toma de decisiones clínicas aún es incierto y requiere un mayor refinamiento antes de que pueda integrarse efectivamente en la práctica médica.
Esquema de evaluación del desempeño
La elección de las métricas de rendimiento es fundamental para comunicar y comparar los resultados de los estudios basados en ML. A menudo, la opción más efectiva es reportar múltiples métricas, como AUC, precisión (equilibrada), sensibilidad, especificidad, valor predictivo positivo y valor predictivo negativo para mostrar las capacidades del modelo desde tantos ángulos como sea posible. Además, se debe informar cómo se obtuvieron estas métricas, como el esquema de validación cruzada. En un caso ideal con un conjunto de datos lo suficientemente grande, el esquema de evaluación más ideal requiere la separación del conjunto de datos disponible en tres grupos: un conjunto de entrenamiento, una validación y un conjunto de pruebas independiente. El conjunto de entrenamiento se utiliza para construir el modelo. Se pueden construir varios modelos con distintos hiperparámetros utilizando este conjunto de entrenamiento y los modelos resultantes se pueden validar obteniendo el rendimiento predictivo utilizando el conjunto de datos de validación. Sin embargo, como el conocimiento del conjunto de validación se incorpora en el modelo, se debe emplear otro conjunto de prueba independiente. En consecuencia, el rendimiento del modelo con el mejor rendimiento de validación se evalúa con el conjunto de prueba independiente. El modelo resultante no debe ajustarse más en función del rendimiento del conjunto de prueba dado, ya que esto conduciría a un sobreajuste hacia el conjunto de prueba y, en consecuencia, a una sobreestimación del rendimiento del modelo. Si el modelo se mejora más, se debe añadir otro conjunto de datos para su evaluación.
Consideraciones sociales y éticas
Los métodos de IA buscan resolver problemas individuales dentro de una tarea específica. Si bien pueden sobresalir en la interpretación de la imagen y la información contextual, hasta ahora no son capaces de hacer asociaciones de la manera en que lo hace un cerebro humano y no pueden reemplazar a los médicos por todas las tareas que realizan [12]. Visvikis et al., y también Bosbach et al., concluyen que la IA aún no ha alcanzado el mismo nivel de rendimiento que un experto humano en todas las situaciones, y por lo tanto, un médico de medicina nuclear artificial completo todavía pertenece al dominio de la ciencia ficción. Sin embargo, es probable que el papel de los médicos y los médicos de medicina nuclear evolucionen a medida que estas nuevas técnicas se integren en su práctica [77].
Mejora de la calidad del diagnóstico y la terapia a través de CDS
Ahora se están desarrollando modelos de IA para que sean cada vez menos cajas negras que carecen de interpretabilidad y transparencia, que anteriormente era la razón más importante para que los pacientes y los médicos tuvieran una actitud escéptica hacia esta tecnología. De hecho, es comprensible desconfiar de las interfaces desconocidas y tener una vacilación para dar a una máquina o algoritmo matemático la responsabilidad de tomar decisiones críticas para la vida [9,78]. Esta es también una razón por la cual la investigación actual se centra en los sistemas de apoyo en lugar de los sistemas que toman decisiones de manera autónoma, como los automóviles autónomos. A menos que se hagan muchas comparaciones entre los médicos y las máquinas predictivas, en medicina es el humano más la máquina en lugar de la máquina [79]. Además, es importante mencionar que la cuantificación de la incertidumbre tiene que aportar confianza y credibilidad en los resultados de la aplicación de los métodos de IA. Por esta razón, un CDS debe ser visto como una herramienta extendida tal como un estetoscopio para el diagnóstico de pacientes que un médico puede utilizar para juzgar una decisión terapéutica. En paralelo, los datos vastos y heterogéneos generados continuamente en las clínicas representan un gran activo tanto para la atención al paciente como para la investigación. El campo de la informática (bio)médica en rápida evolución ha contribuido con una gran cantidad de conceptos, algoritmos y estándares para aprovechar este potencial. Sin embargo, las intrincadas relaciones entre varias fuentes de datos, las terminologías especializadas y las innumerables implementaciones en todas las instituciones plantean obstáculos significativos para aquellos que buscan participar en estos datos. Los puntos de vista recientes de la investigación en informática médica en Alemania han esbozado un conjunto de 10 temas críticos destinados a mejorar la comunicación interdisciplinaria entre médicos, expertos en computación, experimentalistas, estudiantes y representantes de pacientes [90]. Este marco está diseñado para reducir las barreras de entrada y catalizar las colaboraciones en múltiples niveles.
Ribeiro et al. demostraron que las explicaciones de modelos son muy útiles en tareas relacionadas con la confianza en los dominios textual y de imagen tanto para usuarios expertos como no expertos (por ejemplo, decidir entre modelos, evaluar la confianza, mejorar o rechazar modelos no confiables y obtener información significativa sobre las predicciones) [80]. Sin embargo, interpretar un modelo únicamente a nivel técnico no es lo mismo que interpretar su decisión sobre la biología subyacente y las consecuencias terapéuticas. Sin embargo, es un buen comienzo para los médicos y los pacientes encontrar explicaciones y ganar confianza en las predicciones de modelos de IA casi inevitables [81]. Un aspecto importante que podría tenerse en cuenta para una extensión es la combinación de enfoques de IA y modelos mecánicos tradicionales orientados a la investigación (por ejemplo, modelos de ratones in vivo y experimentos celulares in vitro como transcriptómica espacial) que se utilizan para identificar también el origen de una enfermedad y no solo predecir su resultado, porque para decisiones confiables es necesario investigar adecuadamente sus causas [82].
Cambiar la relación médico-paciente con las decisiones apoyadas por la IA
El gran objetivo es que una IA integradora permita a los médicos pasar más tiempo en discusiones personales con los pacientes, mientras que deja cálculos estadísticos que consumen mucho tiempo y predicciones para el CDS [83]. Por lo tanto, tener más tiempo en el lado del paciente podría conducir a una mejor atención, lo que mejora la confianza del paciente que es fundamental para la relación entre los profesionales médicos y los pacientes [84]. Sin embargo, los médicos también deben tener cuidado de que el CDS asistido por IA no obstruya la relación paciente-médico, porque tienen que darse cuenta de que la responsabilidad legal y moral de las decisiones tomadas, todavía se encuentran con ellos. Por lo tanto, los implementadores pueden necesitar asegurarse de que los médicos estén adecuadamente capacitados sobre los beneficios y las trampas de los CDS asistidos por IA y aplicarlos en la práctica para aumentar en lugar de reemplazar sus capacidades y deberes de toma de decisiones clínicas a los pacientes [84].