Un transformador de visión fundamental mejora el rendimiento de diagnóstico para electrocardiogramas

npj Digital Medicine volumen 6, Número de artículo: 108 (2023) Citar este artículo

Detalles de métricas

El electrocardiograma (ECG) es una modalidad diagnóstica ubicua. Las redes neuronales convolucionales (CNN) aplicadas al análisis de ECG requieren tamaños de muestra grandes, y los enfoques de aprendizaje de transferencia para problemas biomédicos pueden dar como resultado un rendimiento subóptimo cuando el entrenamiento previo se realiza en imágenes naturales. Aprovechamos el modelado de imágenes enmascaradas para crear un modelo de transformador basado en visión, HeartBEiT, para el análisis de forma de onda de electrocardiograma. Entrenamos previamente este modelo en 8,5 millones de ECG y luego comparamos el rendimiento con las arquitecturas CNN estándar para el diagnóstico de miocardiopatía hipertrófica, fracción de eyección del ventrículo izquierdo baja e infarto de miocardio con elevación del segmento ST utilizando diferentes tamaños de muestra de entrenamiento y conjuntos de datos de validación independientes. Descubrimos que HeartBEiT tiene un rendimiento significativamente mayor en tamaños de muestra más bajos en comparación con otros modelos. También encontramos que HeartBEiT mejora la explicabilidad del diagnóstico al resaltar las regiones biológicamente relevantes del EKG frente a las CNN estándar. Los modelos de transformadores preentrenados específicos de dominio pueden superar el rendimiento de clasificación de los modelos entrenados en imágenes naturales, especialmente en regímenes de datos muy bajos. La combinación de la arquitectura y dicho entrenamiento previo permite una explicación granular más precisa de las predicciones del modelo.

El electrocardiograma (ECG) es un registro a nivel de la superficie corporal de la actividad eléctrica dentro del corazón. Debido a su bajo costo, no invasividad y amplia aplicabilidad a la enfermedad cardíaca, el ECG es una investigación omnipresente y cada año se realizan más de 100 millones de ECG solo en los Estados Unidos1 en varios entornos de atención médica. Sin embargo, el ECG tiene un alcance limitado ya que los médicos no pueden identificar patrones representativos de la enfermedad de manera consistente, especialmente para condiciones que no tienen criterios de diagnóstico establecidos, o en casos en los que dichos patrones pueden ser demasiado sutiles o caóticos para la interpretación humana.

El aprendizaje profundo se ha aplicado a los datos de ECG para varios casos de uso de diagnóstico y pronóstico2,3,4,5,6. La gran mayoría de este trabajo se ha construido sobre redes neuronales convolucionales (CNN)7. Al igual que otras redes neuronales, las CNN son construcciones de alta varianza8 y requieren grandes cantidades de datos para evitar el sobreajuste9. Las CNN también deben diseñarse específicamente para adaptarse a la dimensionalidad de los datos entrantes, y se han utilizado para interpretar ECG tanto como formas de onda 1D como imágenes 2D10.

En este contexto, interpretar los ECG como imágenes 2D presenta una ventaja debido a los modelos preentrenados ampliamente disponibles que a menudo sirven como puntos de partida para tareas de modelado en conjuntos de datos más pequeños11. Esta técnica se describe como aprendizaje de transferencia en el que un modelo que se entrena en un conjunto de datos más grande, posiblemente no relacionado, se ajusta en un conjunto de datos más pequeño que es relevante para un problema12. El aprendizaje por transferencia es especialmente útil en el cuidado de la salud, ya que los conjuntos de datos tienen un tamaño limitado debido a las cohortes limitadas de pacientes, la rareza de los resultados de interés y los costos asociados con la generación de etiquetas útiles. Como resultado, los modelos de visión entrenados primero de manera supervisada en imágenes naturales13 a menudo forman la base de los modelos utilizados en entornos de atención médica. Desafortunadamente, transferir el aprendizaje con tales imágenes naturales no es una solución universal, y se sabe que produce resultados subóptimos cuando existen diferencias sustanciales en los conjuntos de datos de preentrenamiento y ajuste14.

Las redes neuronales basadas en transformadores utilizan el mecanismo de atención15 para establecer y definir relaciones entre unidades discretas de datos de entrada conocidas como tokens16. Un beneficio significativo que permiten los transformadores es el aprendizaje no supervisado de grandes corpus de datos sin etiquetar para aprender relaciones entre tokens y luego utilizar esta información para otras tareas posteriores16. Debido a la facilidad con la que el texto no estructurado se puede dividir en tokens, los transformadores han tenido un gran éxito en las tareas de procesamiento del lenguaje natural (NLP)17,18. El trabajo reciente ha ampliado la funcionalidad de dichos modelos a tareas basadas en la visión, lo que ha llevado al advenimiento del transformador de visión16,19.

Los primeros transformadores de visión se entrenaron previamente en inmensos conjuntos de datos etiquetados y luego se ajustaron en conjuntos de datos más pequeños para indicar un mejor rendimiento sobre las CNN en la clasificación de imágenes naturales20. Más recientemente, la representación del codificador bidireccional a partir del enfoque de Image Transformers (BEiT) ha permitido aprovechar grandes conjuntos de datos sin etiquetar para redes neuronales de transformadores de preentrenamiento21. Este enfoque consiste en convertir partes de una imagen de entrada en tokens o parches discretos. Dichos tokens pueden considerarse análogos a las palabras dentro de una oración y usarse para entrenar previamente a un transformador de la misma manera que un modelo de lenguaje (Fig. 1). Dado que los transformadores consideran dependencias globales22 entre todas las características de las entradas proporcionadas, dicho entrenamiento previo puede ser especialmente ventajoso para los ECG. Ciertos patrones patológicos como el S1Q3T3 ocurren en diferentes partes de una grabación23, y un modelo que considera solo regiones contiguas puede pasarlos por alto por completo.

Pre-entrenamiento del modelo HeartBEiT. (1) Cada ECG original se divide en parches de 14 × 14 (2) de 16 × 16 píxeles. Estos parches están tokenizados y algunos de ellos están enmascarados (3). El modelo Dall-E (4) actúa como tokenizador y convierte la imagen en tokens discretos (5) que luego forman parte del proceso de modelado de imágenes enmascaradas (6). Esto permite el entrenamiento previo de los módulos de atención del modelo HeartBEiT (7), y el modelo se puede usar para realizar ajustes e inferencias posteriores (8, 9) al agregar un cabezal de clasificación de perceptrón multicapa (10).

Creamos un modelo de transformador de visión entrenado previamente en un gran corpus de varios millones de ECG pertenecientes a una población diversa. Utilizamos este modelo para crear modelos especializados para casos de uso en los que puede haber poca información disponible. Luego comparamos los mapas de rendimiento y prominencia con los modelos de referencia sujetos a restricciones similares.

Incluimos 511 491 ECG totales de MSHS en el conjunto de entrenamiento o ajuste fino, 20 448 muestras de MSHS en pruebas y 1480 de Morningside en validación externa. La prevalencia de FEVI baja fue del 18% en el conjunto de entrenamiento (Tabla 1).

HeartBEiT superó a otros modelos CNN en clasificación de FEVI baja en todas las fracciones de datos de entrenamiento (Fig. 2; Tabla complementaria 1). Al 1 % de los datos de entrenamiento (5114 muestras), el rendimiento (AUROC: 0,86, IC del 95 %: 0,86–0,86) fue un 28,4 % mejor que el modelo ViT-B/16 (AUROC: 0,67, IC del 95 %: 0,67–0,67), 5,2 % mejor que EfficientNet-B4 (AUROC: 0,82, IC del 95 %: 0,82–0,82) y 2,4 % mejor que ResNet-152 (AUROC: 0,84, IC del 95 %: 0,84–0,84) en pruebas internas (Fig. 2 complementaria ). Estas tendencias se mantuvieron durante la validación externa con HeartBEiT (AUROC: 0,87, IC del 95 %: 0,87–0,87) superando a las CNN en un 4–18 % (Figura 3 complementaria).

a Rendimiento de las pruebas internas (4 instalaciones de Mount Sinai). b Diferencia de rendimiento de las pruebas internas. c Rendimiento de la validación externa (pacientes de Morningside). d Diferencia de rendimiento de la validación externa. La línea discontinua roja en (b) y (d) indica el rendimiento de HeartBEiT.

Utilizando AUPRC como métrica, al 1 % de los datos de entrenamiento y frente a una prevalencia del 18,5 % en la cohorte de prueba interna, el modelo HeartBEiT (AUPRC: 0,59, IC del 95 %: 0,59–0,59) superó a ViT-B/16 (AUPRC: 0,31, IC del 95 %: 0,31–0,31) en un 90,3 %, EfficientNet-B4 (AUPRC: 0,48, IC del 95 %: 0,48–0,48) en un 22,9 % y ResNet-152 (AUPRC: 0,52, IC del 95 %: 0,52–0,52) en un 13,5% (Tabla complementaria 2, Figuras complementarias 4–6). En la cohorte de validación externa, HeartBEiT tuvo el AUPRC más alto de 0,73 (IC del 95 %: 0,73–0,73).

Con el 100 % de los datos de entrenamiento (511 491 muestras), el rendimiento de todos los modelos se volvió más similar. En las pruebas internas, no hubo diferencia de rendimiento entre HeartBEiT, EfficientNet-B4 y ResNet-152, y se observó una diferencia de 1,1 a 4,5 % en la validación externa para AUROC. Sin embargo, para AUPRC, HeartBEiT todavía tenía un rendimiento mejorado de 0-17,7 % en conjuntos de datos internos y externos.

El análisis GRAD-CAM demostró que las áreas alrededor de los complejos QRS de cada derivación se resaltaron en el 1 % de los datos de entrenamiento de HeartBEiT (Figura complementaria 7a). Cuando se implementó el 100% de los datos de entrenamiento, los focos se volvieron más pronunciados alrededor de los complejos QRS de la derivación I (Fig. 7b complementaria).

Afinamos el transformador HeartBEiT utilizando 78 831 ECG de cuatro hospitales del MSHS. Se realizaron pruebas en 20 448 ECG de estos hospitales y se usaron 3859 ECG de un grupo de pacientes de Morningside para la validación externa (Tabla 1). La prevalencia de MCH en el conjunto de entrenamiento fue del 38%.

HeartBEiT superó a los otros modelos en el diagnóstico de MCH en todas las fracciones de datos de entrenamiento (Fig. 3; Tabla complementaria 1). Al 1 % de los datos de entrenamiento, el rendimiento del modelo HeartBEiT en AUROC de 0,77 (IC del 95 %: 0,77–0,77) superó al de ViT-B/16 en un 26,2 % y al de EfficientNet-B4 y ResNet-152 en un 6,9 % en pruebas (Fig. 2 complementaria). Se observaron resultados similares para la validación externa con el modelo HeartBEiT que tenía un AUROC de 0,74 (95 % CI: 0,74–0,74), superando a ViT-B/16 (0,61, 95 % CI 0,61–0,61) en un 21,3 %, EfficientNet-B4 (0,69, IC del 95 %: 0,68–0,70) en un 7,2 %, y ResNet-152 (0,68, IC del 95 %: 0,68–0,69) en un 8,8 % (Fig. 3 complementaria).

Las diferencias en el rendimiento fueron mucho más profundas para AUPRC en el 1% de los datos de entrenamiento en uso (Tabla complementaria 2; Figura complementaria 8). Utilizando el 1 % de los datos de entrenamiento, frente a una prevalencia de resultados del 38,8 % en la cohorte de pruebas internas, el modelo HeartBEiT (AUPRC: 0,67, 95 %, IC: 0,67–0,67) superó el rendimiento de ViT-B/16 (AUPRC: 0,49, IC del 95 %: 0,49–0,49) en un 36,7 %, EfficientNet-B4 (AUPRC: 0,63, IC del 95 %: 0,63–0,63) en un 6,3 % y ResNet-152 (AUPRC: 0,64, IC del 95 %: 0,64–0,64) en un 4,7 % (Fig. 5 complementaria). En la validación externa, HeartBEiT siguió mostrando el mejor rendimiento con AUPRC de 0,64 (IC del 95 %: 0,64–0,64) (Figura 6 complementaria).

La ventaja de rendimiento de HeartBEiT se redujo gradualmente a medida que aumentaba la cantidad de datos de entrenamiento. En comparación con el 100 % de los datos de entrenamiento, la diferencia de rendimiento fue de hasta un 2,5 % en pruebas internas y un 3,9 % en validación externa para AUROC y hasta un 4,2 % y un 7,1 % para pruebas internas y validación externa, respectivamente, para AUPRC.

El análisis GRAD-CAM reveló que en el 1 % de los datos, los complejos QRS de las derivaciones I, V2 y V5 y el segmento ST de V6 se señalaron como regiones importantes para predecir la HCM mediante HeartBEiT (Figura complementaria 9a). Por el contrario, al 100 % de los datos de entrenamiento, las áreas clave identificadas por HeartBEiT se enfocaron más al comienzo de V5 (Figura complementaria 9b).

El conjunto de datos de PTB-XL contiene 21 799 ECG totales de 18 869 pacientes: 17 449 ECG se usaron para el ajuste fino y 4352 para probar el modelo. La prevalencia de STEMI fue de alrededor del 5,7% en el conjunto de entrenamiento y del 5,4% en el conjunto de prueba (Tabla 1).

Se observó que la ventaja de rendimiento de AUROC de HeartBEiT era mayor en fracciones más pequeñas de los datos de entrenamiento utilizados para el entrenamiento (Fig. 4; Tabla complementaria 1). En las pruebas internas, el AUROC de HeartBEiT fue de 0,88 (IC del 95 %: 0,88–0,89) con una mejora del rendimiento del 4,8–10 % en comparación con los otros modelos al 1 % de los datos de entrenamiento (Figura 2 complementaria). Esta ventaja cambió a aproximadamente 20,3 %, 1,1 % y 2,2 % en comparación con ViT-B/16, EfficientNet-B4 y ResNet-152, respectivamente, cuando se usaron todos los datos de capacitación disponibles (17 449 muestras).

a Rendimiento de las pruebas internas. b Diferencia de rendimiento de las pruebas internas. La línea roja discontinua en (b) indica el rendimiento de HeartBEiT.

Esta ventaja de rendimiento se hizo mucho más profunda para AUPRC, con HeartBEiT (AUPRC: 0,56, IC del 95 % 0,56–0,66) superando a ViT-B/16 (0,27, IC del 95 % 0,26–37) en un 107,4 %, ResNet-152 (0,47, IC del 95 %: 0,46–0,47) en un 19,1 % y EfficientNet-B4 (0,40, IC del 95 %: 0,40–0,41) en un 40,0 % con una fracción del 1 % de los datos de entrenamiento (Tabla complementaria 2; Figura complementaria 5; Figura complementaria 10 ). Sin embargo, al 100 % de los datos de entrenamiento, el rendimiento de HeartBEiT (AUPRC: 0,67, IC del 95 %: 0,66–0,67) se volvió no significativamente inferior al de EfficientNet-B4 (AUPRC: 0,68, IC del 95 %: 0,67–0,68).

Para la detección de STEMI, el transformador de visión ViT-B/16 exhibió inestabilidad en el entrenamiento al usar más del 10 % de los datos de entrenamiento mientras se mantenían constantes otros hiperparámetros, como la tasa de aprendizaje. Esta inestabilidad se observó solo para este resultado, y el rendimiento informado corresponde a las mejores métricas logradas antes de que los métodos de entrenamiento fallaran.

Los segmentos ST de cada derivación se destacaron como áreas de importancia según el análisis GRAD-CAM de HeartBEiT al 1 % de los datos de entrenamiento (Fig. 5). Al 100 % de los datos de entrenamiento, estas áreas indicadas por HeartBEiT se localizaron alrededor de los segmentos ST de las derivaciones V3 y V4 (Fig. 11 complementaria).

un ViT-B/16. b EfficientNet-B4. c ResNet-152. d HeartBEiT. HeartBEiT se localiza en los segmentos ST. Otros modelos son más difusos para resaltar características de importancia y pueden ser menos útiles clínicamente.

La distancia promedio de Wasserstein por pares para el conjunto de ECG frente a ECG fue de 2,14. En comparación, este valor fue 45,48 para el conjunto ImageNet frente a ImageNet y 128,44 para el conjunto ECG frente a ImageNet (Figura complementaria 12).

Usando 8,5 millones de ECG de 2,1 millones de pacientes recopilados durante un período de cuatro décadas, aprovechamos el modelado de imágenes enmascaradas para crear un modelo de transformador basado en visión (HeartBEiT) para datos de ECG que puede actuar como un punto de partida universal para la capacitación posterior sobre los resultados de interés. . Ajustamos este modelo contra dos resultados usando datos derivados de cuatro hospitales dentro del Sistema de Salud Mount Sinai, y modelos derivados validados externamente sobre datos de otro hospital. También ajustamos este modelo para la detección de STEMI utilizando datos de la base de datos PTB-XL disponible públicamente, y luego probamos el modelo derivado con un grupo de pacientes excluidos. En cada caso, nuestro modelo se comparó con dos CNN y otro transformador de visión, todos sujetos a las mismas condiciones de entrenamiento. Finalmente, evaluamos un aspecto adicional de la utilidad clínica de estos modelos mediante la creación de mapas de prominencia para las muestras de entrada.

El rendimiento de la red neuronal puede verse fuertemente influenciado por la cantidad de datos disponibles24, y el sobreajuste puede resultar fácilmente en regímenes de datos pequeños25. Sin embargo, los datos etiquetados seleccionados son un recurso escaso. Esto es especialmente cierto en el ámbito sanitario, en el que realizar pruebas en pacientes, detectar patologías de interés y recopilar datos sobre los resultados clínicos es laborioso y costoso. Además de los costos financieros de adquirir y etiquetar datos, el tiempo puede ser un factor adicional que impida la adquisición de conjuntos de datos más grandes. Durante los problemas emergentes de salud pública, como la reciente pandemia de COVID-19, es posible que haya pocos datos disponibles para el desarrollo de modelos útiles. En tales circunstancias, los modelos que pueden funcionar con una fracción de los datos requeridos para otros enfoques pueden ayudar a un diagnóstico y clasificación más rápidos y apropiados.

En todos los resultados, conjuntos de datos y métricas de rendimiento, HeartBEiT logró un rendimiento equivalente con un orden de magnitud menor (100 % frente a 10 %) de datos de entrenamiento". fue equivalente a otros modelos usando 10 veces más datos. Este rendimiento se mantuvo en la validación externa no solo para los modelos ajustados, sino también para el modelo pre-entrenado cuando se usó con un conjunto de datos completamente nuevo de un conjunto de datos independiente compuesto por un cohorte de pacientes separados geográficamente.

De especial importancia es la diferencia elevada en el rendimiento en el AUPRC, un mejor indicador del rendimiento en conjuntos de datos con un fuerte desequilibrio de clases en el que considerar AUROC de forma aislada puede ser menos útil. Dadas las tasas de eventos relativamente bajas, los conjuntos de datos médicos tienden a tener tales desequilibrios de clase. Por ejemplo, en la detección de STEMI con una prevalencia de resultados del 5,6 %, en el régimen de datos de entrenamiento del 1 %, HeartBEiT superó el AUPRC de las CNN en un 19,1 % y un 40 % respectivamente, al tiempo que duplicó el rendimiento del transformador de visión ImageNet. Estos resultados también indican que el entrenamiento previo con imágenes naturales no siempre es la solución más óptima para crear modelos relacionados con el cuidado de la salud, un hecho que se evidencia aún más por el grado de disparidad en la distancia promedio de Wasserstein entre las imágenes naturales y los ECG.

Una ventaja clínica emergente del uso de transformadores con el marco de explicabilidad descrito en este trabajo es la granularidad del mapeo de prominencia. Incluso a niveles similares de rendimiento, las CNN que se muestran tienden a fusionar áreas de importancia, ofuscando así los determinantes más fuertes de una predicción. En comparación, los mapas de prominencia para transformadores tienden a centrarse en estos determinantes. Tal explicabilidad granular puede ayudar tanto a los médicos a adoptar modelos de aprendizaje profundo como a comprender patologías para las que no existen pautas de diagnóstico en un ECG. Estos factores se demuestran bien para la detección de STEMI, donde el patrón patognomónico está bien establecido y el segmento ST se resalta constantemente incluso cuando se usa el 1% de los datos para el ajuste fino (Fig. 5). En el caso de la determinación de la FEVI, no existen pautas diagnósticas claras que puedan ayudar a los médicos humanos. En este caso, los mapas de prominencia tienden a centrarse en los complejos QRS que indican el vector neto de despolarización de la mayoría de la musculatura ventricular cardíaca y apuntan hacia la capacidad del transformador para centrarse en los mecanismos subyacentes a la enfermedad.

Nuestro trabajo debe ser considerado a la luz de ciertas limitaciones. Los transformadores tienden a ser muy intensivos en computación para el entrenamiento previo. Por lo tanto, estábamos limitados en el tamaño del modelo de transformador a 86 M de parámetros, así como en las dimensiones de los datos de entrada que podíamos utilizar. Sin embargo, creemos que este trabajo sirve como evidencia de la viabilidad y las ventajas de nuestro modelo HeartBEiT, y el trabajo futuro se ocupará de ampliar este modelo para permitir un mejor rendimiento antes de la implementación en vivo.

En conclusión, los modelos de transformadores preentrenados permiten una sólida clasificación de ECG basada en el aprendizaje profundo incluso en regímenes con datos muy limitados. Los mapas de prominencia granular, más específicos y de mejor calidad pueden ayudar a los médicos a aceptar las predicciones del modelo.

Utilizamos todos los datos de ECG disponibles de cinco hospitales dentro del Sistema de Salud Mount Sinai (MSHS) para entrenar previamente nuestro modelo. Estos hospitales (Mount Sinai Hospital, Morningside, West, Beth Israel y Brooklyn) atienden a una gran población de pacientes que refleja la diversidad demográfica de la ciudad de Nueva York. Los datos de ECG se recuperaron del sistema GE MUSE para los años 1980–2021, con un total aproximado de 8,5 millones de registros de ECG discretos para 2,1 millones de pacientes. Los datos de ECG se obtuvieron como archivos XML estructurados que contenían tanto formas de onda sin procesar como metadatos asociados con identificadores de pacientes, hora, lugar e indicación.

Para el ajuste fino específico del resultado del modelo, recolectamos etiquetas de verdad de campo para el valor de la fracción de eyección del ventrículo izquierdo (FEVI) de los informes de ecocardiograma disponibles. La tarea de modelado fue la clasificación de los pacientes para una FEVI ≤ 40%, que define insuficiencia cardíaca con fracción de eyección reducida26. También recopilamos etiquetas indicativas de un diagnóstico de miocardiopatía hipertrófica, un trastorno genético en el que las cámaras del corazón experimentan un aumento patológico de grosor que da como resultado la pérdida de la función cardíaca y la predisposición a arritmias fatales. Estas etiquetas se generaron mediante el procesamiento del lenguaje natural para analizar informes de ecocardiogramas no estructurados en busca de cualquier mención de "MCH"/"cardiomiopatía hipertrófica", con o sin calificadores intermedios con respecto a la naturaleza obstructiva de la patología.

Finalmente, utilizamos el conjunto de datos PTB-XL disponible públicamente para una validación externa adicional. Este conjunto de datos contiene 21 799 ECG de 18 869 pacientes desde octubre de 1989 hasta junio de 1996. Estos datos han sido anotados por dos cardiólogos y contienen etiquetas diagnósticas reales, como si un ECG indica un registro normal o cambios que sugieren isquemia aguda. Los registros de ECG de esta base de datos se utilizaron para ajustar modelos para la detección de infarto de miocardio con elevación del segmento ST (IAMCEST). Los STEMI son causados por la pérdida aguda del suministro de sangre al tejido cardíaco y pueden provocar una gran cantidad de complicaciones que van desde la pérdida de la función contráctil hasta la muerte.

Cada uno de los ECG utilizados en este estudio contiene datos de forma de onda registrados de una de las doce derivaciones, y cada derivación representa una perspectiva diferente de la actividad eléctrica del corazón. Ambos conjuntos de datos contienen ECG con 5 o 10 s de datos de forma de onda por derivación muestreados a una frecuencia de 500 Hz, para un total de 2500 o 5000 muestras. El conjunto de datos MSHS no contiene datos sobre las derivaciones III, aVF, aVL o aVR. Sin embargo, estas derivaciones se derivan ya que pueden recrearse a partir de transformaciones lineales de los vectores que representan las otras derivaciones. Para mantener la uniformidad entre muestras y conjuntos de datos, todos los ECG se truncaron a 2500 muestras.

Corregimos el ruido dentro de las grabaciones de ECG mediante la aplicación de un filtro de paso de banda Butterworth (0,5 Hz–40 Hz) seguido de la aplicación de un filtro de mediana en datos de forma de onda sin procesar. Los datos de forma de onda procesados derivados de este modo se organizaron para mantener el orden de las derivaciones y se trazaron en imágenes, cada una de las cuales contenía un total de ocho derivaciones (I, II y V1 – V6). Las imágenes se guardaron en formato.png (Portable Network Graphics) con una resolución de 1000 × 1000 píxeles para evitar artefactos de compresión. Además, las imágenes de salida se almacenaron con tres canales de color para conservar la compatibilidad con las CNN entrenadas en ImageNet.

Los tokens pueden definirse como secuencias discretas predefinidas que se agrupan y analizan juntas sobre una base semántica. En el contexto del modelado del lenguaje, los tokens pueden ser simplemente las palabras que componen un cuerpo de texto. El proceso de separar los datos en secuencias tan discretas y asignarles identificadores numéricos únicos se denomina tokenización27.

Un método comúnmente utilizado para pre-entrenar modelos de lenguaje se llama Modelado de lenguaje enmascarado (MLM)28, en el que un porcentaje fijo de la cantidad de tokens ingresados al modelo están enmascarados u ocultos, y los modelos se pre-entrenan haciéndolos predecir estos enmascarados. fichas La recopilación y el etiquetado de datos puede ser un proceso costoso, y dichos costos se amplifican para los conjuntos de datos médicos. Una ventaja significativa de MLM es que permite el uso de grandes cantidades de datos sin etiquetar para pre-entrenar modelos.

El enfoque BEiT extiende MLM al modelado de imágenes enmascaradas (MIM), en el que las imágenes de entrada 2D se separan en parches que contienen píxeles sin procesar que luego se convierten en representaciones tokenizadas de la imagen de entrada (Fig. 1). Esta tokenización se logra utilizando un tokenizador de imagen entrenado por separado que aproxima cada parche a un solo token numérico. Utilizamos el mismo tokenizador de imágenes disponible públicamente (Dall-E) para la conversión de imágenes de ECG que la implementación original de BEiT.

Instanciamos un modelo de transformador de 12 capas con un tamaño de capa oculta de 768 y 12 cabezales de atención para un total de aproximadamente 86 M de parámetros. Este modelo y sus derivados aguas abajo se denominan "HeartBEiT" en el texto de este trabajo.

Comparamos el rendimiento específico del problema aguas abajo de este modelo con un transformador de visión basado en ImageNet de tamaño equivalente (parámetros ViT-B/16: 86 M), así como enfoques basados en CNN comunes para el aprendizaje profundo aplicado a los ECG. Estos incluyen el modelo ResNet preentrenado más grande disponible (ResNet-152: 60 M de parámetros) y una arquitectura computacionalmente más económica (EfficientNet-B4: 19 M de parámetros) conocida por demostrar un mejor rendimiento en la clasificación de imágenes a pesar de tener menos parámetros. Todas las líneas de base se entrenaron previamente de manera supervisada en el conjunto de datos ImageNet1K que contiene 1,2 M de imágenes de entrenamiento etiquetadas.

Las imágenes de entrada se redimensionaron a 224 × 224 píxeles, pero por lo demás no están sujetas a ningún otro procesamiento previo. A diferencia de las imágenes naturales, las formas de onda de ECG requieren el mantenimiento de la morfología y el orden. Aleatorio a pérdida de información que puede existir solo dentro de ciertos segmentos de un ECG.

Las imágenes de entrada se dividieron en parches cuadrados de 16 píxeles cada uno, para un total de 196 parches por imagen de entrada (Fig. 5). El 40 % de los parches de entrada estaban enmascarados para la entrada en la red neuronal. Utilizamos el optimizador AdamW con una tasa de aprendizaje de 5e-4. El modelo HeartBEiT se entrenó previamente en un nodo que consta de 4 GPU NVIDIA A100-40G. A aproximadamente 6 h por época, el entrenamiento previo del modelo para 300 épocas tomó alrededor de 2,5 meses. Los parámetros del modelo guardados en la época 300 se utilizaron para el ajuste fino posterior en todos los casos (Fig. 1 complementaria).

Los modelos previamente entrenados se sometieron a una tarea de ajuste fino para demostrar y comparar el rendimiento en la clasificación basada en ECG. Utilizamos datos de 4 hospitales para la detección de FEVI < 40% y diagnóstico de MCH. En cualquier caso, el rendimiento del modelo ajustado se validó externamente con datos del hospital de Morningside. Los datos de la base de datos PTB-XL se usaron para ajustar el modelo HeartBEiT previamente entrenado, así como los otros modelos para la detección de STEMI.

Los datos se separaron en un conjunto de datos de entrenamiento, un conjunto de datos de prueba interna y, cuando correspondía, un conjunto de datos de validación externa. Modelamos condiciones de escasez extrema de datos al reducir los datos de entrenamiento al 1 %, 10 %, 25 %, 50 % o 100 %, y luego probamos los modelos resultantes con los datos de prueba comunes. En todos los casos, se empleó Group Shuffle Splitting con una semilla aleatoria constante para garantizar que no hubiera pacientes presentes en los datos de entrenamiento y prueba, y que los mismos pacientes formaran parte de cualquiera de los conjuntos de datos en todas las ejecuciones.

Establecimos el cabezal de clasificación de cada modelo en un tamaño de dos neuronas y utilizamos la pérdida de CrossEntropy. Se utilizó el optimizador de Adam en un programa de tasa de aprendizaje de OneCycle entre 3e-4 y 1e-3 durante 30 épocas para el ajuste fino y las métricas de rendimiento informadas corresponden al mejor rendimiento logrado en estas épocas. Se utilizaron métricas independientes del umbral del área bajo la curva característica operativa del receptor (AUROC) y del área bajo la curva de recuperación de precisión (AUPRC) para calcular y comparar el rendimiento del modelo. Se generaron intervalos de confianza del 95 % para las áreas bajo la curva a través de 500 iteraciones del bootstrap.

La distancia de Wasserstein29 es una métrica del costo requerido para transformar una distribución en otra. Dadas dos imágenes discretas, la magnitud de la distancia de Wasserstein entre ellas es directamente proporcional a cuán diferentes son. Las distancias de Wasserstein más altas entre los datos de preentrenamiento y ajuste fino pueden conducir a resultados subóptimos con el aprendizaje de transferencia.

Tomamos muestras aleatorias de 1000 imágenes de cada uno de los conjuntos de datos de ImageNet y ECG. Todas las muestras de cada cohorte se redimensionaron a 224 × 224 píxeles y se compararon con todas las demás muestras de la misma cohorte, así como con la otra cohorte para un total de 3 combinaciones de este tipo: ECG vs ECG, ECG vs ImageNet, ImageNet vs ImageNet. Cada una de estas operaciones produjo un total de 106 pares. La distancia de Wasserstein se calculó para cada par de imágenes resultante y se promedió a través de la combinación de cohortes.

La explicabilidad del modelo se generó utilizando la biblioteca de asignación de activación de clase ponderada por gradiente (GradCAM)30. Las atribuciones generadas se trazaron como una superposición sobre la imagen de entrada original para demostrar qué parte de una entrada contribuyó más a una predicción.

Todos los análisis se realizaron con las bibliotecas pandas, numpy, Python Image Library (PIL), SciPy, scikit-learn, torchvision, timm y PyTorch. El trazado se realizó utilizando las bibliotecas matplotlib y seaborn. Todo el código fue escrito para y dentro de la versión 3.8.x del lenguaje de programación Python.

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de investigación de Nature vinculado a este artículo.

Los datos de Mount Sinai utilizados en este estudio no están disponibles públicamente debido a preocupaciones sobre la privacidad del paciente. El conjunto de datos PTB-XL está disponible públicamente para su descarga en: https://doi.org/10.13026/kfzx-aw45 El modelo HeartBEiT puede ser entregado a otros investigadores en un acuerdo aprobado por el IRB con Mount Sinai Intellectual Partners.

El código de creación del modelo no es específico del conjunto de datos y está disponible en: https://github.com/akhilvaid/HeartBEiT.

Drazen, E., Mann, N., Borun, R., Laks, M. & Bersen, A. Estudio de electrocardiografía asistida por computadora en los Estados Unidos. J. Electrocardiol. 21, S98–S104 (1988).

Artículo PubMed Google Académico

Vaid, A. et al. Determinación automatizada de la función ventricular izquierda mediante datos de electrocardiograma en pacientes en hemodiálisis de mantenimiento. clin. Mermelada. Soc. nefrol. 17, 1017-1025 (2022).

Artículo PubMed Google Académico

Vaid, A. et al. Uso de algoritmos de aprendizaje profundo para identificar simultáneamente la disfunción ventricular derecha e izquierda a partir del electrocardiograma. Cardiovasc. Imágenes 15, 395–410 (2022).

Google Académico

Vaid, A. et al. Estudio de cohorte retrospectivo multicéntrico que aplica el aprendizaje profundo a los electrocardiogramas para identificar la disfunción valvular del corazón izquierdo. común Medicina. 3, 24 (2023).

Artículo PubMed PubMed Central Google Académico

Mincholé, A., Camps, J., Lyon, A. & Rodríguez, B. Machine learning en el electrocardiograma. J. Electrocardiol. 57, S61–S64 (2019).

Artículo Google Académico

Aziz, S., Ahmed, S. y Alouini, M.-S. Algoritmos de aprendizaje automático basados en ECG para la clasificación de los latidos del corazón. ciencia Rep. 11, 18738 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Hong, S., Zhou, Y., Shang, J., Xiao, C. & Sun, J. Oportunidades y desafíos de los métodos de aprendizaje profundo para datos de electrocardiograma: una revisión sistemática. Informática Biol. Medicina. 122, 103801 (2020).

Artículo Google Académico

Geman, S., Bienenstock, E. & Doursat, R. Redes neuronales y el dilema de sesgo/varianza. Cómputo neuronal. 4, 1–58 (1992).

Artículo Google Académico

Alzubaidi, L. et al. Revisión del aprendizaje profundo: conceptos, arquitecturas CNN, desafíos, aplicaciones, direcciones futuras. J. Big Data 8, 53 (2021).

Artículo PubMed PubMed Central Google Académico

Gu, J. et al. Avances recientes en redes neuronales convolucionales. Reconocimiento de patrones. 77, 354–377 (2018).

Artículo Google Académico

Weimann, K. & Conrad, TOF Transferencia de aprendizaje para la clasificación de ECG. ciencia Rep. 11, 5251 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Weiss, K., Khoshgoftaar, TM y Wang, D. Una encuesta sobre el aprendizaje por transferencia. J. Big Data 3, 9 (2016).

Artículo Google Académico

Deng, J. et al. En la conferencia IEEE de 2009 sobre visión artificial y reconocimiento de patrones. 248–255 (Ieee).

Gavrilov, AD, Jordache, A., Vasdani, M. y Deng, J. Prevención del sobreajuste y el ajuste insuficiente del modelo en redes neuronales convolucionales. En t. J. Softw. ciencia computar Intel. (IJSSCI) 10, 19–28 (2018).

Artículo Google Académico

Vaswani, A. et al. La atención es todo lo que necesitas. En Avances en sistemas de procesamiento de información neuronal vol. 30 (eds. Guyon, I. et al.) (Curran Associates, Inc, 2017). https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf.

Khan, S. et al. Transformadores en visión: una encuesta. Encuestas informáticas de ACM (CSUR) 54, 1–41 (2022).

Lobo, T. et al. En Actas de la conferencia de 2020 sobre métodos empíricos en el procesamiento del lenguaje natural: demostraciones del sistema. 38–45.

Kalyan, KS, Rajasekharan, A. y Sangeetha, S. Ammus: Una encuesta de modelos preentrenados basados en transformadores en el procesamiento del lenguaje natural. Preimpresión en https://arxiv.org/abs/2108.05542 (2021).

Liu, Z. et al. En Actas de la Conferencia Internacional IEEE/CVF sobre Visión por Computador. 10012–10022.

Dosovitskiy, A. et al. Una imagen vale 16x16 palabras: Transformadores para el reconocimiento de imágenes a escala. Preimpresión en https://arxiv.org/abs/2010.11929 (2020).

Bao, H., Dong, L. & Wei, F. Beit: Bert pre-entrenamiento de transformadores de imagen. Preimpresión en https://arxiv.org/abs/2106.08254 (2021).

Raghu, M., Unterthiner, T., Kornblith, S., Zhang, C. y Dosovitskiy, A. ¿Los transformadores de visión ven como redes neuronales convolucionales? Adv. Información neuronal Proceso. sist. 34, 12116–12128 (2021).

Google Académico

Shahani, L. Patrón S1Q3T3 que conduce al diagnóstico temprano de embolia pulmonar. Informe de caso de BMJ 2012 https://doi.org/10.1136/bcr-2012-006569 (2012).

Raudys, SJ & Jain, AK Efectos de tamaño de muestra pequeño en el reconocimiento de patrones estadísticos: recomendaciones para profesionales. Trans. IEEE. Patrón Anal. Mach. Intel. 13, 252–264 (1991).

Artículo Google Académico

Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. y Salakhutdinov, R. Abandono: una forma sencilla de evitar el sobreajuste de las redes neuronales. J. Mach. Aprender. Res. 15, 1929-1958 (2014).

Google Académico

Bozkurt, B. et al. Definición universal y clasificación de insuficiencia cardíaca: un informe de la sociedad estadounidense de insuficiencia cardíaca, la asociación de insuficiencia cardíaca de la sociedad europea de cardiología, la sociedad japonesa de insuficiencia cardíaca y el comité de redacción de la definición universal de insuficiencia cardíaca. Tarjeta J. Fallar. 27, 387–413 (2021).

Artículo Google Académico

Webster, JJ & Kit, C. En COLING 1992 volumen 4: La 14ª conferencia internacional sobre lingüística computacional.

Ghazvininejad, M., Levy, O., Liu, Y. & Zettlemoyer, L. Mask-Predict: Descodificación paralela de modelos condicionales de lenguaje enmascarado. En Actas de la Conferencia de 2019 sobre métodos empíricos en el procesamiento del lenguaje natural y la 9.ª Conferencia internacional conjunta sobre procesamiento del lenguaje natural (EMNLP-IJCNLP) 6112–6121. https://arxiv.org/abs/1904.09324 (Asociación de Lingüística Computacional, Hong Kong, China, 2019).

Rubner, Y., Tomasi, C. & Guibas, LJ La distancia del transportador de tierra como métrica para la recuperación de imágenes. En t. J. Computadora Vis. 40, 99–121 (2000).

Artículo Google Académico

Selvaraju, RR et al. En Actas de la conferencia internacional IEEE sobre visión artificial. 618–626.

Descargar referencias

Este estudio fue financiado por R01HL155915 y Premio clínico y traslacional para infraestructura UL1TR004419. Los autores desean agradecer a Wei Guo, Lili Gai y Eugene Fluder del grupo de computación de alto rendimiento en Mount Sinai por hacer posible la infraestructura subyacente a este estudio.

El Instituto Charles Bronfman de Medicina Personalizada, Escuela de Medicina Icahn en Mount Sinai, Nueva York, NY, EE. UU.

Akhil Vaid, Joy Jiang, Alexander Charney y Girish N Nadkarni

Centro de Inteligencia Clínica Mount Sinai, Escuela de Medicina Icahn en Mount Sinai, Nueva York, NY, EE. UU.

Akhil Vaid, Joy Jiang y Girish N Nadkarni

Departamento de Genética y Ciencias Genómicas, Escuela de Medicina Icahn en Mount Sinai, Nueva York, NY, EE. UU.

Akhil Vaid, Alexander Charney, Benjamin Glicksberg y Girish N Nadkarni

El Instituto Hasso Plattner para la Salud Digital en Mount Sinai, Nueva York, NY, EE. UU.

Akhil Vaid, Benjamin Glicksberg y Girish N Nadkarni

Departamento de Medicina, Escuela de Medicina Icahn en Mount Sinai, Nueva York, NY, EE. UU.

Ashwin Sawant

Mount Sinai Heart, Escuela de Medicina Icahn en Mount Sinai, Nueva York, NY, EE. UU.

Stamatios Lerakis, Edgar Argulian, Joshua Lampert y Jagat Narula

Departamento de Cardiología, Escuela de Medicina Icahn en Mount Sinai, Nueva York, NY, EE. UU.

Stamatios Lerakis, Edgar Argulian, Joshua Lampert y Jagat Narula

Departamento de Medicina, NYU Langone Health, Nueva York, NY, EE. UU.

Yuri Ahuja

The Pamela Sklar Division of Psychiatric Genomics, Icahn School of Medicine at Mount Sinai, Nueva York, NY, EE. UU.

alexander charney

Departamento de Psiquiatría, Escuela de Medicina Icahn en Mount Sinai, Nueva York, NY, EE. UU.

alexander charney

Departamento de Ingeniería Biomédica, Universidad de Tel Aviv, Tel Aviv, 6997801, Israel

Hayit Greenspan

División de Nefrología, Departamento de Medicina, Escuela de Medicina Icahn en Mount Sinai, Nueva York, NY, EE. UU.

Girish N Nadkarni

También puede buscar este autor en PubMed Google Scholar

El estudio fue diseñado por AV; El código fue escrito por AV; Los datos subyacentes fueron recopilados, analizados y visualizados por AV; el primer borrador del manuscrito fue escrito por AV y JJ; GNN supervisó el proyecto. AV y GNN tuvieron acceso y verificaron los datos. Todos los autores proporcionaron comentarios y aprobaron el borrador final para su publicación.

Correspondencia a Akhil Vaid.

El Dr. Nadkarni informa acuerdos de consultoría con AstraZeneca, BioVie, GLG Consulting, Pensieve Health, Reata, Renalytix, Siemens Healthineers y Variant Bio; financiación de la investigación de Goldfinch Bio y Renalytix; honorarios de AstraZeneca, BioVie, Lexicon, Daiichi Sankyo, Meanrini Health y Reata; patentes o regalías con Renalytix; posee acciones y opciones sobre acciones en Pensieve Health y Renalytix como cofundador científico; posee acciones en Verici Dx; ha recibido compensación financiera como miembro del consejo científico y asesor de Renalytix; es miembro del consejo asesor de Neurona Health; y se desempeña en una función de asesoramiento o liderazgo para Pensieve Health y Renalytix. Todos los demás autores han informado que no tienen relaciones relevantes para el contenido de este documento para revelar.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Vaid, A., Jiang, J., Sawant, A. et al. Un transformador de visión fundamental mejora el rendimiento de diagnóstico de los electrocardiogramas. npj Dígito. Medicina. 6, 108 (2023). https://doi.org/10.1038/s41746-023-00840-9

Descargar cita

Recibido: 13 enero 2023

Aceptado: 05 mayo 2023

Publicado: 06 junio 2023

DOI: https://doi.org/10.1038/s41746-023-00840-9

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt