Nuevo método mejora la eficiencia de los sistemas de inteligencia artificial 'Vision Transformer'
HogarHogar > Noticias > Nuevo método mejora la eficiencia de los sistemas de inteligencia artificial 'Vision Transformer'

Nuevo método mejora la eficiencia de los sistemas de inteligencia artificial 'Vision Transformer'

Jun 18, 2023

Los transformadores de visión (ViT) son poderosas tecnologías de inteligencia artificial (IA) que pueden identificar o categorizar objetos en imágenes; sin embargo, existen desafíos importantes relacionados con los requisitos de potencia informática y la transparencia en la toma de decisiones. Los investigadores ahora han desarrollado una nueva metodología que aborda ambos desafíos, al mismo tiempo que mejora la capacidad de ViT para identificar, clasificar y segmentar objetos en imágenes.

Los transformadores se encuentran entre los modelos de IA existentes más potentes. Por ejemplo, ChatGPT es una IA que usa una arquitectura de transformador, pero las entradas que se usan para entrenarla son el lenguaje. Los ViT son IA basadas en transformadores que se entrenan mediante entradas visuales. Por ejemplo, los ViT podrían usarse para detectar y categorizar objetos en una imagen, como identificar todos los automóviles o todos los peatones en una imagen.

Sin embargo, los ViT enfrentan dos desafíos.

Primero, los modelos de transformadores son muy complejos. En relación con la cantidad de datos que se conectan a la IA, los modelos de transformadores requieren una cantidad significativa de potencia computacional y usan una gran cantidad de memoria. Esto es particularmente problemático para ViT, porque las imágenes contienen muchos datos.

En segundo lugar, es difícil para los usuarios comprender exactamente cómo toman decisiones los ViT. Por ejemplo, es posible que haya entrenado a un ViT para identificar perros en una imagen. Pero no está del todo claro cómo el ViT determina qué es un perro y qué no. Dependiendo de la aplicación, comprender el proceso de toma de decisiones de ViT, también conocido como la interpretabilidad de su modelo, puede ser muy importante.

La nueva metodología de ViT, denominada "atención de parche a clúster" (PaCa), aborda ambos desafíos.

"Abordamos el desafío relacionado con las demandas computacionales y de memoria mediante el uso de técnicas de agrupación, que permiten que la arquitectura del transformador identifique y se centre mejor en los objetos de una imagen", dice Tianfu Wu, autor correspondiente de un artículo sobre el trabajo y profesor asociado de ingeniería eléctrica e informática en la Universidad Estatal de Carolina del Norte. "La agrupación es cuando la IA agrupa secciones de la imagen, en función de las similitudes que encuentra en los datos de la imagen. Esto reduce significativamente las demandas computacionales del sistema. Antes de la agrupación, las demandas computacionales para un ViT son cuadráticas. Por ejemplo, si el sistema se rompe una imagen reducida a 100 unidades más pequeñas, necesitaría comparar las 100 unidades entre sí, que serían 10,000 funciones complejas.

"Al agrupar, podemos hacer de este un proceso lineal, donde cada unidad más pequeña solo necesita compararse con un número predeterminado de grupos. Digamos que le dice al sistema que establezca 10 grupos; eso sería solo 1,000 funciones complejas, dice Wu.

"La agrupación también nos permite abordar la interpretabilidad del modelo, porque podemos ver cómo creó los grupos en primer lugar. ¿Qué características decidió que eran importantes al agrupar estas secciones de datos? Y debido a que la IA solo está creando un pequeño número de grupos, podemos verlos con bastante facilidad".

Los investigadores realizaron pruebas exhaustivas de PaCa, comparándola con dos ViT de última generación llamados SWin y PVT.

"Descubrimos que PaCa superó a SWin y PVT en todos los sentidos", dice Wu. "PaCa fue mejor en la clasificación de objetos en imágenes, mejor en la identificación de objetos en imágenes y mejor en la segmentación, esencialmente delineando los límites de los objetos en las imágenes. También fue más eficiente, lo que significa que pudo realizar esas tareas más rápidamente que el otras ViT.

"El siguiente paso para nosotros es ampliar PaCa entrenando en conjuntos de datos fundamentales más grandes".

El documento, "PaCa-ViT: aprendizaje de la atención de parche a clúster en transformadores de visión", se presentará en la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, que se llevará a cabo del 18 al 22 de junio en Vancouver, Canadá. El primer autor del artículo es Ryan Grainger, Ph.D. estudiante en NC State. El artículo fue coautor de Thomas Paniagua, Ph.D. estudiante en NC State; Xi Song, investigador independiente; y Naresh Cuntoor y Mun Wai Lee de BlueHalo.

El trabajo se realizó con el apoyo de la Dirección de Inteligencia Nacional, bajo el contrato número 2021-21040700003; la Oficina de Investigación del Ejército de EE. UU., con las subvenciones W911NF1810295 y W911NF2210010; y la Fundación Nacional de Ciencias, con las subvenciones 1909644, 1822477, 2024688 y 2013451.

-barquero-

Nota para los editores:El resumen del estudio sigue.

"PaCa-ViT: aprendizaje de la atención de parche a clúster en los transformadores de visión"

Autores: Ryan Grainger, Thomas Paniagua y Tianfu Wu, Universidad Estatal de Carolina del Norte; Xi Song, investigador independiente; Naresh Cuntoor y Mun Wai Lee, BlueHalo

Presentado: Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones 2023, del 18 al 22 de junio, Vancouver, Canadá

Abstracto: Vision Transformers (ViTs) se basan en el supuesto de tratar los parches de imagen como "tokens visuales" y aprender la atención parche a parche. El tokenizador basado en la incrustación de parches tiene una brecha semántica con respecto a su contraparte, el tokenizador textual. La atención parche a parche sufre el problema de la complejidad cuadrática y también hace que no sea trivial explicar los ViT aprendidos. Para abordar estos problemas en ViT, este documento propone aprender la atención Patch-to-Cluster (PaCa) en ViT. Las consultas en nuestro PaCa-ViT comienzan con parches, mientras que las claves y los valores se basan directamente en la agrupación (con una pequeña cantidad predefinida de grupos). Los clústeres se aprenden de un extremo a otro, lo que conduce a mejores tokenizadores e induce la agrupación conjunta para la atención y la atención para la agrupación para modelos mejores e interpretables. La complejidad cuadrática se relaja a complejidad lineal. El módulo PaCa propuesto se utiliza para diseñar backbones ViT eficientes e interpretables y redes de cabeza de segmentación semántica. En los experimentos, los métodos propuestos se prueban en la clasificación de imágenes ImageNet-1k, la detección de objetos MS-COCO y la segmentación de instancias y la segmentación semántica MIT-ADE20k. En comparación con el estado de la técnica, obtiene un mejor rendimiento en los tres puntos de referencia que el SWin y los PVT por márgenes significativos en ImageNet-1k y MIT-ADE20k. También es significativamente más eficiente que los modelos PVT en MS-COCO y MIT-ADE20k debido a la complejidad lineal. Los grupos aprendidos son semánticamente significativos. Los puntos de control de código y modelo están disponibles en https://github.com/iVMCL/PaCaViT.

Nota para los editores: "PaCa-ViT: aprendizaje de la atención de parche a clúster en Vision Transformers" Resumen: