AMST2: multi agregado - colina del castillo inc.

Scientific Reports volumen 13, Número de artículo: 9062 (2023) Citar este artículo

59 Accesos

2 Altmetric

Detalles de métricas

Recientemente, muchos rastreadores visuales existentes han logrado un progreso significativo al incorporar información espacial de capas de convolución de varios niveles o información temporal para el seguimiento. Sin embargo, las ventajas complementarias de la información espacial y temporal no pueden aprovecharse cuando estos dos tipos de información se utilizan por separado. En este documento, presentamos un nuevo enfoque para el seguimiento visual robusto utilizando un modelo basado en transformadores que incorpora información de contexto espacial y temporal en múltiples niveles. Para integrar los mapas de similitud refinados a través de codificadores espaciales y temporales multinivel, proponemos un codificador de agregación. En consecuencia, la salida del codificador de agregación propuesto contiene características útiles que integran los contextos globales de contextos espaciales y temporales de varios niveles. La característica que proponemos ofrece una representación contrastante pero complementaria de contextos espaciales y temporales de varios niveles. Esta característica es particularmente beneficiosa en escenarios aéreos complejos, donde pueden ocurrir fallas de seguimiento debido a oclusión, desenfoque de movimiento, objetos pequeños y variaciones de escala. Además, nuestro rastreador utiliza una red troncal liviana, lo que garantiza un seguimiento de objetos rápido y efectivo en conjuntos de datos aéreos. Además, la arquitectura propuesta puede lograr un seguimiento de objetos más robusto contra variaciones significativas al actualizar las características del objeto más reciente y al mismo tiempo conservar la información de la plantilla inicial. Los extensos experimentos en siete desafiantes puntos de referencia de seguimiento aéreo a corto y largo plazo han demostrado que el rastreador propuesto supera a los métodos de seguimiento de última generación en términos de rendimiento y velocidad de procesamiento en tiempo real.

El seguimiento visual de un objeto de interés es un tema de investigación muy importante y desafiante en la visión artificial1. El principal objetivo del seguimiento visual es estimar la ubicación y el tamaño de un objeto arbitrario en una secuencia de fotogramas de vídeo estableciendo correspondencias entre píxeles similares en diferentes fotogramas. En los últimos años, con la creciente importancia y el uso de vehículos aéreos no tripulados (UAV) como los drones, se han estudiado varios métodos de seguimiento visual que utilizan datos aéreos2,3. A pesar de los avances considerables en el seguimiento visual, el seguimiento aéreo aún enfrenta numerosos desafíos, incluido el seguimiento en tiempo real, la fluctuación de la iluminación, la oclusión, el movimiento rápido, el desorden de fondo y el desenfoque.

Los paradigmas de seguimiento visual convencionales se pueden clasificar en dos categorías: (1) seguimiento por detección y (2) seguimiento basado en redes siamesas.

El método de seguimiento por detección primero detecta el objeto en cada cuadro de video y luego actualiza la ubicación del objeto usando un modelo de movimiento. El filtro de correlación discriminada (DCF) es un método representativo de seguimiento por detección, que utiliza transformadas de Fourier para calcular de manera eficiente el cálculo de correlación cruzada y logra el procesamiento en tiempo real4,5,6,7,8,9,10,11. El rastreador DCF también emplea características hechas a mano como el histograma de gradientes orientados (HOG) para representar el objeto y el fondo. Sin embargo, el rastreador DCF tiene algunas limitaciones, como la incapacidad de manejar cambios de escala y variaciones de apariencia significativas.

Usando las características profundas de las redes neuronales convolucionales (CNN), los métodos basados en el aprendizaje profundo han logrado mayores avances en el seguimiento del rendimiento que los rastreadores basados en DCF12,13,14,15,16,17,18. A pesar de los avances en los rastreadores basados en el aprendizaje profundo, algunos algoritmos carecen de recursos computacionales que los hacen inadecuados para las plataformas integradas, mientras que otros no pueden brindar el nivel deseado de rendimiento de rastreo. Hasta hace poco, los rastreadores basados en DCF se empleaban con frecuencia en aplicaciones de gama baja, ignorando sus rendimientos de rastreo más débiles en comparación con los métodos basados en aprendizaje profundo debido a limitaciones de dispositivos como las de las plataformas integradas.

Recientemente, muchos rastreadores han adoptado la arquitectura de red siamesa para lograr simultáneamente un procesamiento en tiempo real y un alto rendimiento. Los rastreadores siameses basados en la red estiman la posición de un objeto utilizando un mapa de similitud generado a partir de la apariencia del objetivo de un marco de plantilla y una representación de características correspondiente de una región de búsqueda dentro del marco de búsqueda. Estos rastreadores se entrenan fuera de línea en un gran conjunto de datos, como ImageNet19, para medir la similitud entre la plantilla y los parches de búsqueda. Aunque la versión original del rastreador siamés es SINT20, el método más popular se llama SiamFC21, que ha contribuido a muchos otros rastreadores22,23,24,25,26,27,28,29,30,31,32,33,34 ,35. Varios rastreadores siameses que usan CNNs livianas como AlexNet36 no pueden extraer características sólidas ni contexto global21,22,23,25,37. Muchos rastreadores de última generación adoptaron redes neuronales más profundas como ResNet38 para abordar el problema de rendimiento26,27,28,29,30,31,34,39,40. Además de mejorar las redes troncales, se han llevado a cabo importantes investigaciones para mejorar los marcos basados en redes siamesas. Esto incluye la combinación de varias técnicas como DCF41,42, módulo de red de propuesta de región (RPN)26,37,43,44, módulo de actualización de plantilla44,45, mecanismo de atención24,34,35,46, mecanismo sin anclaje29,30,31 ,33 y mecanismo transformador 47,48,49,50,51.

Comparación cualitativa entre estados del arte. Esta figura muestra los resultados del rastreador propuesto AMST\(^2\) y tres rastreadores de última generación en una secuencia de video desafiante (Animal2, Vaulting de DTB70 y Bike2, Truck1 de UAV123). El rastreador AMST\(^2\) demuestra un rendimiento superior sobre otros algoritmos al combinar contexto espacial y temporal de varios niveles al tiempo que agrega el mecanismo de actualización de plantilla de nivel de función.

Aunque los rastreadores de uso general han logrado avances significativos, el rastreo en entornos aéreos como los UAV exige un procesamiento más rápido y al mismo tiempo mantiene un cierto nivel de rendimiento. Para cumplir con estos requisitos, se han propuesto rastreadores que combinan CNN livianas con varias técnicas de aprendizaje profundo. En este contexto, SiamAPN utilizó una red de propuestas de anclas para refinar las anclas52. SiamAPN++ adoptó una red de agregación atencional (AAN) para lograr un seguimiento aéreo sólido en situaciones complejas a través de los mecanismos de atención de AAN propias y cruzadas53. Tanto SiamAPN como SiamAPN++ generaron una pequeña cantidad de anclas de alta calidad para aumentar la eficiencia y el rendimiento del rastreador. HiFT54 y TCTrack55 son ejemplos de rastreadores aéreos recientes que utilizan CNN de peso ligero y arquitectura de transformador. HiFT aborda la invariancia de escala mediante el empleo de un transformador de características jerárquicas que aprovecha el contexto global de múltiples capas de características de CNN. Por otro lado, TCTrack utiliza un marco basado en transformadores que incorpora el conocimiento previo temporal de la función de búsqueda y el mapa de similitud, con CNN ligeras modificadas que consideran información temporal. Separar el uso de información espacial y temporal de varios niveles puede generar un problema importante en el que el alto rendimiento solo se logra en escenarios robustos específicos. Por ejemplo, el uso de información espacial multinivel puede ser resistente a la baja resolución y la variación de escala, mientras que confiar únicamente en la información temporal puede mostrar un mejor rendimiento al tratar con la deformación.

La integración de información espacial y temporal puede mejorar la solidez y la eficiencia en escenarios complejos. Para lograr esto, proponemos una arquitectura de transformador basado en contexto espacial y temporal de varios niveles agregado (AMST\(^2\)) para un seguimiento aéreo sólido. Nuestro diseño incluye un codificador de agregación basado en un codificador de transformador modificado y codificadores espaciales y temporales de varios niveles que capturan contextos útiles para un mapa de similitud mejorado. A continuación, la salida del codificador espacial multinivel simplemente se inyecta en la salida del codificador temporal utilizando el codificador de agregación. Como resultado, la salida del codificador de agregación es una representación incrustada robusta que puede explotar completamente los contextos globales de los contextos espaciales y temporales de varios niveles. El decodificador se centra en la generación de mapas de similitud refinados más potentes basados en la salida del codificador de agregación. La información espacial multinivel incluida en el codificador de agregación trata información muy relevante para el seguimiento de objetos pequeños, que es un gran problema en el seguimiento aéreo, y la información temporal captura grandes cambios en objetos pequeños. Además, el modelo propuesto adopta una red troncal de peso ligero. El uso de una red troncal liviana tiene una ventaja de tamaño de modelo general sobre el uso de una red troncal profunda cuando se combina con varios algoritmos de IA. Como resultado, estos rastreadores pueden resolver con éxito el problema de rastrear objetos pequeños en los datos obtenidos usando UAV mientras se ejecutan en tiempo real. Además, en el método existente55, la actualización de la información temporal solo en el nivel de función de la búsqueda puede conducir a fallas importantes del rastreador debido a la inconsistencia entre la función de búsqueda y la plantilla a lo largo del tiempo. Por lo tanto, mejoramos aún más el rendimiento del seguimiento mediante el empleo de una red de actualización de plantilla, que es la actualización de contexto temporal discreto a nivel de plantilla. Como se muestra en la Fig. 1, el AMST\(^2\) propuesto logra un rendimiento preciso y sólido en escenarios complejos.

Las principales contribuciones de este trabajo se pueden resumir de la siguiente manera:

Proponemos un nuevo mecanismo de seguimiento de vista aérea, que introduce el codificador de agregación que combina la representación integrada del codificador de características jerárquicas de contextos espaciales multinivel y características de contextos temporales dentro de la estructura del transformador.

El rastreador propuesto no solo aplica información temporal en el nivel de función de búsqueda y el nivel de mapa de similitud, sino que también adopta el proceso de actualización de plantilla en el nivel de función de plantilla como actualización de contexto temporal discreto para un seguimiento más sólido.

Realizamos experimentos completos en varios conjuntos de datos de UAV para la evaluación del rendimiento. El rastreador propuesto muestra el logro de resultados de última generación en comparación con otros rastreadores aéreos con procesamiento en tiempo real.

El transformador fue propuesto por primera vez por Vaswani et al. como modelo para realizar tareas de secuencia a secuencia, como la traducción automática56. Este enfoque se basa en el mecanismo de atención, que puede capturar de manera eficiente la información global de la secuencia de entrada al generar la secuencia de salida centrándose más en la parte más importante de toda la secuencia de entrada.

Recientemente, el transformador se ha aplicado a tareas de visión, incluida la clasificación de imágenes57, la detección de objetos58 y el reconocimiento de acciones59, además de los campos de procesamiento del lenguaje natural (NLP). Este enfoque se ha vuelto cada vez más popular debido a su capacidad para incorporar información de contexto espacial y temporal de manera flexible y eficiente, lo que permite un mejor desempeño del seguimiento en varios escenarios.

La mayoría de los rastreadores basados en transformadores adoptan un proceso de alimentación del transformador con características extraídas de la red troncal47,48,49,50,54,55. Inspirándose en la idea principal del transformador, TransT propuso una red de fusión de funciones compuesta por un módulo de aumento del contexto del ego con autoatención y un módulo de aumento de funciones cruzadas con atención cruzada47. Como característica útil de la salida de la red de fusión de características, el resultado de seguimiento final se obtiene a través de procesos de clasificación y regresión de caja. TrDiMP utiliza el predictor de modelo DiMP y genera pesos de modelo utilizando las funciones de salida del codificador de transformador como muestras de entrenamiento48. Después de eso, el modelo de destino calcula el mapa de puntuación de destino aplicando los pesos predichos a las características de salida generadas por el decodificador del transformador. TrDiMP incorpora una IoUNet probabilística para la regresión de caja de unión y también presenta TrSiam, que formula el modelo propuesto en una tubería similar a la siamesa. STARK, como se propone en49, es un rastreador que utiliza una arquitectura de transformador de extremo a extremo basada en DETR58. El modelo aprende representaciones espacio-temporales robustas aprovechando las relaciones globales en la información espacial y temporal a través del codificador, que extrae características espacio-temporales discriminatorias que se alimentan al decodificador. Además, este rastreador elimina la necesidad de técnicas de procesamiento posterior, como la ventana de coseno o el suavizado del cuadro delimitador, lo que simplifica la tubería de seguimiento existente. ToMP predice el peso del núcleo convolucional para la localización de objetos utilizando un módulo de predicción de modelos basado en transformadores para superar las limitaciones de la localización de objetivos basada en optimización existente50. El predictor del modelo objetivo basado en transformadores puede evitar la optimización repetitiva innecesaria y generar dinámicamente características discriminatorias usando información objetivo. AiATrack introdujo un módulo de atención en atención (AiA) que mejora las correlaciones apropiadas y suprime las correlaciones ambiguas para suprimir el ruido del mecanismo de atención existente. Al introducir un método de actualización del modelo que reutiliza directamente las funciones almacenadas en caché previamente codificadas, proponen un proceso de seguimiento simplificado que utiliza de manera efectiva referencias a corto y largo plazo, mostrando un rendimiento notable.

Además, se ha llevado a cabo una investigación activa y dinámica sobre métodos de seguimiento basados en transformadores que adoptan una columna vertebral ligera para el seguimiento aéreo54,55. A diferencia de los rastreadores mencionados anteriormente, la investigación sobre rastreadores en los que la red troncal se reemplaza con transformadores en lugar de las CNN existentes también muestra un rendimiento notable60,61.

La incorporación de información espacial y temporal es crucial para mejorar el rendimiento en el campo del seguimiento de objetos. Hay muchos rastreadores que utilizan funciones espaciales de varios niveles para extraer la relación entre la plantilla y la región de búsqueda actual según la dimensión espacial12,26,29,30,54. El rastreador que utiliza características de múltiples escalas tiene la ventaja de poder rastrear de manera robusta la localización de objetos de varias escalas. Se han desarrollado rastreadores dinámicos basados en plantillas, como Updatenet45 y SiamTOL44, para mejorar el rendimiento del rastreo utilizando información temporal. En particular, TCTrack introdujo un método de seguimiento considerando los contextos temporales de dos niveles, incluido el nivel de función de búsqueda y el nivel de mapa de similitud55. Los rastreadores que tienen en cuenta la información temporal pueden lograr un rendimiento sólido al capturar los cambios en el estado del objeto a través de los marcos. Sin embargo, cuando se usa información espacial y temporal de múltiples niveles por separado, existe el problema de que no se pueden utilizar las ventajas complementarias de las dos informaciones. Para hacer frente a esta limitación, se ha introducido un método para mejorar la solidez del rastreador mediante la integración de información espacial y temporal a través del aprendizaje simultáneo con el transformador, como se demuestra en el rastreador STARK49.

Debido a los avances tecnológicos en los UAV equipados con capacidades de seguimiento visual, el seguimiento aéreo se ha aplicado ampliamente en sectores como la aviación, la agricultura, el transporte y la defensa1,2,3. Un desafío importante en el seguimiento aéreo surge de la distorsión de la imagen causada por las vibraciones del vuelo del UAV y los entornos complejos. Especialmente, en el seguimiento aéreo, cuando los UAV que vuelan a gran altura capturan un objeto en el suelo, es difícil extraer características ricas debido al pequeño tamaño del objeto. Si bien los rastreadores basados en el aprendizaje profundo han demostrado su superioridad en varios conjuntos de datos de UAV, los recursos limitados de las plataformas aéreas dificultan el uso de modelos pesados y limitan la mejora del rendimiento del rastreo. Para hacer frente a estos desafíos, se han desarrollado varios rastreadores especializados utilizando diferentes conjuntos de datos de UAV.

AutoTrack es un rastreador basado en DCF que ajusta automáticamente los hiperparámetros de la regularización del espacio-tiempo, demostrando un alto rendimiento en CPU62. COMET mejora la precisión del seguimiento al proponer un rastreador guiado por IoU consciente del contexto que utiliza una red multitarea de dos flujos para el seguimiento de objetos pequeños y una estrategia de generación de propuestas de referencia fuera de línea63. Además, la adopción de una propuesta de red de anclas para generar anclas de alta calidad para rastreadores basados en redes siamesas livianas ha demostrado un excelente rendimiento de rastreo aéreo52,53. Además, el empleo de un transformador en la red troncal liviana de Siamese ha resultado en un progreso notable al mejorar el mapa de correlación54,55.

El desarrollo de plataformas informáticas de IA integradas miniaturizadas ofrece una alternativa prometedora a las GPU de servidores dedicados, lo que permite la investigación continua y el uso práctico en futuros esfuerzos de seguimiento aéreo.

En esta sección, presentamos el rastreador AMST\(^2\) para el rastreo aéreo, que utiliza un transformador basado en contexto espacial y temporal agregado de varios niveles. El rastreador propuesto consta de cuatro submódulos: (1) la red de extracción de características siameses, (2) la red de actualización de plantillas, (3) el módulo transformador (que incluye el codificador espacial multinivel, el codificador temporal, el codificador de agregación y el multicontexto). decodificador), y (4) clasificación y red de regresión. Para proporcionar una comparación clara con los algoritmos de seguimiento existentes, presentamos algoritmos de referencia que utilizan el codificador espacial multinivel, el codificador temporal y la red de actualización de plantillas. A continuación, proponemos una extensión de estos algoritmos de referencia mediante la adopción de un codificador de agregación que combina las representaciones aprendidas por los codificadores espaciales y temporales de varios niveles, junto con un decodificador modificado para el seguimiento. Una representación visual de nuestro método se puede ver en la Fig. 2, y proporcionamos más detalles sobre el enfoque a continuación.

El proceso de seguimiento general del rastreador propuesto. El rastreador AMST\(^2\) se compone de cuatro componentes principales: un extractor de características siamesas, una red de actualización de plantillas, un transformador y una red de clasificación y regresión. El módulo transformador consta de codificadores espaciales, temporales y de agregación multinivel, junto con un decodificador multicontexto. El codificador espacial multinivel toma el mapa de similitud generado a partir de las entidades de la tercera y cuarta capa como entrada, mientras que el codificador temporal utiliza el mapa de similitud generado a partir de las entidades de la quinta capa y la salida del codificador temporal anterior (indicado por la línea de puntos azul ) como entrada. El codificador de agregación recibe las salidas de codificadores espaciales y temporales multinivel como entradas. El decodificador multicontexto utiliza las salidas de todos los codificadores y el mapa de similitud generado con las características de la quinta capa como entradas. Además, el proceso de actualización de plantillas incorpora un parche de actualización, funciones de plantillas anteriores y funciones de plantillas iniciales. Este proceso se ejecuta durante cada cuadro específico o bajo ciertas condiciones para actualizar la plantilla.

Como columna vertebral de extracción de características, las CNN profundas como GoogLeNet64, MobileNet65 y ResNet38 se han utilizado ampliamente en varios rastreadores. Sin embargo, los pesados requisitos de computación limitan su empleo en plataformas integradas como los UAV.

Para resolver este problema, transformamos un extractor de características liviano como AlexNet con capas de convolución adicionales en una convolución adaptable temporalmente en línea (TAdaConv)66, inspirada en55. TAdaConv considera el contexto temporal en el nivel de función de búsqueda. Una capa convolucional típica comparte pesos y sesgos que se pueden aprender en toda la secuencia de seguimiento. Por otro lado, los parámetros de la capa de convolución en línea se calculan mediante factores de calibración que varían para cada cuadro y pesos y sesgos que se pueden aprender. Como resultado, es posible extraer entidades que contienen información temporal a nivel de entidad utilizando el peso convolucional calibrado dinámicamente por el marco anterior. Dado que TAdaConv se calibra utilizando descriptores globales de la función en los fotogramas anteriores, el rendimiento de seguimiento con la red convolucional adaptable temporal (TAdaCNN) mejora notablemente a pesar de una caída diminuta de la velocidad de fotogramas. Para obtener más detalles sobre cómo transformar una capa de convolución estándar en TAdaConv, consulte 55,66.

El uso de funciones de capas de convolución de bajo y alto nivel mejora la precisión del seguimiento. Por lo tanto, utilizando TAdaCNN \(\phi\) como columna vertebral, se obtiene información espacial multinivel calculando el mapa de similitud utilizando las características jerárquicas de la multicapa de TAdaCNN en el cuadro t-ésimo.

donde \(\textrm{Z}\) y \(\textrm{X}\) representan la plantilla y la imagen de búsqueda respectivamente. \(\circledast\) denota correlación cruzada en profundidad y \(\phi _{\textrm{t}}^{i}\left( \cdot \right)\) representa la i-ésima capa de convolución de TAdaCNN en el marco t-ésimo. Para explotar características profundas multicapa, extraemos características después de transformar las últimas tres capas de convolución de la red troncal en TAdaConv. Finalmente, el mapa de similitud \({\textbf{R}}_{t}^{3}\in {\mathbb {R}}^{H\times W\times C}\), \({\textbf{ R}}_{t}^{4}\in {\mathbb {R}}^{H\veces W\veces C}\), y \({\textbf{R}}_{t}^{5 }\in {\mathbb {R}}^{H\times W\times C}\) se puede obtener mediante el uso de funciones profundas multicapa.

Los mapas de similitud calculados utilizando las características jerárquicas de la capa de red troncal de varios niveles se procesan previamente antes de introducirse en codificadores espaciales y temporales de varios niveles. La arquitectura del codificador transformador propuesto se muestra en la Fig. 3. Primero, los mapas de similitud \({\textbf{R}}_{t}^{3}\), \({\textbf{R}}_{ t}^{4}\) y \({\textbf{R}}_{t}^{5}\) obtenidos del t-ésimo marco se pasan a través de la capa convolucional. Posteriormente, los mapas de similitud refinados \({{\varvec{T}}}_{t}\in {\mathbb {R}}^{HW\times C}\), \({{\varvec{S}} }_{t}^{3}\in {\mathbb {R}}^{HW\veces C}\), \({{\varvec{S}}}_{t}^{4}\in { \mathbb {R}}^{HW\times C}\), y \({{\varvec{S}}}_{t}^{5}\in {\mathbb {R}}^{HW\times C}\) se puede obtener mediante la operación de reforma ( \({{\varvec{T}}}_{t}\) se puede obtener copiando \({{\varvec{S}}}_{t}^{ 5}\), tal que \({{\varvec{T}}}_{t}\) = \({{\varvec{S}}}_{t}^{5}\)).

El mecanismo de atención es un componente crucial en un transformador estándar. Implica usar la consulta, la clave y el valor representados como \({\textbf{Q}},{\textbf{K}},\) y \({\textbf{V}}\), respectivamente. La función de atención en un transformador estándar generalmente se define como atención de escala de producto escalar, que se puede expresar como:

donde \(1/\sqrt{d_{k}}\) es un factor de escala para controlar la distribución softmax y evitar el problema de desaparición del gradiente. Al extender el módulo de atención a múltiples cabezas, el modelo puede extraer representaciones en múltiples subespacios de la siguiente manera:

donde \({\textbf{W}}_{j}^{{\textbf{Q}}\in {\mathbb{R}}^{C\times C/N}\), \({\textbf { W}}_{j}^{{\textbf{K}}}\in {\mathbb{R}}^{C\times C/N}\), \({\textbf{W}}_{ j }^{{\textbf{V}}}\in {\mathbb{R}}^{C\times C/N}\), y \({\textbf{W}}^{{\textbf{O } }}\in {\mathbb {R}}^{C\times C}\) son matrices de peso aprendibles, \(\textrm{Concat}(\cdot)\) representa la concatenación y \(N\) es el número de cabeza de atención.

Arquitectura del codificador transformador propuesto. El codificador propuesto consta de tres componentes: un codificador espacial multinivel, un codificador temporal y un codificador de agregación.

Cao et al. utilizó una combinación de información espacial multinivel para explorar completamente las interdependencias entre las características jerárquicas54. Específicamente, con codificación de posición aprendible, \({{\varvec{S}}}_{t}^{3}\) y \({{\varvec{S}}}_{t}^{4}\) se combinan mediante la adición y una normalización para obtener \({\textbf{M}}_{t}^{1}\), es decir, \({\textbf{M}}_{t}^{1}=\ textrm{Norm}\left( {{\varvec{S}}}_{t}^{3}+{{\varvec{S}}}_{t}^{4}\right)\), que es luego se alimenta a una capa de atención de múltiples cabezas para obtener \({\textbf{M}}_{t}^{2}\) usando la ecuación en (3).

Como se muestra en (4), considerando el contexto global de \({{\varvec{S}}}_{t}^{3}\) y \({{\varvec{S}}}_{t} ^{4}\) y aprendiendo las interdependencias de los dos mapas de características, \({\textbf{M}}_{t}^{2}\) se mejora a un mapa de características de alta resolución. A partir de entonces, \({\textbf{M}}_{t}^{3}\) se puede obtener agregando una operación y una capa de normalización, es decir, \({\textbf{M}}_{t}^{3} =\textrm{Norma}\left( \mathbf {{M}}_{t}^{2}+{{\varvec{S}}}_{t}^{3}\right)\). Para explorar completamente las interdependencias entre \({\textbf{M}}_{t}^{3}\) y \({{\varvec{S}}}_{t}^{4}\), adoptamos una capa de modulación. La capa de modulación puede explotar de manera eficiente la información espacial interna de entre \({\textbf{M}}_{t}^{3}\) y \({{\varvec{S}}}_{t}^{4 }\), la salida \({\textbf{M}}_{t}^{4}\) de la capa de modulación se puede expresar como:

donde \(\textrm{FFN}\left( \cdot \right)\) denota una red de avance (FFN), \(\textrm{GAP}\left( \cdot \right)\) denota una agrupación promedio global (GAP), y \(\gamma\) y \({\mathcal {F}}\left( \cdot \right)\) representan el peso de aprendizaje y la capa de convolución, respectivamente. La salida final \({\textbf{M}}_{t}^{m}\in {\mathbb {R}}^{HW\times C}\) del codificador espacial multinivel se puede expresar como:

Las características de incrustación comprimida del codificador espacial multinivel no solo discriminan de manera efectiva los objetos del escenario de variación de escala, sino que también son resistentes a la detección de objetos pequeños. El codificador espacial multinivel se muestra en la Fig. 3a.

Además de utilizar información temporal a nivel de característica, Cao et al. refinó el mapa de similitud utilizando el conocimiento previo temporal al integrar tanto el conocimiento previo como la información actual en el nivel de similitud55. La estructura del codificador basado en el contexto temporal se compone de tres capas de atención de varios cabezales y un filtro de información temporal. El codificador temporal se muestra en la Fig. 3b. Dado el conocimiento previo \({{\varvec{T}}}_{t-1}^{m}\) y el mapa de similitud actual \({{\varvec{T}}}_{t}\) como entradas del codificador, se puede obtener \({{\varvec{T}}}_{t}^{1}\) utilizando la primera capa de atención de varios cabezales.

Entonces, \({{\varvec{T}}}_{t}^{2}\) se obtiene normalizando después de sumar \({{\varvec{T}}}_{t}\) y \({ {\varvec{T}}}_{t}^{1}\), es decir, \({{\varvec{T}}}_{t}^{2}=\textrm{Norma}\left( { {\varvec{T}}}_{t}+{{\varvec{T}}}_{t}^{1}\right)\). De la misma forma que en (7), \({{\varvec{T}}}_{t}^{3}\) se obtiene usando \({{\varvec{T}}}_{t}^ {2}\) como la entrada de la segunda capa de atención de varios cabezales.

Después de eso, se puede obtener \({{\varvec{T}}}_{t}^{4}\) agregando una operación y una capa de normalización, es decir, \({{\varvec{T}}}_{t }^{4}=\textrm{Norma}\left( {{\varvec{T}}}_{t}^{2}+{{\varvec{T}}}_{t}^{3}\ bien)\). Durante el seguimiento, el contexto temporal degradado se produce debido a varios ruidos. Por lo tanto, se puede incluir el contexto innecesario, lo que degrada el rendimiento del rastreador cuando se explota la información temporal de todo el marco. Para resolver este problema, el filtro de información temporal se puede obtener alimentando el descriptor global de \({{\varvec{T}}}_{t}^{2}\), que es el resultado de GAP en el FFN. El filtro de información temporal y la información filtrada \({{\varvec{T}}}_{t}^{f}\) se pueden expresar como:

donde f es el filtro de información temporal. El conocimiento temporal del marco t-ésimo \({{\varvec{T}}}_{t}^{m}\in {\mathbb {R}}^{HW\times C}\) como salida final del codificador temporal se puede expresar como:

donde \(\textrm{Norm}\left( \cdot \right)\) indica la capa de normalización. En particular, el primer cuadro tiene el problema de que no hay una característica distintiva del cuadro anterior. Por lo tanto, mediante la operación de convolución, el mapa de similitud inicial se establece en \({{\varvec{T}}}_{0}^{m}={\mathcal {F}}_{init}\left( {{\ varvec{T}}}_{1}\right)\), donde \({\mathcal {F}}_{init}\left( \cdot \right)\) representa la capa de convolución inicial.

Para mejorar el rendimiento del seguimiento mediante la utilización de información espacial e información temporal integrada de varios niveles, proponemos un codificador de agregación que agrega las salidas de los codificadores espaciales y temporales de varios niveles. El codificador de agregación modifica la capa de atención multicabezal del codificador estándar, lo que permite que la salida del codificador espacial multinivel se inyecte en la salida del codificador temporal. El peso de atención para el codificador de agregación se puede expresar de la siguiente manera, dadas las salidas \({\textbf{M}}_{t}^{m}\) y \({{\varvec{T}}}_{t }^{m}\) de cada codificador:

donde \({\textbf{W}}_{j}^{{\textbf{M}}}\in {\mathbb {R}}^{C\times C/N}\), \({\textbf {W}}_{j}^{{{\varvec{T}}}}\in {\mathbb {R}}^{C\times C/N}\), \({\textbf{W}} _ {j}^{\alpha }\in {\mathbb {R}}^{2C\times C/N}\) son el peso aprendible de la capa lineal y j es el índice de la cabeza. Según (11), la salida de la cabeza \(j\text{-th}\) y la salida H de la capa de atención multicabezal modificada se pueden expresar como:

donde \({\textbf{W}}^{O}\in {\mathbb {R}}^{C\times C}\) son matrices de peso aprendibles y \(N\) es el número de cabezas de atención. Posteriormente, se puede obtener \({\textbf{A}}_{t}^{1}\) utilizando la operación de adición y la capa de normalización, es decir, \({\textbf{A}}_{t}^{1 }=\textrm{Norm}\left( {{\varvec{T}}}_{t}^{m}+H\right)\). Finalmente, la salida \({\textbf{A}}_{t}^{m}\) del codificador de agregación se puede obtener mediante:

La salida del codificador de agregación integra información espacial y temporal de varios niveles para generar escenarios complejos con funciones más potentes. La estructura detallada del codificador de agregación se muestra en la Fig. 3c.

Proponemos un decodificador multicontexto para utilizar información de alta y baja resolución y explotar aún más la interrelación entre las características espaciales actuales y el conocimiento temporal. El decodificador multicontexto propuesto presenta una estructura que integra las funciones refinadas de multicontexto utilizando las salidas de los codificadores espaciales y temporales multinivel. Por lo tanto, adoptamos la atención de tres cabezas múltiples de manera diferente a la estructura del decodificador del transformador estándar. Además, después de la primera atención multicabezal, la salida del codificador de agregación se usó para la clave, y la salida de los codificadores espaciales y temporales multinivel se usaron para el valor, respectivamente. Por lo tanto, el método propuesto no solo mantiene la información de características de cada uno de los codificadores espaciales y temporales multinivel, sino que también obtiene la característica con mayor atención en una ubicación correspondiente que contiene la información de contexto múltiple basada en la información válida de la ubicación. que contiene la información multicontexto agregada del codificador de agregación. La codificación posicional del codificador espacial multinivel se utiliza para distinguir cada ubicación en el mapa de características. Sin embargo, para evitar la influencia directa en las características transformadas basadas en contextos múltiples, el decodificador está diseñado sin codificación posicional y recibe implícitamente la información posicional del codificador espacial multinivel54. El decodificador multicontexto se muestra en la Fig. 4.

Arquitectura del transformador decodificador propuesto. El decodificador propuesto tiene como objetivo refinar el mapa de similitud utilizando información múltiple basada en el contexto y está compuesto por tres módulos de atención de múltiples cabezas.

El mapa de similitud de baja resolución actual \({{\varvec{S}}}_{t}^{5}\) y \({{\varvec{T}}}_{t}\) tienen la misma similitud map y se denotan como \({\textbf{D}}_{t}\), el resultado normalizado después de agregar a \({\textbf{D}}_{t}\) pasado a través de la atención de varias cabezas es como sigue:

Los resultados del cálculo de las dos atenciones de varios cabezales usando tanto \({\textbf{D}}_{t}^{1}\) como los resultados de los codificadores se normalizan luego de agregar \({\textbf{D }}_{t}^{1}\) se expresa como:

donde \({\textbf{D}}_{t}^{2}\) es el resultado de establecer la clave y el valor en \({\textbf{A}}_{t}^{m}\) y \({\textbf{M}}_{t}^{m}\), respectivamente, y \({\textbf{D}}_{t}^{3}\) es el resultado de establecer la clave y valor a \({\textbf{A}}_{t}^{m}\) y \({{\varvec{T}}}_{t}^{m}\), respectivamente. El resultado final \({\textbf{D}}_{t}^{*}\) del transformador que contiene información multicontexto se puede obtener usando \({\textbf{D}}_{t}^{ 2}\) y \({\textbf{D}}_{t}^{3}\) obtenidos de (15).

A pesar de usar información de contexto temporal a través de TAdaCNN, la actualización de información temporal solo en el nivel de función de la búsqueda puede provocar fallas graves en el rastreador debido a la inconsistencia entre la función de búsqueda y la plantilla a lo largo del tiempo. Además, al actualizar una plantilla utilizando una red troncal, la información de la plantilla inicial, que es una muestra no contaminada, se puede perder y viola los criterios de seguimiento visual para rastrear objetos arbitrarios utilizando una plantilla inicial. Adoptamos la red de actualización de plantilla como una red de fusión de características44 para combinar las características de la plantilla inicial y la muestra de actualización y se puede ver en la Fig. 2.

Dada la plantilla y la muestra de actualización en el cuadro k-ésimo, la plantilla actualizada \(\hat{\textrm{Z}}_{k}\) usando la red de actualización de plantilla se calcula como:

donde \(\textrm{Z}_{1}\) y \(\textrm{U}_{k}\) denotan la plantilla inicial y la imagen actualizada del cuadro k-ésimo, respectivamente. \(\tilde{\textrm{Z}}_{k}^{i}\) y \(\phi _{1}^{i}\left( \textrm{Z}_{1}\right)\ ) representan respectivamente la plantilla actualizada anterior y la característica de plantilla inicial del primer cuadro. \(\psi _{k}^{i}\left( \cdot \right)\) representa la red de actualización de plantilla. \(\tilde{\textrm{Z}}_{k}^{i}\) se inicializa en \(\phi _{1}^{i}\left( \textrm{Z}_{1}\right )\) en el primer proceso de actualización. La red de actualización de plantillas consta de tres capas convolucionales 1\(\times\)1 con diferentes canales de C, C/2 y C. Cada una de las dos primeras capas convolucionales va seguida de una ReLU. Actualizamos la plantilla cada \(\delta\) fotogramas o cuando la puntuación de confianza es inferior al umbral \(\tau\). La red de actualización de plantillas puede aprender poderosas representaciones de los cambios en la apariencia de los objetos y puede evitar fallas en el seguimiento debido a una desviación extrema con el tiempo.

La función de pérdida propuesta consta de dos ramas para tareas de clasificación y regresión, similar al rastreador HiFT54. La primera rama de clasificación calcula las puntuaciones de primer plano y de fondo de una ubicación determinada, mientras que la segunda rama mide el contraste de distancia entre la ubicación y el centro de la realidad del suelo para eliminar las casillas de baja calidad. Para la regresión, se utiliza una combinación lineal de la norma L1 y la IoU completa (CIoU)67. La pérdida de regresión se puede formular como:

donde \({\textbf{b}}_{j}\) es el j-ésimo cuadro delimitador predicho y \({\textbf{b}}^{gt}\) es su correspondiente cuadro de verdad fundamental, cj y cgt representan respectivamente el centro de los cuadros predichos y reales, \(\rho \left( \cdot \right)\) representa la distancia euclidiana, y d es la longitud diagonal del cuadro que cubre el cuadro delimitador predicho y el terreno- cuadro de verdad, y \(\upsilon\) representa la correspondencia entre las relaciones de aspecto del cuadro delimitador predicho y el cuadro de verdad fundamental, y \(\alpha\) es un parámetro de compensación positivo, que controla el equilibrio entre no -casos superpuestos y casos superpuestos, y \(\lambda _{I}=1\), \(\lambda _{C}=0.5\), y \(\lambda _{L1}=0.5\) son la regularización parámetros en nuestros experimentos. La función de pérdida total se puede expresar como:

donde \(\lambda _{1}=1\), \(\lambda _{2}=1\) y \(\lambda _{3}=1.2\) son los parámetros de regularización en nuestros experimentos.

El extractor de funciones del modelo propuesto incluye una red siamesa y una red de actualización de plantillas para controlar las funciones en línea. Sin embargo, entrenar la red con solo una pérdida total puede generar un ajuste excesivo y un dilema para equilibrar la función entre la red siamesa y la red de actualización de plantilla. Para abordar este problema, adoptamos un método de entrenamiento de pérdida de múltiples aspectos44. La pérdida de entrenamiento multi-aspecto incluye tres aspectos. En primer lugar, la pérdida de \(L_{template}\) se basa en la muestra de la plantilla y la región de búsqueda para permitir que la red rastree como un rastreador siamés existente usando la plantilla. En segundo lugar, la pérdida de \(L_{update}\) se obtiene utilizando la muestra de actualización y la región de búsqueda, que también se puede considerar como una muestra de plantilla, lo que da como resultado un efecto de aumento de datos de muestra complementario. En tercer lugar, la pérdida de \(L_{overall}\) se obtiene mediante el uso de la plantilla actualizada, que es el resultado de la red de actualización de plantillas, y el área de búsqueda para aprender a rastrear la ubicación de un objeto utilizando la información de la plantilla actualizada. Finalmente, la pérdida de \(L_{final}\) se expresa como:

donde \(L_{template}\), \(L_{update}\) y \(L_{overall}\) se construyen como \(L_{total}\) de (19) pérdidas obtenidas utilizando la muestra de plantilla, actualización muestra y función de plantilla actualizada, respectivamente.

En esta sección, llevamos a cabo experimentos exhaustivos del rastreador AMST\(^2\) propuesto en varios conjuntos de datos de UAV, incluidos DTB7068, UAV12369, UAV123@10fps69, UAV20L69, UAVTrack112\(\_\)L70, VisDrone-SOT202071 y UAVDT72. Para evaluar el rendimiento del método de seguimiento visual de SOTA, comparamos cuantitativamente el rastreador propuesto con 51 rastreadores superiores existentes. Los métodos existentes incluyen rastreadores ligeros5,6,7,8,9,10,11,12,16,21,22,23,26,32,37,52,53,54,55,62,73,74 ,75,76 rastreadores y los rastreadores profundos26,27,28,29,30,31,33,39,40,46,47,48,49,50,51,77,78. Para una comparación justa, usamos rastreadores basados en redes siameses para toda la red troncal liviana como AlexNet. En todos los experimentos, utilizamos códigos disponibles públicamente o resultados proporcionados por el autor original.

En la fase de entrenamiento, AMST\(^2\) se entrenó en los conjuntos de datos ImageNet VID19, COCO79, GOT-10K80 y LaSOT81. Aprovechamos tres muestras para el entrenamiento. Usamos el mismo tamaño de parche 127 \(\times\) 127 tanto para la plantilla como para la actualización, y usamos el parche de búsqueda de tamaño 287 \(\times\) 287. Nuestra columna vertebral es una AlexNet con las últimas tres capas convertidas por TAdaConv y inicializado con pesos pre-entrenados de ImageNet. Para un aprendizaje eficiente del contexto temporal de TAdaConv, usamos un parche de búsqueda en la mitad y dos parches de búsqueda en un tercio para toda la época, respectivamente, y tres parches de búsqueda para las épocas restantes. La arquitectura del transformador consta de una capa de codificador espacial multinivel, una capa de codificador temporal, una capa de codificador de agregación y dos capas de decodificador multicontexto. Nuestras redes completas están entrenadas con descenso de gradiente estocástico (SGD) con impulso y caída de peso de 0.9 y 0.0001, respectivamente. El tamaño del lote fue de 180 y la red se entrenó para 100 épocas. Durante las primeras 20 épocas, las capas de la columna vertebral se congelan y las épocas restantes afinan las últimas tres capas. Utilizamos una tasa de aprendizaje de calentamiento de 0,005 a 0,01 en las primeras 10 épocas y una tasa de aprendizaje decreciente de 0,01 a 0,00005 en el espacio de registro en las épocas restantes. El proceso de formación se realizó con dos GPU NVIDIA RTX 3090.

En la fase de inferencia, para obtener el conocimiento previo temporal inicial, calculamos la correlación entre la plantilla y los parches de búsqueda utilizando solo el marco inicial. Posteriormente, el seguimiento fluido de objetos fue posible haciendo coincidir continuamente la función del área de búsqueda recortada en función de la posición del objeto del cuadro anterior con la función de plantilla obtenida en el cuadro inicial o la función de plantilla actualizada a través de la red de actualización de plantilla. El umbral \(\tau\) del proceso de actualización de la plantilla se estableció en 0,8. Además, \(\delta\) se estableció en 50 para conjuntos de datos de seguimiento aéreo a corto plazo como DTB70 y 150 para conjuntos de datos aéreos a largo plazo como UAV123. Con el fin de suavizar el movimiento del objeto, se aplican la ventana de coseno y la penalización por cambio de escala al cuadro predicho para eliminar los valores atípicos de los límites y minimizar los grandes cambios de tamaño y proporción5,37. Después de eso, al seleccionar el cuadro de predicción con la mejor puntuación, el tamaño del cuadro delimitador se actualiza mediante interpolación lineal. La figura 2 muestra un proceso de seguimiento completo, donde nuestro rastreador opera en una sola GPU NVIDIA RTX 3090 para el seguimiento en tiempo real.

Empleamos One Pass Evaluation (OPE)69,82 para evaluar el método propuesto. OPE se basa en dos métricas: (1) precisión y (2) tasa de éxito.

La precisión aprovecha el error de ubicación central (CLE) entre el cuadro delimitador previsto y el cuadro de verdad del terreno.

donde \(c_{t}\) y \(c_{t}^{gt}\) representan respectivamente el centro de los t-ésimos cuadros delimitadores predichos y de verdad básica, y \(\left\| \cdot \right \|\) son las distancias euclidianas. El gráfico de precisión muestra el porcentaje de fotogramas en los que el error de ubicación central está por debajo de un umbral específico. Se utiliza un umbral de 20 píxeles para evaluar y clasificar los rastreadores.

La tasa de éxito se calcula superpuesta como el IOU entre los cuadros delimitadores predichos y reales. La relación de superposición \(\textbf{OR}_{t}\) en el cuadro t-ésimo se expresa como:

donde \(\cap\) y \(\cup\) representan respectivamente la intersección y la unión de regiones de dos cajas, y \(\left| \cdot \right|\) es el número de píxeles en la región. El gráfico de éxito muestra el porcentaje de fotogramas exitosos cuya relación de superposición está más allá de un umbral predefinido que varía de 0 a 1. La puntuación del área bajo la curva (AUC) del gráfico de éxito se adopta principalmente para clasificar los rastreadores.

Comparación del rendimiento general con los seguidores ligeros. La evaluación utilizó las gráficas de precisión y éxito del rastreador propuesto y otros 29 rastreadores livianos.

DTB7068 contiene 70 secuencias desafiantes construidas a partir de datos recopilados por UAV. Además, varias escenas desafiantes con traslación, rotación y diferente tamaño y relación de aspecto debido al movimiento de la cámara complican aún más el conjunto de datos. La robustez de nuestro rastreador en varios escenarios complejos causados por el movimiento rápido del UAV se puede demostrar con este punto de referencia. Como resultado de la comparación con otros rastreadores, AMST\(^2\) logró una precisión (0,851) y una tasa de éxito (0,658), ocupando el primer lugar, y los resultados se muestran en la Fig. 5. En comparación con el segundo mejor y el tercero -mejor lugar TCTrack (0.815) y HiFT (0.804), la precisión mejoró en alrededor de 4.4\(\%\) y 5.8\(\%\), respectivamente. Del mismo modo, en la tasa de éxito, AMST\(^2\) tiene un aumento de rendimiento de 6,0\(\%\) y 10,8\(\%\) sobre TCTrack (0,621) y HiFT (0,594), respectivamente.

El UAV12369 es un punto de referencia de seguimiento aéreo a gran escala recopilado desde un punto de vista aéreo que consta de un total de 123 secuencias de video que contienen más de 112 K cuadros. El objeto en el conjunto de datos es difícil de rastrear debido al cambio a gran escala, el cambio de iluminación y la oclusión, especialmente los objetos pequeños. Como se muestra en la Fig. 5, el AMST\(^2\) supera a todos los demás rastreadores tanto en precisión como en tasa de éxito. En términos de precisión, el método propuesto supera al segundo mejor TCTrack (0,800) y al tercer mejor HiFT (0,787) por 4,0\(\%\) y 5,7\(\%\), respectivamente, con una puntuación de precisión (0,832 ). La tasa de éxito también logró un mejor aumento del rendimiento de alrededor de 4,3\(\%\) y 7,0\(\%\), respectivamente, en comparación con los rastreadores de referencia.

El UAV123@10fps69 se reduce mediante la adopción de la velocidad de imagen de 10FPS de la versión original UAV123. El problema de seguimiento es más desafiante que la versión original porque el desplazamiento del movimiento y la variación del objeto son mayores. Como se muestra en la Fig. 5, nuestro rastreador logra el mejor rendimiento en términos de precisión (0,798) y tasa de éxito (0,616). Esto muestra claramente que nuestro rastreador es capaz de realizar un seguimiento sólido en datos aéreos discontinuos sin degradación del rendimiento debido a la velocidad de fotogramas de la imagen.

El UAV20L69 se utilizó para la evaluación del rendimiento del seguimiento a largo plazo. Este punto de referencia es un subconjunto de UAV123 y consta de 20 secuencias de seguimiento a largo plazo con un promedio de 2934 fotogramas. Como se muestra en la Tabla 1, AMST\(^2\) alcanza el primer lugar con una precisión de 0,784, por delante del segundo y tercer lugar TCTrack (0,780) y HiFT (0,763) por un pequeño margen de alrededor de 0,5\(\%\ ) y 2,8\(\%\), respectivamente. Además, la tasa de éxito de AMST\(^2\) tiene la mejor puntuación (0,601), mostrando un mejor rendimiento de seguimiento que TCTrack (0,580) y HiFT (0,566). Esto representa que el método propuesto genera mejores funciones para el seguimiento que los métodos existentes en conjuntos de datos a largo plazo.

UAVTrack112_L70 es un conocido conjunto de datos de seguimiento a largo plazo diseñado para el seguimiento aéreo, que consta de más de 60 000 fotogramas y un subconjunto de UAVTrack11270. Como se demuestra en la Tabla 2, AMST\(^2\) es un rastreador más resistente en comparación con los rastreadores de última generación. AMST\(^2\) asegura el primer puesto con una puntuación de precisión de 0,835, superando a TCTrack (0,786) y SiamRPN++ (0,769) en aproximadamente un 6,2 % y un 8,6 %, respectivamente. En términos de tasa de éxito (0,629), AMST\(^2\) también demuestra un rendimiento superior al de otros rastreadores. Estos resultados confirman la superioridad de nuestro rastreador sobre los rastreadores livianos existentes en los puntos de referencia a largo plazo.

Gráficos de éxito de OPE de los atributos del conjunto de datos DTB70 y UAV123. Las diversas evaluaciones basadas en atributos en los puntos de referencia de seguimiento aéreo DTB70 y UAV123.

Rendimiento general de los atributos del conjunto de datos UAV123@10fps. Toda la evaluación basada en atributos de los 10 mejores rastreadores en el punto de referencia de seguimiento aéreo UAV123@10fps. Las fuentes rojas y azules representan las puntuaciones más altas y más bajas, respectivamente.

Debido al severo movimiento de los UAV, el seguimiento aéreo enfrenta varios desafíos. Los atributos se anotaron en los conjuntos de datos de referencia, como se muestra en las Figs. 6 y 7 para evaluar el rendimiento del rastreador en diversas condiciones desafiantes.

La Figura 6 ilustra que el rastreador propuesto supera a otros rastreadores livianos en varios escenarios desafiantes en los puntos de referencia DTB70 y UAV123. La Figura 7 muestra los resultados de la evaluación de todos los atributos en el punto de referencia UAV123@10fps. En términos de precisión, nuestro rastreador asegura la segunda mejor posición en condiciones de objetos similares y de baja resolución, y el primer lugar en todos los demás atributos. En particular, AMST\(^2\) demuestra la tasa de éxito más alta entre todos los atributos en el conjunto de datos UAV123@10fps. Al utilizar información espacial y temporal de múltiples niveles, nuestro rastreador exhibe un rendimiento excepcional en varios escenarios, como variación de escala, deformación, movimiento rápido de cámara y oclusión, entre otros. Además, las actualizaciones de plantilla en el nivel de función de plantilla ofrecen la ventaja de un seguimiento más sólido para variaciones extremas.

Para validar los impactos del método propuesto, realizamos varios estudios de ablación en el conjunto de datos DTB70. Evaluamos cinco variantes de nuestro rastreador, que incluyen: (1) MS, que usa solo las funciones del codificador espacial multinivel como primera línea base, (2) TE, que usa solo un codificador temporal como segunda línea base, (3 ) MS+TE, que aplica codificadores espaciales y temporales multinivel, (4) MS+TE+TU, un modelo en el que se agrega una red de actualización de plantillas a MS+TE, y (5) MS+TE+AE+ TU, el modelo final que incluye el codificador de agregación añadido a MS+TE+TU. En este estudio de ablación, se utilizó la misma estructura decodificadora multicontexto sobre el método de aplicación de información espacial y temporal de varios niveles. Como se muestra en la Tabla 3, nuestra contribución no solo demuestra un rendimiento sobresaliente en varias condiciones complejas, sino que también muestra la puntuación más alta en precisión y tasa de éxito.

La comparación de la calidad y la velocidad de los rastreadores de última generación con redes troncales más profundas en DTB70. Los rastreadores utilizados para la comparación consisten en rastreadores que adoptan una red troncal más profunda que AlextNet.

Resultados de comparación basados en atributos de rastreadores con redes troncales más profundas. Los rastreadores utilizados para la comparación se componen de rastreadores con las 10 mejores velocidades de carrera entre los rastreadores profundos.

Nuestro objetivo era mejorar la solidez de nuestro seguimiento aéreo propuesto mediante la combinación de información espacial y temporal de varios niveles, y así manejar condiciones complejas. Para obtener resultados más claros, comparamos nuestro método con 22 rastreadores de última generación con estructuras más profundas. Como se muestra en la Fig. 8, aunque nuestro método utiliza una red troncal liviana, logra un rendimiento competitivo con una velocidad de seguimiento significativamente más rápida que AiATrack, que tiene la tasa de éxito más alta. Además, llevamos a cabo experimentos de comparación en todos los escenarios del DTB70 utilizando los 10 principales rastreadores basados en la velocidad de seguimiento para respaldar el análisis basado en atributos con rastreadores profundos. Como se muestra en la Fig. 9, nuestro rastreador supera a otros en varios escenarios complejos y desordenados. La representación robusta de características propuesta, que agrega contexto espacial y temporal de varios niveles, reduce la brecha de rendimiento con rastreadores más profundos basados en la red troncal y garantiza un seguimiento eficiente y sólido en varias escenas aéreas. La Tabla 4 presenta una comparación detallada entre el método propuesto y los rastreadores más profundos basados en la red troncal, así como los rastreadores de referencia. Realizamos evaluaciones de múltiples factores, incluidos fotogramas por segundo (fps), parámetros y métricas de rendimiento utilizando conjuntos de datos aéreos conocidos como VisDrone-SOT202071 y UAVDT72. VisDrone-SOT2020 se basa en datos recopilados de numerosas situaciones del mundo real sobre el clima y las variaciones de iluminación, y UAVDT también incluye varios marcos en escenarios complejos que confunden el rendimiento del rastreador, como el clima, la altitud, la vista de la cámara, la apariencia del objeto y la oclusión. Para mayor claridad, STARK y TransT usan una versión modificada de ResNet que elimina la última etapa, por lo que tienen menos parámetros que los rastreadores que usan otras redes troncales más profundas. HiFT, TCTrack y el rastreador propuesto muestran un tiempo de procesamiento más rápido con muchos menos parámetros y velocidades de seguimiento de más de 100 fps que los rastreadores profundos. Además, HiFT y TCTrack tienen ventajas en parámetros y fps sobre el rastreador propuesto, pero en términos de rendimiento, tienen un rendimiento inferior a los rastreadores profundos y al rastreador propuesto. Además, nuestro rastreador propuesto no solo demuestra una menor complejidad de parámetros en comparación con TransT, que logró la puntuación más alta en VisDrone-SOT2020, sino que también exhibe un rendimiento de precisión similar y un rendimiento de éxito comparable a los modelos de red troncal más profundos, incluso con el doble de fps. Estos resultados resaltan la eficiencia y la eficacia de nuestro rastreador propuesto en términos de uso de parámetros y rendimiento de rastreo general, mostrando su potencial para aplicaciones de rastreo aéreo en tiempo real. En el conjunto de datos UAVDT, el método propuesto muestra un rendimiento comparable al de los rastreadores de última generación, al tiempo que mantiene una baja complejidad de parámetros y una velocidad de procesamiento rápida. Estos hallazgos demuestran aún más la eficacia y eficiencia de nuestro método propuesto en tareas de seguimiento aéreo. Entre los rastreadores más profundos basados en la red troncal, hay rastreadores cercanos a los 100 fps, pero el rastreador propuesto supera en términos de parámetros y rendimiento. Por lo tanto, nuestro rastreador demuestra una mayor eficiencia en el rastreo aéreo utilizando UAV que muchos rastreadores SOTA con baja latencia, velocidad de rastreo rápida y rendimiento superior.

En este documento, presentamos la arquitectura de transformador basada en contexto temporal y espacial multinivel agregada (AMST\(^2\)), un enfoque novedoso para el seguimiento aéreo sólido que aprovecha la información espacial y temporal de varios niveles a través de un transformador basado en modelo. El enfoque propuesto incluye un codificador de agregación que mejora el mapa de similitud y un decodificador multicontexto que genera poderosos mapas de similitud refinados. La utilización de un transformador basado en información temporal y espacial multinivel agregado, junto con una red troncal liviana, aborda de manera efectiva los desafíos de la velocidad de seguimiento y el seguimiento aéreo cuando se emplean vehículos aéreos no tripulados. La adopción de un proceso de actualización de plantillas mejora aún más la solidez de nuestro enfoque frente a escenarios complejos.

Amplios experimentos en desafiantes puntos de referencia aéreos, incluidos DTB70, UAV123, UAV123@10fps, UAV20L y UAVTrack112\(\_\)L, demostraron que AMST\(^2\) supera a los métodos de vanguardia en términos de precisión y eficiencia.

Si bien nuestro enfoque muestra resultados prometedores, aún existen limitaciones que abordar, como la sensibilidad a las condiciones de poca luz y la necesidad de una gran cantidad de datos de entrenamiento. La investigación futura puede investigar formas de superar estas limitaciones y mejorar aún más la precisión y la eficiencia del seguimiento aéreo. En general, el enfoque propuesto representa un avance significativo en el desarrollo de sistemas de rastreo aéreo más robustos y efectivos.

Todos los datos generados o analizados en este estudio se incluyen en este artículo publicado. Los conjuntos de datos de entrenamiento y prueba utilizados en este estudio están disponibles públicamente y han sido citados de acuerdo con las reglas de investigación. Las descripciones detalladas de los conjuntos de datos y sus citas se pueden encontrar en la sección "Resultados experimentales" del documento. Por ejemplo, el conjunto de entrenamiento del conjunto de datos ImageNet VID se puede descargar desde el enlace https://image-net.org/challenges/LSVRC/2015/index.php. El conjunto de entrenamiento del conjunto de datos COCO se puede descargar desde https://cocodataset.org/#home, mientras que el conjunto de entrenamiento del conjunto de datos GOT-10K se puede descargar desde http://got-10k.aitestunion.com/. Además, se puede acceder al conjunto de entrenamiento del conjunto de datos de LaSOT a través de http://vision.cs.stonybrook.edu/~lasot/. Los conjuntos de prueba del conjunto de datos DTB70, los conjuntos de datos UAV123, UAV123@10fps y UAV20L, y el conjunto de datos UAVTrack112_L, el conjunto de datos VisDrone-SOT2020 y el conjunto de datos UAVDT se pueden descargar desde https://github.com/flyers/drone-tracking, https: //cemse.kaust.edu.sa/ivul/uav123, https://github.com/vision4robotics/SiamAPN, http://aiskyeye.com/ y https://sites.google.com/view/grli- uavdt, respectivamente.

Marvasti-Zadeh, SM, Cheng, L., Ghanei-Yakhdan, H. y Kasaei, S. Aprendizaje profundo para el seguimiento visual: una encuesta exhaustiva. Trans. IEEE. Intel. transporte sist. 20, 20 (2021).

Google Académico

Fu, C. et al. Seguimiento de objetos siameses para vehículos aéreos no tripulados: una revisión y un análisis exhaustivo. arXiv:2205.04281 (versión preliminar de arXiv) (2022).

Fu, C., Li, B., Ding, F., Lin, F. y Lu, G. Filtros de correlación para el seguimiento aéreo basado en vehículos aéreos no tripulados: revisión y evaluación experimental. Trans. IEEE. Geosci. Sensor remoto 10, 125–160 (2022).

Artículo Google Académico

Bolme, DS, Beveridge, JR, Draper, BA y Lui, YM Seguimiento visual de objetos mediante filtros de correlación adaptativos. En Actas/Conferencia de la IEEE Computer Society sobre visión artificial y reconocimiento de patrones, 2544–2550 (2010).

Henriques, JF, Caseiro, R., Martins, P. & Batista, J. Seguimiento de alta velocidad con filtros de correlación kernelizados. Trans. IEEE. Patrón Anal. Mach. Intel. 37, 583–596 (2015).

Artículo PubMed Google Académico

Danelljan, M., Hager, G., Shahbaz Khan, F. y Felsberg, M. Aprendizaje de filtros de correlación espacialmente regularizados para el seguimiento visual. En Actas de la Conferencia internacional IEEE sobre visión artificial (ICCV), 4310–4318 (2015).

Bertinetto, L., Valmadre, J., Golodetz, S., Miksik, O. & Torr, PH Staple: Estudiantes complementarios para seguimiento en tiempo real. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 1401–1409 (2016).

Danelljan, M., Häger, G., Khan, FS y Felsberg, M. Seguimiento espacial de escala discriminativa. Trans. IEEE. Patrón Anal. Mach. Intel. 39, 1561–1575 (2017).

Artículo PubMed Google Académico

Kiani Galoogahi, H., Fagg, A. y Lucey, S. Aprendizaje de filtros de correlación conscientes del fondo para el seguimiento visual. En Actas de la Conferencia internacional IEEE sobre visión por computadora (ICCV), 1135–1143 (2017).

Wang, C., Zhang, L., Xie, L. y Yuan, J. Correlador cruzado de Kernel. En Actas de la Conferencia AAAI sobre Inteligencia Artificial, vol. 32 (2018).

Huang, Z., Fu, C., Li, Y., Lin, F. y Lu, P. Aprendizaje de filtros de correlación reprimidos por aberraciones para el seguimiento de UAV en tiempo real. En Actas de la Conferencia internacional IEEE/CVF sobre visión artificial (ICCV), 2891–2900 (2019).

Ma, C., Huang, J.-B., Yang, X. y Yang, M.-H. Funciones convolucionales jerárquicas para el seguimiento visual. En Actas de la Conferencia Internacional IEEE sobre Visión por Computador (ICCV) (2015).

Qi, Y. et al. Seguimiento profundo cubierto. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 4303–4311 (2016).

Choi, J. et al. Compresión de características profundas consciente del contexto para el seguimiento visual de alta velocidad. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 479–488 (2018).

Nam, H. & Han, B. Aprendizaje de redes neuronales convolucionales multidominio para el seguimiento visual. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 4293–4302 (2016).

Danelljan, M., Bhat, G., Shahbaz Khan, F. & Felsberg, M. ECO: Operadores de convolución eficientes para el seguimiento. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 6638–6646 (2017).

Canción, Y. et al. VITAL: seguimiento visual a través del aprendizaje antagónico. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 8990–8999 (2018).

Pu, S., Song, Y., Ma, C., Zhang, H. y Yang, M.-H. Seguimiento profundo y atento a través del aprendizaje recíproco. En Proceedings of Advances in Neural Information Processing Systems (NIPS), vol. 31, 1931-1941 (2018).

Russakovsky, O. et al. Desafío de reconocimiento visual a gran escala de ImageNet. En t. J. Cómputo. Vis. 115, 211–252 (2015).

Artículo MathSciNet Google Académico

Tao, R., Gavves, E. & Smeulders, AW Búsqueda de instancias siameses para seguimiento. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 1420–1429 (2016).

Bertinetto, L., Valmadre, J., Henriques, JF, Vedaldi, A. & Torr, PHS Redes siamesas totalmente convolucionales para seguimiento de objetos. En Actas de la Conferencia Europea sobre Talleres de Visión por Computador (ECCVW), 850–865 (2016).

Guo, Q. et al. Aprendizaje de la red siamesa dinámica para el seguimiento visual de objetos. En Actas de la Conferencia internacional IEEE sobre visión por computadora (ICCV), 1763–1771 (2017).

Zhu, Z. et al. Redes siamesas conscientes de los distractores para el seguimiento visual de objetos. En Actas de la Conferencia Europea IEEE sobre Visión por Computador (ECCV), 101–117 (2018).

Wang, Q. et al. Atenciones de aprendizaje: Red siamesa atencional residual para seguimiento visual en línea de alto rendimiento. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 4854–4863 (2018).

Wang, X., Li, C., Luo, B. & Tang, J. SINT++: Seguimiento visual robusto a través de la generación de instancias positivas antagónicas. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 4864–4873 (2018).

Li, B. et al. SiamRPN++: Evolución del seguimiento visual siamés con redes muy profundas. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 4282–4291 (2019).

Danelljan, M., Bhat, G., Khan, FS y Felsberg, M. ATOM: seguimiento preciso mediante maximización de superposición. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 4660–4669 (2019).

Bhat, G., Danelljan, M., Gool, LV y Timofte, R. Predicción del modelo discriminativo de aprendizaje para el seguimiento. En Actas de la Conferencia internacional IEEE/CVF sobre visión artificial (ICCV), 6182–6191 (2019).

Chen, Z., Zhong, B., Li, G., Zhang, S. & Ji, R. Red adaptativa de caja siamesa para seguimiento visual. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 6668–6677 (2020).

Guo, D., Wang, J., Cui, Y., Wang, Z. & Chen, S. SiamCAR: clasificación y regresión totalmente convolucional siamesa para seguimiento visual. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 6269–6277 (2020).

Zhang, Z., Peng, H., Fu, J., Li, B. y Hu, W. Ocean: seguimiento sin anclaje con reconocimiento de objetos. En Actas de la Conferencia Europea sobre Visión por Computador (ECCV), 771–787 (2020).

Li, X., Ma, C., Wu, B., He, Z. y Yang, M.-H. Seguimiento profundo con reconocimiento de objetivos. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 1369–1378 (2019).

Xu, Y., Wang, Z., Li, Z., Yuan, Y. & Yu, G. SiamFC++: Hacia un seguimiento visual robusto y preciso con pautas de estimación de objetivos. En Actas de la Conferencia AAAI sobre Inteligencia Artificial vol. 34, 12549–12556 (2020).

Zhou, W. et al. SiamCAN: seguimiento visual en tiempo real basado en la red consciente del centro siamés. Trans. IEEE. Proceso de imagen 30, 3597–3609 (2021).

Artículo ADS PubMed Google Scholar

Yu, Y., Xiong, Y., Huang, W. & Scott, MR Redes de atención siamesas deformables para el seguimiento visual de objetos. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 6728–6737 (2020).

Krizhevsky, A., Sutskever, I. & Hinton, GE Clasificación de ImageNet con redes neuronales convolucionales profundas. En Proceedings of Advances in Neural Information Processing Systems (NIPS), vol. 25 (2012).

Li, B., Yan, J., Wu, W., Zhu, Z. y Hu, X. Seguimiento visual de alto rendimiento con la red de propuestas de la región siamesa. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 8971–8980 (2018).

He, K., Zhang, X., Ren, S. y Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 770–778 (2016).

Wang, Q., Zhang, L., Bertinetto, L., Hu, W. & Torr, PH Segmentación y seguimiento rápido de objetos en línea: un enfoque unificador. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 1328–1338 (2019).

Danelljan, M., Gool, LV & Timofte, R. Regresión probabilística para seguimiento visual. En Proc. Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 7183–7192 (2020).

Valmadre, J., Bertinetto, L., Henriques, J., Vedaldi, A. & Torr, PHS Aprendizaje de representación de extremo a extremo para el seguimiento basado en filtros de correlación. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 2805–2813 (2017).

Wang, Q., Gao, J., Xing, J., Zhang, M. & Hu, W. DCFNet: Red de filtros de correlación discriminantes para seguimiento visual. arXiv:1704.04057 (versión preliminar de arXiv) (2017).

Shen, Q. et al. Aprendizaje no supervisado de rastreo siamés preciso. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 8101–8110 (2022).

Sol, X. et al. Rastreador siamés actualizable con aprendizaje de dos etapas de una sola vez. arXiv:2104.15049 (versión preliminar de arXiv) (2021).

Zhang, L., Gonzalez-Garcia, A., Weijer, J. vd, Danelljan, M. & Khan, FS Aprendiendo la actualización del modelo para rastreadores siameses. En Actas de la Conferencia internacional IEEE/CVF sobre visión artificial (ICCV), 4010–4019 (2019).

Guo, D. et al. Seguimiento gráfico de la atención. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 9543–9552 (2021).

Chen, X. et al. Seguimiento de transformadores. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 8126–8135 (2021).

Wang, N., Zhou, W., Wang, J. & Li, H. El transformador se encuentra con el rastreador: Explotación del contexto temporal para un seguimiento visual sólido. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 1571–1580 (2021).

Yan, B., Peng, H., Fu, J., Wang, D. y Lu, H. Transformador espacio-temporal de aprendizaje para el seguimiento visual. En Actas de la Conferencia IEEE/CVF sobre Visión por Computador (ICCV), 10448–10457 (2021).

Mayer, C. et al. Transformación de la predicción del modelo para el seguimiento. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 8731–8740 (2022).

Gao, S., Zhou, C., Ma, C., Wang, X. & Yuan, J. AiATrack: Atención en la atención para el seguimiento visual del transformador. En Actas de la Conferencia Europea sobre Visión por Computador (ECCV), 146–164 (2022).

Fu, C., Cao, Z., Li, Y., Ye, J. y Feng, C. Red de propuesta de anclaje siamés para seguimiento aéreo de alta velocidad. En Actas de la Conferencia Internacional IEEE sobre Robótica y Automatización (ICRA), 510–516 (2021).

Cao, Z., Fu, C., Ye, J., Li, B. & Li, Y. SiamAPN++: red de agregación atencional siamesa para seguimiento de UAV en tiempo real. En Conferencia internacional IEEE/RSJ sobre sistemas y robots inteligentes (IROS), 3086–3092 (2021).

Cao, Z., Fu, C., Ye, J., Li, B. y Li, Y. HiFT: transformador de características jerárquicas para seguimiento aéreo. En Actas de la Conferencia internacional IEEE sobre visión artificial (ICCV), 15457–15466 (2021).

Cao, Z. et al. TCTrack: Contextos temporales para rastreo aéreo. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 14798–14808 (2022).

Vaswani, A. et al. La atención es todo lo que necesitas. En Proceedings of Advances in Neural Information Processing Systems (NIPS), vol. 30, 6000–6010 (2017).

Alexey, D. et al. Una imagen vale 16x16 palabras: Transformadores para el reconocimiento de imágenes a escala. En Actas de la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR) (2021).

Carión, N. et al. Detección de objetos de extremo a extremo con transformadores. En Actas de la Conferencia Europea sobre Visión por Computador (ECCV), 213–229 (2020).

Girdhar, R., Carreira, J., Doersch, C. & Zisserman, A. Video action transformer network. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 244–253 (2019).

Cui, Y., Jiang, C., Wang, L. y Wu, G. MixFormer: Seguimiento integral con atención mixta iterativa. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 13608–13618 (2022).

Chen, B. et al. Backbone is All Your Need: una arquitectura simplificada para el seguimiento visual de objetos. En Actas de la Conferencia Europea sobre Visión por Computador (ECCV), 375–392 (2022).

Li, Y., Fu, C., Ding, F., Huang, Z. & Lu, G. AutoTrack: Hacia un seguimiento visual de alto rendimiento para UAV con regularización espacio-temporal automática. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 11923–11932 (2020).

Marvasti-Zadeh, SM, Khaghani, J., Ghanei-Yakhdan, H., Kasaei, S. y Cheng, L. COMET: red guiada por IoU consciente del contexto para el seguimiento de objetos pequeños. En Actas de la Conferencia asiática sobre visión artificial (ACCV), 594–611 (2020).

Szegedy, C. et al. Profundizando con las circunvoluciones. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 1–9 (2015).

Sandler, M., Howard, A., Zhu, M., Zhmoginov, A. y Chen, L.-C. MobileNetV2: Residuales invertidos y cuellos de botella lineales. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 4510–4520 (2018).

Huang, Z. et al. ¡TAda! circunvoluciones adaptables temporalmente para la comprensión de video. En Actas de la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR) (2022).

Zheng, Z. et al. Pérdida de distancia-IoU: aprendizaje más rápido y mejor para la regresión de cuadro delimitador. En Actas de la Conferencia AAAI sobre Inteligencia Artificial, vol. 34, 12993–13000 (2020).

Li, S. y Yeung, D.-Y. Seguimiento visual de objetos para vehículos aéreos no tripulados: un punto de referencia y nuevos modelos de movimiento. En Actas de la Conferencia AAAI sobre Inteligencia Artificial vol 31, 1–7 (2017).

Mueller, M., Smith, N. & Ghanem, B. Un punto de referencia y simulador para el seguimiento de UAV. En Actas de la Conferencia Europea sobre Visión por Computador (ECCV), 445–461 (2016).

Fu, C., Cao, Z., Li, Y., Ye, J. y Feng, C. Seguimiento aéreo a bordo en tiempo real con una red eficiente de propuesta de anclaje siamés. Trans. IEEE. Geosci. Sensores remotos 60, 1–13 (2022).

Google Académico

Ventilador, H. et al. VisDrone-SOT2020: La visión se encuentra con los resultados del desafío de seguimiento de objetos únicos de drones. En Actas de la Conferencia Europea sobre Talleres de Visión por Computador (ECCVW), 728–749 (2020).

Du, D. et al. El punto de referencia de los vehículos aéreos no tripulados: Detección y seguimiento de objetos. En Actas de la Conferencia Europea sobre Visión por Computador (ECCV), 370–386 (2018).

Lukezic, A., Vojir, T., Cehovin Zajc, L., Matas, J. & Kristan, M. Filtro de correlación discriminativa con canal y confiabilidad espacial. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 6309–6318 (2017).

Wang, N. et al. Filtros de correlación de señales múltiples para un seguimiento visual sólido. En Procedimientos de IEEE Computer Vision and Pattern Recognition (CVPR), 4844–4853 (2018).

Li, F., Tian, C., Zuo, W., Zhang, L. y Yang, M.-H. Aprendizaje de filtros de correlación espacial-temporal regularizados para el seguimiento visual. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 4904–4913 (2018).

Wang, N. et al. Seguimiento profundo no supervisado. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 1308–1317 (2019).

Mayer, C., Danelljan, M., Paudel, DP y Van Gool, L. Aprendizaje de la asociación de candidatos objetivo para realizar un seguimiento de lo que no se debe realizar. En las Actas de la Conferencia Internacional IEEE Visión por Computador (ICCV), 13444–13454 (2021).

Sosnovik, I., Moskalev, A. & Smeulders, AW La equivalencia de escala mejora el seguimiento siamés. En Actas de la Conferencia de invierno del IEEE sobre aplicaciones de visión artificial (WACV), 2765–2774 (2021).

Lin, T.-Y. et al. Microsoft COCO: Objetos comunes en contexto. En Actas de la Conferencia Europea sobre Visión por Computador (ECCV), 740–755 (2014).

Huang, L., Zhao, X. & Huang, K. GOT-10k: Un gran punto de referencia de alta diversidad para el seguimiento de objetos genéricos en la naturaleza. Trans. IEEE. Patrón Anal. Mach. Intel. 43, 1562-1577 (2019).

Artículo Google Académico

Ventilador, H. et al. LaSOT: un punto de referencia de alta calidad para el seguimiento de un solo objeto a gran escala. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones (CVPR), 5374–5383 (2019).

Wu, Y., Lim, J. y Yang, M.-H. Seguimiento de objetos en línea: un punto de referencia. En Actas de la Conferencia internacional IEEE sobre visión artificial (ICCV), 2411–2418 (2013).

Descargar referencias

Este trabajo fue apoyado en parte por la subvención del Instituto de Planificación y Evaluación de Tecnologías de la Información y las Comunicaciones (IITP) financiada por el Gobierno de Corea (MSIT) [2021-0-01341, Programa de Escuela de Graduados de Inteligencia Artificial (Universidad Chung-Ang)], y en parte por Proyecto de desarrollo tecnológico orientado al campo para la administración de aduanas a través de la Fundación Nacional de Investigación de Corea (NRF) financiado por el Ministerio de Ciencia y TIC y el Servicio de Aduanas de Corea (2021M3I1A1097911).

Departamento de Imagen, Universidad Chung-Ang, 84 Heukseok-ro, Seúl, 06974, Corea

Parque Hasil, Dasol Jeong y Joonki Paik

Departamento de Inteligencia Artificial, Universidad Chung-Ang, 84 Heukseok-ro, Seúl, 06974, Corea

Injae Lee y Joonki Paik

También puede buscar este autor en PubMed Google Scholar

HP diseñó y desarrolló el algoritmo y realizó el experimento. IL realizó experimento y análisis de datos. DJ realizó el análisis de datos. JP guió el proyecto y escribió el borrador original. Todos los autores revisaron el manuscrito.

Correspondencia a Joonki Paik.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Park, H., Lee, I., Jeong, D. et al. AMST2: transformador agregado multinivel espacial y temporal basado en el contexto para un seguimiento aéreo sólido. Informe científico 13, 9062 (2023). https://doi.org/10.1038/s41598-023-36131-2

Descargar cita

Recibido: 03 Abril 2023

Aceptado: 30 de mayo de 2023

Publicado: 04 junio 2023

DOI: https://doi.org/10.1038/s41598-023-36131-2

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.