La respuesta corta es sí, y mucho mejor. La respuesta larga requerirá una explicación más detallada de lo que consideramos “ver”, que va más allá de una simple acción mecánica y es un proceso cognitivo complejo que atribuimos explícitamente a los seres humanos.
Pese a ello, lo cierto es que nuestra visión, comparada con la de otros seres vivos, es bastante media a pobre. Aunque podemos percibir los colores de forma aceptable, nuestra agudeza visual a largas distancias es bastante mediocre y nuestra capacidad para discernir detalles es muy limitada.
Existen innumerables ejemplos entre otras especies cuyos órganos visuales (y sensoriales en general) están mucho mejor desarrollados que los nuestros. Así, hemos desarrollado estrategias tecnológicas que nos permiten ir más allá de nuestras limitadas capacidades biológicas “de fábrica”.
Máquinas “estúpidas” que ven mejor que nosotros
Resulta que las máquinas que creamos para ampliar nuestra visión más allá de nuestras capacidades “ven” mucho mejor que nosotros. Esto a pesar de que insistimos en que siguen siendo máquinas “tontas”, ya que carecen de esa capacidad humana de “ver”, es decir, de “comprender”.
Tenemos ejemplos muy recientes de cómo la tecnología de la imagen ha avanzado hacia lo que el filósofo alemán Martin Heidegger llamó “la era de la imagen del mundo” en su ensayo del mismo nombre, “La era de la imagen del mundo”.
Desgraciadamente, esta visión mejorada, que nos permite ver cada rincón del planeta como nunca antes, también sirve, por ejemplo, para la vigilancia militar, la monitorización por satélite y los ataques a “objetivos enemigos”. Un ejemplo son los recientes acontecimientos militares en Irán que utilizaron drones FPV (First Person View).
Somos fáciles de engañar
Al mismo tiempo, la inteligencia artificial generativa avanza, creando imágenes realistas y complejas que nos cuesta distinguir de la realidad. Podemos ponernos a prueba con pruebas como la que creó Microsoft para determinar nuestra capacidad de “ver” qué personas realmente corresponden a personas reales y cuáles fueron creadas por IA. O podríamos realizar un experimento diseñado para servir como capacitación en detección de deepfake para futuros estudiantes de radiología.
Los datos empíricos confirman que la capacidad humana para distinguir imágenes falsas es aproximadamente del 62%. Pero la tasa de éxito es mucho menor cuando se trata de manipulaciones complejas: la capacidad de detectar deepfakes (imágenes creadas con herramientas de inteligencia artificial que además son muy baratas y accesibles) está por debajo del 25%. Se estima que en 2025 las organizaciones criminales internacionales facturarán más de 10 mil millones de dólares en este tipo de fraude.
Pero no sólo es posible que la IA genere imágenes mucho más rápido y eficientemente que nosotros (aunque no necesariamente sean “mejores”): los propios algoritmos de la IA también son expertos en detectar imágenes que han sido manipuladas o generadas directamente por la propia IA o por nosotros manualmente.
Imagen manipulada (izquierda)/detección de manipulación de copia y movimiento (derecha) utilizando el conjunto de datos CNN+ViT, CASIA 2.0. Proyecto SCIMFAKE: Filiberto Pla Banon y Francisco López Cantos. Falsificaciones en la ciencia.
En el ámbito de las publicaciones científicas, se han vuelto más frecuentes los escándalos relacionados con la falsificación de los resultados de los investigadores mediante la manipulación de imágenes. Aunque se encuentran en plataformas de colaboración como PubPeer y RetractionWatch, este tipo de abuso es muy común. Utilizando software convencional, cada vez es más fácil falsificar imágenes difíciles de detectar. En este sentido, las nuevas herramientas de IA no hacen más que aumentar la magnitud del problema y acelerar su propagación.
En nuestro proyecto de investigación, nos centramos en detectar la manipulación de copiar y mover, una técnica de manipulación de imágenes digitales en la que parte de una imagen se copia y pega en otra área de la misma imagen. El objetivo principal es aplicar nuestras soluciones a la investigación.
Para lograr esto, desarrollamos una arquitectura de red neuronal convolucional (CNN) combinada con el uso de redes de transformadores visuales (ViT). Hemos probado y optimizado su rendimiento mediante mejoras incrementales en bases de datos de referencia como CASIA y COMOFOD, que son utilizadas por grupos de investigación de todo el mundo para validar métodos de detección de vanguardia.
Lo que nuestro sistema de IA “ve” es el resultado de un proceso de aprendizaje automatizado en el que, después de dividir el conjunto de datos (los conjuntos de datos de entrenamiento) en tres subconjuntos de imágenes (entrenamiento, validación y prueba), se logran mayores tasas de éxito. Este es un proceso de aprendizaje iterativo que le permite mejorar su desempeño. Finalmente, la red neuronal se entrena para que cuando se le presente una nueva imagen, ya haya aprendido lo suficiente para determinar si contiene algún elemento clonado.
Cuando llega una nueva imagen, primero realizamos un procesamiento preliminar destinado a optimizarla y adaptarla, y luego pasamos a los procesos más críticos: reconocimiento e identificación de patrones.
Para el reconocimiento de patrones, se requiere un proceso de segmentación de la imagen, que implica dividirla en sus partes componentes. Esto se puede hacer utilizando el método clásico más simple de umbralización (separar objetos según su brillo) o mediante detección de bordes. Posteriormente, durante la fase de descripción, se extraen datos cuantitativos y características de dichos objetos, como área, perímetro o textura, como paso previo para su posterior interpretación automatizada.
Finalmente, el sistema asigna una etiqueta al objeto mediante un proceso de clasificación o reconocimiento automático (es decir, si se trata de un vehículo, un caballo, un televisor, etc.) en base a conocimientos previos. Así, el sistema compara las descripciones extraídas de la imagen con una base de datos de patrones conocidos utilizados en el proceso de aprendizaje automático y les asigna una etiqueta adecuada.
Los datos preliminares de nuestros experimentos en el proyecto SCIMFAKE nos permiten detectar falsificaciones con una precisión de aproximadamente el 95%, que es significativamente mayor que la que se puede lograr a simple vista. Estos resultados son consistentes con otros trabajos de vanguardia, especialmente los desarrollados por grupos de investigación asiáticos.
En resumen, para responder a la pregunta original, las máquinas “ven” mejor que nosotros. Mucho mejor. Me gustaría que fuera para mejor, pero lamentablemente también es para peor. Por ello, nos guste o no, la investigación y aplicación de las técnicas de visión artificial más avanzadas son necesarias hoy en día.

