DeepSeek desarrolla modelo de reconocimiento óptico basado en modelos de lenguaje con alta compresión y precisión para gestionar documentos complejos
Descubre cómo DeepSeek combina compresión visual y modelos de lenguaje para mejorar la extracción de datos en documentos digitales complejos.
En los últimos meses, la tecnología de reconocimiento óptico de caracteres (OCR) ha experimentado avances significativos con la llegada de nuevas soluciones basadas en modelos de lenguaje grande (LLM). Uno de los desarrollos más destacados es el modelo experimental lanzado por DeepSeek, un desarrollador chino de inteligencia artificial, que ha presentado una solución innovadora bajo licencia MIT que combina compresión visual y procesamiento de modelos de lenguaje para mejorar la extracción de texto y datos de documentos escaneados.
Este nuevo modelo de DeepSeek se presenta como una demostración técnica de un enfoque novedoso en la gestión de documentos digitales. Su principal innovación consiste en comprimir textos largos en imágenes con una precisión de hasta un 97% y una proporción de compresión de 10 veces, lo que permite un procesamiento mucho más eficiente en los sistemas de grandes modelos de lenguaje. Gracias a esta técnica, el modelo puede reconocer textos, gráficos, fórmulas matemáticas en LaTeX, estructuras químicas en formato SMILES y diagramas, superando a otros en la extracción de elementos visuales y datos complejos.
Según los investigadores, este enfoque reduce la carga de memoria en los modelos de lenguaje largo, que tradicionalmente enfrentan limitaciones importantes por el crecimiento cuadrático en el uso del caché de claves y valores (key-value cache). La idea de DeepSeek es representar el contexto como una imagen que, mediante tokens visuales comprimidos, contiene una mayor densidad de información, logrando que los modelos puedan procesar textos largos de manera más eficiente y con menores costes computacionales.
El sistema combina un codificador llamado DeepEncoder, que utiliza atención en ventanas y atención global junto con una compresión mediante convoluciones, permitiendo reducir la resolución de los tokens visuales y, por tanto, disminuir el requerimiento de memoria. Este codificador trabaja en conjunto con DeepSeek-3B-MoE, un modelo de lenguaje grande que emplea una arquitectura de expertos, logrando reconocer y transformar eficientemente diferentes tipos de contenido, como gráficos, fórmulas matemáticas complejas y diagramas químicos.
Las pruebas iniciales muestran resultados prometedores. En diferentes configuraciones, el modelo puede extraer texto con un rendimiento notable: en modo «Gundam» —que realiza un redimensionado automático— logró reconocer con casi errores mínimos un artículo completo en unos 40 segundos usando una tarjeta gráfica RTX 4090. Sin embargo, en otras versiones con mayor compresión, como la variante «Tiny» con una compresión de 25,8 veces, se evidencian problemas de hallucination (falsos reconocimientos) y errores en la interpretación de los textos, aunque con una mayor velocidad de procesamiento.
Además de la extracción de texto, DeepSeek-OCR puede analizar diagramas para extraer datos en forma de tablas y reconocer estructuras químicas en formato SMILES. Durante las pruebas, el sistema identificó correctamente la información en diagramas, aunque en algunos casos presenta errores menores o dificultades para resolver imágenes de baja calidad. La diferencia entre sus resultados y los de otros modelos existentes, como PaddleOCR-VL, aún muestra margen de mejora, pues estos sistemas han demostrado superioridad específica en la detección de diagramas y reconocimiento de fórmulas químicas.
Los creadores de DeepSeek aclaran que todavía se encuentra en una etapa de demostración técnica y que la incorporación de esta tecnología en sistemas comerciales o en modelos de lenguaje más grandes requiere de más pruebas y optimizaciones. Sin embargo, su enfoque innovador de representar el contexto mediante tokens visuales comprimidos abre nuevas posibilidades para gestionar textos largos y datos complejos en aplicaciones futuras.
Para obtener más información, así como acceso a la documentación y el código, los interesados pueden consultar los recursos disponibles en GitHub, Hugging Face y en el documento preprint publicado en arXiv. La comunidad científica y tecnológica observa con interés cómo estas innovaciones pueden transformar la forma en que los sistemas de inteligencia artificial procesan y comprenden documentos complejos en diferentes formatos y contenidos.