Investigadores chinos desarrollan DeepSeek-OCR para mejorar la gestión de conversaciones extensas en chatbots
Investigadores chinos avanzan en inteligencia artificial con DeepSeek-OCR, una tecnología que revoluciona la gestión eficiente y precisa de largas conversaciones en chatbots.
Investigadores chinos en inteligencia artificial desarrollan una innovadora tecnología que permitirá a los chatbots manejar historias de conversación extensas de forma más rápida y económica, manteniendo una alta precisión. Este avance, llamado DeepSeek-OCR, utiliza una técnica de compresión visual del contexto que reduce diez veces la cantidad de datos necesarios para procesar el historial de conversación, alcanzando una precisión del 97%.
El principal problema de los chatbots actuales es que deben reevaluar toda la historia del diálogo en cada respuesta, lo que genera retrasos y elevados costes de procesamiento. La solución de DeepSeek consiste en almacenar la conversación como una imagen comprimida que requiere significativamente menos tokens — aproximadamente 100 en lugar de 1.000 —, lo que permite respuestas mucho más rápidas y eficientes, especialmente en el manejo de documentos PDF largos.
Este sistema no solo reconoce texto mediante OCR (Reconocimiento Óptico de Caracteres), sino que también transforma diagramas en tablas de Excel, convierte fórmulas químicas en formatos legibles por máquina (como SMILES) y analiza figuras geométricas. Además, soporta casi 100 idiomas en un solo modelo, ampliando su aplicabilidad en diversos contextos internacionales.
Para imitar la memoria humana y priorizar información reciente, DeepSeek emplea distintas resoluciones para almacenar recuerdos: los datos más cercanos se mantienen en alta resolución, mientras que los antiguos se degradan a menor resolución. Gracias a su entrenamiento con más de 30 millones de páginas PDF en torno a 100 idiomas, junto con millones de imágenes y muestras sintéticas, el sistema puede procesar actualmente más de 200.000 páginas diarias con hardware estándar como la GPU Nvidia A100, lo que lo hace idóneo para aplicaciones masivas en sectores como seguros, administración pública y editoriales.
Los desarrolladores consideran que esta tecnología aún está en fase exploratoria y reconocen desafíos pendientes, como su rendimiento en búsquedas específicas dentro de contextos largos, por ejemplo, búsquedas tipo «aguja en un pajar». Sin embargo, con su arquitectura innovadora, DeepSeek busca ofrecer una alternativa a las soluciones tradicionales, que habitualmente dependen de la escalabilidad. Además, su código y modelos están disponibles en GitHub para que otros investigadores puedan experimentar con esta propuesta.