Google lanza Magika 1.0, una herramienta de reconocimiento de archivos basada en IA y código abierto

TecnologíaGoogle

Google lanza Magika 1.0, una herramienta de reconocimiento de archivos basada en IA y código abierto

Google lanza Magika 1.0, una potente herramienta de reconocimiento de archivos con inteligencia artificial, optimizada para múltiples formatos y entornos de desarrollo.

Descripción

Se ha lanzado la primera versión estable de Magika, la herramienta de código abierto de Google para el reconocimiento de tipos de archivo mediante inteligencia artificial. Desarrollada completamente en Rust, esta aplicación ha sido renovada para soportar más de 200 formatos diferentes, el doble que en su versión alfa del año pasado, logrando mejoras significativas en rendimiento. Según Google, en un MacBook Pro con chip M4, Magika procesa casi 1.000 archivos por segundo.

La aplicación utiliza ONNX Runtime para realizar inferencias rápidas con IA y Tokio para gestionar el procesamiento asíncrono y paralelo, optimizando la velocidad y eficiencia en el reconocimiento de archivos. Además de un cliente nativo para línea de comandos, Magika cuenta con módulos integrables en proyectos de Python y TypeScript, facilitando su incorporación en distintos entornos de desarrollo.

La capacidad de reconocimiento se ha ampliado para abarcar formatos especializados de diferentes áreas. Esto incluye formatos de ciencia de datos como Jupyter Notebooks, arrays de NumPy y modelos de PyTorch, así como lenguajes de programación modernos como Swift, Kotlin, TypeScript, Dart, Solidity y Zig. También soporta archivos de configuración usados en DevOps, como Dockerfiles, TOML y HCL.

Una de las mejoras más notables es la capacidad de distinguir con mayor precisión entre formatos similares, como JSON y JSONL, o entre código en C y C++. Para entrenar este avanzado modelo, Google afrontó dos desafíos principales: ampliar un conjunto de datos de entrenamiento a más de 3 terabytes, utilizando la biblioteca interna SedPack para streaming eficiente; y generar datos sintéticos mediante la inteligencia artificial generativa Gemini para casos con pocos ejemplos reales, especialmente en formatos especializados o poco comunes.

Magika puede instalarse en sistemas operativos Linux, macOS y Windows, además de integrarse en proyectos mediante bibliotecas en Python, TypeScript y Rust. Desde su lanzamiento en versión alfa, el proyecto ha alcanzado más de un millón de descargas mensuales, consolidándose como una herramienta clave en la automatización y reconocimiento de archivos a nivel mundial.