Estudio revela que los modelos de lenguaje para programación desarrollan personalidades y presentan vulnerabilidades de seguridad

Un análisis reciente descubre cómo los modelos de lenguaje muestran personalidades y enfrentan problemas de seguridad y fiabilidad en generación de código.

Publicado: 27-08-2025 09:58

Un estudio reciente realizado por la empresa ginebrina Sonar, especializada en análisis de calidad de código, revela que los grandes modelos de lenguaje (LLM) que generan código desarrollan "personalidades" específicas según su entrenamiento y arquitectura. La investigación evaluó cinco modelos: Claude Sonnet 4 y 3.7 (Anthropic), GPT-4o (OpenAI), Llama 3.2 90B (Meta) y OpenCoder-8B (código abierto), que completaron más de 4.400 ejercicios de programación en Java.

Los resultados muestran que, aunque estos modelos comparten fortalezas como la generación de código sintácticamente correcto, habilidades algorítmicas sólidas y la capacidad de transferir conceptos entre lenguajes como Java y Python, también presentan varias debilidades. Una de las principales preocupaciones es la falta de sensibilidad hacia aspectos de seguridad, ya que entre el 56% y el 70% del código generado presentaba vulnerabilidades clasificadas como "Blocker" o de grado superior, lo que supone un grave riesgo en su implementación real.

Además, los modelos muestran dificultades para seguir principios básicos del desarrollo de software, como evitar fugas de recursos o cumplir con contratos de API. Otra problemática recurrente es la producción de "code smell" o código difícil de mantener, que constituyó más del 90% de los errores detectados. Estas deficiencias evidencian que, pese a su versatilidad y rapidez, los modelos aún no garantizan un nivel de fiabilidad suficiente para su uso sin supervisión humana.

Sonar también clasifica a cada modelo según un "arquetipo" que describe su estilo de programación. Por ejemplo, Claude Sonnet 4 se define como un "arquitecto senior": produce código extenso y complejo, con un alto nivel de errores potenciales. OpenCoder-8B adopta un enfoque conciso, útil para prototipos rápidos pero con una mayor tasa de fallos, mientras que Llama 3.2 90B es considerado un "prometido incumplido", con desempeño medio y un perfil de seguridad especialmente vulnerable. GPT-4o, en cambio, es visto como un "generalista eficiente", versátil pero propenso a errores lógicos frecuentes. Finalmente, Claude 3.7 destaca por un estilo equilibrado y documentación exhaustiva.

Estos hallazgos generan interrogantes sobre la fiabilidad y seguridad del código generado por inteligencia artificial, especialmente en un contexto donde estas herramientas se integran cada vez más en la rutina laboral del personal desarrollador. Desde Sonar, se sostiene que la supervisión humana y el apoyo de análisis automatizados son imprescindibles para mitigar riesgos. En Suiza, donde los asistentes de IA ya están asentados en el mercado laboral, aproximadamente una de cada dos personas expresa preocupación por la posible pérdida de empleos debido a estas tecnologías.