Claude 3.7 Sonnet destaca en evaluación de chatbots para roles de ética en inteligencia artificial

Un experimento experimenta el desempeño de los principales chatbots en tareas de ética y desempeño en entrevistas simuladas, revelando sus fortalezas y áreas de mejora.

Publicado: 06-05-2025 12:08

En un experimento innovador, se sometió a cuatro de los principales chatbots de inteligencia artificial —ChatGPT-4o, Claude 3.7 Sonnet, Gemini 2.0 y una versión ficticia llamada ChatGPT— a una serie de entrevistas simuladas para evaluar su capacidad en un puesto de ética en IA en una empresa tecnológica imaginaria. La evaluación se llevó a cabo en cinco rondas distintas, que incluyeron tareas de redacción, análisis de datos, manejo de fallos, formulación de preguntas y respuestas ante escenarios hipotéticos.

El objetivo fue determinar cuál de estos asistentes digitales ofrecía respuestas más naturales, profundas y equilibradas, con ejemplos concretos que demostraran comprensión y empatía. Los resultados indicaron que Claude 3.7 Sonnet destacó por su tono confiado y colaborativo, además de ofrecer respuestas con ejemplos sólidos que reflejaban un entendimiento profundo del rol. Se le reconoció por su fluidez natural y preferencia por proporcionar respuestas equilibradas y comprensivas.

Por otro lado, ChatGPT-4o mostró una gran capacidad para crear una propuesta de valor convincente y un tono de marca fuerte, siendo especialmente efectivo en la formulación de respuestas cortas, provocativas y con un toque humorístico en tareas creativas, como redactar titulares e introducciones para blogs. Su estilo cercano y ágil fue muy valorado en estas secciones.

Gemini 2.0, en cambio, tendió a ofrecer respuestas sobrecargadas de información y con un enfoque muy genérico, perdiendo personalidad y originalidad. Además, su tono resultó ser demasiado robotizado, con respuestas largas y menos orientadas a la acción, lo que lo hizo menos efectivo para escenarios prácticos y conversacionales.

En términos de manejo de fallos y aprendizaje, Claude fue la única que abordó estos aspectos de manera humanizada, reflejando una capacidad de autocrítica y crecimiento similar a la de líderes destacados, mientras que Gemini mostró una respuesta más limitada y menos creativa. Respecto a la formulación de preguntas, Claude destacó por su interés genuino y visión estratégica, haciendo preguntas sobre metas a corto y largo plazo del rol, y mostrando una comprensión profunda del puesto y del contexto.

Este experimento no solo reveló las diferencias en la calidad de interacción y capacidad de simular entrevistas humanas, sino que también sirvió como una guía práctica para personas que enfrentan procesos de selección. Se recomienda, para futuras entrevistas, estructurar las respuestas siguiendo el modelo de Claude, usando la técnica de la historia en tres partes para preguntas comportamentales y adaptando las preguntas según el rol específico. Aunque aún es improbable que estos chatbots sean considerados candidatos reales, su rendimiento en esta prueba abre la puerta a reflexionar sobre cómo la inteligencia artificial puede complementar y enriquecer procesos de selección y formación.