Las limitaciones de ChatGPT y Copilot en un juego clásico de Atari contrastan con expectativas de avances en inteligencia artificial

TecnologíaInteligencia artificial

Las limitaciones de ChatGPT y Copilot en un juego clásico de Atari contrastan con expectativas de avances en inteligencia artificial

Las IA más avanzadas enfrentan aún dificultades para entender y jugar un simple juego de Atari, demostrando límites en su capacidad lógica y contextual.

Descripción

Recientemente, dos de los modelos de inteligencia artificial más relevantes en la actualidad, Copilot y ChatGPT, fueron puestos a prueba en un desafío inesperado: jugar una partida de Video Chess en la Atari 2600, un juego clásico de 1979 que ocupa únicamente 4 KB de memoria. Sorprendentemente, los resultados fueron una derrota humillante para ambas IA, incluso enfrentándose a un oponente de hace más de 50 años, en un encuentro que duró 90 minutos en nivel principiante.

La prueba comenzó tras una conversación en la que ChatGPT se describió a sí mismo como un «jugador fuerte que fácilmente superaría al Video Chess de Atari». Motivado por esta afirmación, un ingeniero de Citrix, Caruso, utilizó un emulador para poner a prueba la competencia de la IA. Lo que empezó como una apuesta sencilla se convirtió en una demostración de las limitaciones actuales de estos sistemas.

Durante la partida, ChatGPT no solo confundió las piezas, sino que perdió la noción de cómo estaban dispuestas en el tablero, cometiendo errores básicos que llevaron a su derrota. Poco después, se probó con Copilot, que también afirmaba ser capaz de seguir el juego correctamente. Sin embargo, los resultados fueron aún más decepcionantes, ya que el renderizado del tablero que generaba la IA no coincidía con la realidad del juego, demostrando una falta de comprensión y seguimiento coherente del escenario.

Estos experimentos, aunque anecdóticos, sirven como metáforas de la situación actual de la inteligencia artificial. Mientras las grandes empresas tecnológicas anuncian avances revolucionarios y la posible sustitución de trabajos por IA, en la práctica estas tecnologías siguen fallando en tareas que requieren lógica abstracta y memoria persistente. Tanto Copilot como ChatGPT no «piensan» ni «aprenden» en un sentido profundo; simplemente predicen palabras o píxeles según patrones estadísticos.

Cuando una IA no puede distinguir entre una torre y un alfil en un simple juego de 8 bits, surge la duda sobre su fiabilidad para manejar información personal o tomar decisiones importantes. Estos desafíos son pruebas clave para evaluar el comportamiento y las limitaciones de los futuros modelos de inteligencia artificial, y ponen de manifiesto que aún estamos lejos de lograr una verdadera comprensión contextual y lógica por parte de estas tecnologías.