Verdad, Inspiración, Esperanza

ChatGPT se está volviendo más ‘tonto’ según investigadores

Published: 10 de agosto de 2023
Robot
Los investigadores de Stanford y Berkeley, sin embargo, creen que la IA se está desempeñando peor que antes en ciertas tareas (Imagen: Alex Knight/Pexels).

Los investigadores ahora dicen que la popular plataforma de inteligencia artificial (IA) GPT está funcionando peor en las tareas en comparación con cuando se lanzó por primera vez en noviembre pasado, a pesar de las garantías de su desarrollador OpenAI.

Investigadores de Stanford y Berkeley descubrieron que durante un período de solo unos pocos meses, tanto GPT-3.5 como GPT-4, los sistemas que impulsan ChatGPT, han estado produciendo respuestas con una tasa de precisión decreciente. 

Los hallazgos se detallan en un documento que aún no ha sido revisado por pares y afirma lo que muchos de los usuarios de AI han estado sospechando durante algún tiempo. 

La disminución observada en el rendimiento de la IA ha llevado al presidente de producto de OpenAI, Peter Welinder, a intentar disipar los rumores.

“No, no hemos hecho que el GPT-4 sea más tonto. Todo lo contrario: hacemos que cada nueva versión sea más inteligente que la anterior”, tuiteó el 13 de julio y agregó que “hipótesis actual: cuando lo usa con más frecuencia, comienza a notar problemas que no veía antes”.

Welinder luego les dijo a los usuarios: «Si tiene ejemplos en los que cree que se ha producido una regresión, responda a este hilo e investigaremos». También les dijo a los usuarios que la versión gratuita, GPT-3.5, también ha mejorado. 

LEE MÁS:

‘Sustancialmente peor’

Los investigadores de Stanford y Berkeley, sin embargo, creen que la IA se está desempeñando peor que antes en ciertas tareas.

«Descubrimos que el rendimiento y el comportamiento de GPT-3.5 y GPT-4 varían significativamente entre estas dos versiones y que su rendimiento en algunas tareas ha empeorado sustancialmente con el tiempo», y agregan que cuestionan la afirmación de que GPT-4 se está volviendo más fuerte. 

“Es importante saber si las actualizaciones del modelo destinadas a mejorar algunos aspectos realmente dañan su capacidad en otras dimensiones”, escribieron los investigadores.

Los investigadores, incluido Lingjiao Chen, un PH.D en ciencias de la computación, y James Zou, uno de los autores de la investigación, le dieron a la IA una tarea relativamente simple: identificar números primos.

Descubrieron que en marzo de este año, la IA logró identificar números primos el 84 por ciento de las veces, sin embargo, cuando se le asignó la misma operación en junio siguiente, la capacidad de la IA para identificar correctamente los números primos se redujo a solo el 51 por ciento. 

Los investigadores le presentaron a la IA un total de ocho tareas diferentes para realizar y encontraron que GPT-4 empeoró en seis de ellas, mientras que GPT-3.5 mejoró en seis de ellas, pero aun así no se desempeñó tan bien como su hermano más avanzado GPT-4 en todas las tareas. 

También descubrieron que en marzo GPT-4 respondía al 98 por ciento de las preguntas que se le planteaban, sin embargo en junio sólo daba respuesta al 23 por ciento de las consultas, diciendo a los usuarios que su pregunta era demasiado subjetiva y que como IA no tenía opinión.

LEE MÁS:

‘IA a la deriva’

Los expertos creen que GPT-4 y 3.5, que es la versión gratuita, pueden estar experimentando lo que los investigadores denominan «deriva de la IA».

La deriva ocurre cuando los modelos de lenguaje grande (LLM) se comportan de formas extrañas que se desvían de los parámetros originales, confundiendo a sus desarrolladores.

Esto puede ser el resultado de que los desarrolladores implementen cambios destinados a mejorar la IA, pero que terminan teniendo un impacto perjudicial en otras funciones.

Esto podría explicar el deterioro en el rendimiento que han encontrado los investigadores.

Por ejemplo, los investigadores encontraron que entre marzo y junio siguiente, GPT-4 tuvo un peor desempeño en la generación de códigos, respondiendo preguntas de exámenes médicos y respondiendo mensajes de opinión, todo lo cual puede atribuirse al fenómeno de deriva de la IA.

Zou le dijo al Wall Street Journal: “Teníamos la sospecha de que podría suceder aquí, pero nos sorprendió mucho lo rápido que está ocurriendo la deriva”.

Los hallazgos podrían proporcionar información sobre cómo funcionan otras plataformas de IA durante períodos prolongados. La deriva de la IA puede ser inevitable, ya que la mayoría de los LLM están capacitados de manera similar y, por lo tanto, darán resultados similares, según los investigadores.

Los autores del estudio escribieron que tienen la intención de actualizar sus hallazgos y realizar un «estudio continuo a largo plazo mediante la evaluación regular de GPT-3.5, GPT-4 y otros LLM en diversas tareas a lo largo del tiempo».