GPT-4 es más grande y mejor que ChatGPT, pero OpenAI no dice por qué

marzo 16, 2023

GPT-4 es más grande y mejor que ChatGPT, pero OpenAI no dice por qué

Comparte en

Por Will Douglas Heaven en MIT Technology Review

Echamos un primer vistazo al tan esperado nuevo modelo de lenguaje de OpenAI. Pero esta vez, cómo funciona está aún más oculto.

OpenAI finalmente ha presentado GPT-4 , un modelo de lenguaje grande de próxima generación que se rumoreaba que estaba en desarrollo durante gran parte del año pasado. El último éxito sorpresa de la compañía con sede en San Francisco, ChatGPT , siempre iba a ser un acto difícil de seguir, pero OpenAI ha hecho que GPT-4 sea aún más grande y mejor.

Sin embargo, OpenAI no dirá cuánto más grande y por qué es mejor. GPT-4 es el lanzamiento más secreto que la compañía haya lanzado jamás, marcando su transición completa de laboratorio de investigación sin fines de lucro a empresa de tecnología con fines de lucro.

“Eso es algo que, ya sabes, no podemos comentar en este momento”, dijo el científico jefe de OpenAI, Ilya Sutskever, cuando hablé con los miembros del equipo GPT-4 en una videollamada una hora después del anuncio. “Es bastante competitivo allá afuera”.

GPT-4 es un modelo de lenguaje grande multimodal , lo que significa que puede responder tanto a texto como a imágenes. Dale una foto del contenido de tu refrigerador y pregúntale qué podrías hacer, y GPT-4 intentará encontrar recetas que usen los ingredientes de la foto. También es excelente para explicar chistes, dice Sutskever: «Si le muestras un meme, puede decirte por qué es divertido».

El acceso a GPT-4 estará disponible para los usuarios que se registren en la lista de espera y para los suscriptores de ChatGPT Plus de pago premium en una capacidad limitada de solo texto.

“Las mejoras continuas en muchas dimensiones son notables”, dice Oren Etzioni del Instituto Allen para la IA. “GPT-4 es ahora el estándar por el cual se evaluarán todos los modelos básicos”.

“Un buen modelo multimodal ha sido el santo grial de muchos grandes laboratorios tecnológicos durante los últimos dos años”, dice Thomas Wolf, cofundador de Hugging Face, la startup de IA detrás del modelo de lenguaje grande de código abierto BLOOM . “Pero se ha mantenido esquivo”.

En teoría, la combinación de texto e imágenes podría permitir que los modelos multimodales comprendan mejor el mundo. “Podría abordar los puntos débiles tradicionales de los modelos de lenguaje, como el razonamiento espacial”, dice Wolf.

Todavía no está claro si eso es cierto para GPT-4. El nuevo modelo de OpenAI parece ser mejor en algunos razonamientos básicos que ChatGPT, resolviendo acertijos simples como resumir bloques de texto en palabras que comienzan con la misma letra. En mi demostración durante la llamada, se me mostró GPT-4 resumiendo la propaganda del anuncio del sitio web de OpenAI usando palabras que comienzan con g: “GPT-4, crecimiento generacional innovador, obtiene mejores calificaciones. Barandillas, orientación y ganancias obtenidas. Gigantesco, innovador y dotado a nivel mundial”. En otra demostración, GPT-4 tomó un documento sobre impuestos y respondió preguntas al respecto, citando los motivos de sus respuestas.

También supera a ChatGPT en pruebas con humanos, incluido el Examen de barra uniforme (donde GPT-4 se ubica en el percentil 90 y ChatGPT en el 10) y la Olimpiada de biología (donde GPT-4 se ubica en el percentil 99 y ChatGPT en el 31) ). “Es emocionante cómo la evaluación ahora comienza a realizarse con los mismos puntos de referencia que los humanos usan para sí mismos”, dice Wolf. Pero agrega que sin ver los detalles técnicos, es difícil juzgar qué tan impresionantes son realmente estos resultados.

Según OpenAI, GPT-4 funciona mejor que ChatGPT, que se basa en GPT-3.5, una versión de la tecnología anterior de la empresa , porque es un modelo más grande con más parámetros (los valores en una red neuronal que se ajustan durante el entrenamiento) . Esto sigue una tendencia importante que la compañía descubrió con sus modelos anteriores. GPT-3 superó a GPT-2 porque era más de 100 veces más grande, con 175 000 millones de parámetros frente a los 1 500 millones de GPT-2. “Esa fórmula fundamental realmente no ha cambiado mucho durante años”, dice Jakub Pachocki, uno de los desarrolladores de GPT-4. “Pero sigue siendo como construir una nave espacial, en la que necesitas hacer bien todos estos pequeños componentes y asegurarte de que ninguno se rompa”.

Pero OpenAI ha optado por no revelar qué tan grande es GPT-4. A diferencia de sus lanzamientos anteriores, la compañía no revela nada sobre cómo se construyó GPT-4, ni los datos, la cantidad de potencia de cómputo o las técnicas de capacitación. “OpenAI es ahora una empresa completamente cerrada con comunicación científica similar a los comunicados de prensa de los productos”, dice Wolf.

OpenAI dice que pasó seis meses haciendo que GPT-4 sea más seguro y preciso. Según la empresa, GPT-4 tiene un 82 % menos de probabilidades que GPT-3.5 de responder a solicitudes de contenido que OpenAI no permite, y un 60 % menos de probabilidades de inventar cosas.

OpenAI dice que logró estos resultados usando el mismo enfoque que tomó con ChatGPT , usando el aprendizaje de refuerzo a través de la retroalimentación humana . Esto implica pedir a los evaluadores humanos que califiquen diferentes respuestas del modelo y usar esos puntajes para mejorar el resultado futuro.

El equipo incluso usó GPT-4 para mejorarse, pidiéndole que generara entradas que condujeran a respuestas sesgadas, inexactas u ofensivas y luego corrigió el modelo para que rechazara tales entradas en el futuro.

GPT-4 puede ser el mejor modelo de lenguaje grande multimodal construido hasta ahora. Pero no está en una liga propia, como lo estaba GPT-3 cuando apareció por primera vez en 2020. Han pasado muchas cosas en los últimos tres años. Hoy, GPT-4 se encuentra junto a otros modelos multimodales, incluido Flamingo de DeepMind. Y Hugging Face está trabajando en un modelo multimodal de código abierto que será gratuito para que otros lo usen y adapten, dice Wolf.

Frente a tal competencia, OpenAI está tratando este lanzamiento más como un adelanto del producto que como una actualización de la investigación. Las primeras versiones de GPT-4 se han compartido con algunos de los socios de OpenAI, incluido Microsoft, que confirmó hoy que utilizó una versión de GPT-4 para crear Bing Chat. OpenAI ahora también está trabajando con Stripe, Duolingo, Morgan Stanley y el gobierno de Islandia (que está utilizando GPT-4 para ayudar a preservar el idioma islandés), entre otros.

Muchas otras empresas están esperando en la fila: «Los costos para iniciar un modelo de esta escala están fuera del alcance de la mayoría de las empresas, pero el enfoque adoptado por OpenAI ha hecho que los modelos de lenguaje grandes sean muy accesibles para las nuevas empresas», dice Sheila Gulati, cofundadora de la firma de inversión Tola Capital. «Esto catalizará una tremenda innovación además de GPT-4».

Nunca antes la nueva y poderosa IA había pasado del laboratorio a los productos orientados al consumidor tan rápido. (Hoy, en otras noticias, Google anunció que está poniendo a disposición de desarrolladores externos su propio modelo de lenguaje grande PaLM y está implementando funciones de chatbot en Google Docs y Gmail; y la firma de inteligencia artificial Anthropic anunció un nuevo modelo de lenguaje grande llamado Claude, que ya está siendo probado por varias compañías, incluidas Notion y Quora).

Y, sin embargo, los grandes modelos de lenguaje siguen siendo fundamentalmente defectuosos. GPT-4 aún puede generar texto sesgado, falso y odioso; también puede ser pirateado para eludir sus barandillas. Aunque OpenAI ha mejorado esta tecnología, no la ha solucionado ni mucho menos. La compañía afirma que sus pruebas de seguridad han sido suficientes para que GPT-4 se use en aplicaciones de terceros. Pero también está preparado para sorpresas.

“La seguridad no es una cosa binaria; es un proceso”, dice Sutskever. “Las cosas se complican cada vez que alcanzas un nivel de nuevas capacidades. Muchas de estas capacidades ahora se comprenden bastante bien, pero estoy seguro de que algunas seguirán siendo sorprendentes”.

Incluso Sutskever sugiere que a veces sería preferible ir más lento con los lanzamientos: «Sería muy deseable terminar en un mundo en el que las empresas propongan algún tipo de proceso que permita lanzamientos más lentos de modelos con estas capacidades completamente sin precedentes» .