Por Will Douglas Heaven en MIT Technology Review
Conversaciones exclusivas que nos llevan tras bambalinas de un fenómeno cultural.
Cuando OpenAI lanzó ChatGPT, sin fanfarria, a finales de noviembre de 2022, la empresa de inteligencia artificial con sede en San Francisco tenía pocas expectativas. Ciertamente, nadie dentro de OpenAI estaba preparado para un megaéxito viral . La firma ha estado luchando para ponerse al día y capitalizar su éxito desde entonces.
Fue visto internamente como una «avance de la investigación», dice Sandhini Agarwal, quien trabaja en políticas en OpenAI: una burla de una versión más pulida de una tecnología de dos años y, más importante, un intento de resolver algunos problemas. de sus defectos mediante la recopilación de comentarios del público. “No queríamos exagerarlo como un gran avance fundamental”, dice Liam Fedus, científico de OpenAI que trabajó en ChatGPT.
Para conocer la historia interna detrás del chatbot (cómo se hizo, cómo OpenAI lo ha estado actualizando desde su lanzamiento y cómo se sienten sus creadores acerca de su éxito), hablé con cuatro personas que ayudaron a construir lo que se ha convertido en la aplicación de Internet más popular de la historia . Además de Agarwal y Fedus, hablé con John Schulman, cofundador de OpenAI, y Jan Leike, líder del equipo de alineación de OpenAI, que trabaja en el problema de hacer que la IA haga lo que los usuarios quieren que haga (y nada más). .
Lo que obtuve fue la sensación de que OpenAI todavía está desconcertado por el éxito de su avance de investigación, pero aprovechó la oportunidad para impulsar esta tecnología, observando cómo millones de personas la usan y tratando de solucionar los peores problemas a medida que surgen.
Desde noviembre, OpenAI ya ha actualizado ChatGPT varias veces. Los investigadores están utilizando una técnica llamada entrenamiento contradictorio para evitar que ChatGPT permita que los usuarios lo engañen para que se comporte mal (lo que se conoce como jailbreak). Este trabajo enfrenta a múltiples chatbots entre sí: un chatbot juega al adversario y ataca a otro chatbot generando texto para obligarlo a desafiar sus restricciones habituales y producir respuestas no deseadas. Los ataques exitosos se agregan a los datos de entrenamiento de ChatGPT con la esperanza de que aprenda a ignorarlos.
OpenAI también firmó un acuerdo multimillonario con Microsoft y anunció una alianza con Bain , una firma de consultoría de gestión global, que planea utilizar los modelos de IA generativa de OpenAI en campañas de marketing para sus clientes, incluida Coca-Cola. Fuera de OpenAI, el rumor sobre ChatGPT ha desencadenado otra fiebre del oro en torno a los grandes modelos de lenguaje, con empresas e inversores de todo el mundo entrando en acción.
Eso es mucho bombo en tres cortos meses. ¿De dónde vino ChatGPT? ¿Qué pasos tomó OpenAI para asegurarse de que estuviera listo para su lanzamiento? ¿Y adónde van después?
Lo siguiente ha sido editado por extensión y claridad.
Jan Leike: Ha sido abrumador, sinceramente. Nos ha sorprendido y hemos estado tratando de ponernos al día.
John Schulman: Estuve revisando mucho Twitter en los días posteriores al lanzamiento, y hubo un período loco en el que el feed se estaba llenando con capturas de pantalla de ChatGPT. Esperaba que fuera intuitivo para la gente, y esperaba que ganara seguidores, pero no esperaba que alcanzara este nivel de popularidad general.
Sandhini Agarwal: Creo que definitivamente fue una sorpresa para todos nosotros la cantidad de gente que comenzó a usarlo. Trabajamos tanto en estos modelos que olvidamos lo sorprendentes que pueden ser para el mundo exterior a veces.
Liam Fedus : Definitivamente nos sorprendió lo bien que fue recibido. Ha habido tantos intentos anteriores de un chatbot de propósito general que sabía que las probabilidades estaban en nuestra contra. Sin embargo, nuestra versión beta privada nos había dado la confianza de que teníamos algo que la gente realmente podría disfrutar.
Jan Leike: Me encantaría entender mejor qué está impulsando todo esto, qué está impulsando la viralidad. Como, honestamente, no entendemos. no lo sabemos
Parte del desconcierto del equipo proviene del hecho de que la mayor parte de la tecnología dentro de ChatGPT no es nueva. ChatGPT es una versión mejorada de GPT-3.5, una familia de grandes modelos de lenguaje que OpenAI lanzó meses antes que el chatbot. GPT-3.5 es en sí mismo una versión actualizada de GPT-3 , que apareció en 2020. La empresa pone a disposición estos modelos en su sitio web como interfaces de programación de aplicaciones, o API, lo que facilita que otros desarrolladores de software inserten modelos en su propio código. . OpenAI también lanzó una versión anterior mejorada de GPT-3.5, llamada InstructGPT , en enero de 2022. Pero ninguna de estas versiones anteriores de la tecnología se lanzó al público.
Liam Fedus: El modelo de ChatGPT se ajusta a partir del mismo modelo de lenguaje que InstructGPT, y usamos una metodología similar para ajustarlo. Agregamos algunos datos conversacionales y ajustamos un poco el proceso de entrenamiento. Así que no queríamos exagerarlo como un gran avance fundamental. Al final resultó que, los datos conversacionales tuvieron un gran impacto positivo en ChatGPT.
John Schulman: Las capacidades técnicas brutas, según la evaluación de los puntos de referencia estándar, en realidad no difieren sustancialmente entre los modelos, pero ChatGPT es más accesible y utilizable.
Jan Leike: En cierto sentido, puedes entender ChatGPT como una versión de un sistema de inteligencia artificial que hemos tenido durante un tiempo. No es un modelo fundamentalmente más capaz que el que teníamos anteriormente. Los mismos modelos básicos habían estado disponibles en la API durante casi un año antes de que saliera ChatGPT. En otro sentido, lo hicimos más alineado con lo que los humanos quieren hacer con él. Te habla en un diálogo, es fácilmente accesible en una interfaz de chat, trata de ser útil. Eso es un progreso asombroso, y creo que eso es lo que la gente se está dando cuenta.
John Schulman: Infiere más fácilmente la intención. Y los usuarios pueden llegar a lo que quieren yendo y viniendo.
ChatGPT fue entrenado de una manera muy similar a InstructGPT, usando una técnica llamada aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF). Esta es la salsa secreta de ChatGPT. La idea básica es tomar un modelo de lenguaje grande con tendencia a escupir lo que quiera, en este caso, GPT-3.5, y ajustarlo enseñándole qué tipo de respuestas prefieren los usuarios humanos.
Jan Leike:Tuvimos un gran grupo de personas que leyeron las indicaciones y respuestas de ChatGPT y luego dijeron si una respuesta era preferible a otra respuesta. Todos estos datos luego se fusionaron en una ejecución de entrenamiento. Gran parte es el mismo tipo de cosas que hicimos con InstructGPT. Quiere que sea útil, quiere que sea veraz, quiere que sea, ya sabe, no tóxico. Y luego hay cosas que son específicas para producir diálogos y ser un asistente: cosas como, si la consulta del usuario no es clara, debe hacer preguntas de seguimiento. También se debe aclarar que es un sistema de IA. No debe asumir una identidad que no tiene, no debe afirmar tener habilidades que no posee, y cuando un usuario le pide que haga tareas que se supone que no debe hacer, tiene que escribir una negativa. mensaje.
Sandhini Agarwal: Sí, creo que eso fue lo que sucedió. Había una lista de varios criterios en los que los evaluadores humanos tenían que clasificar el modelo, como la veracidad. Pero también comenzaron a preferir cosas que consideraban buenas prácticas, como no pretender ser algo que no eres.
Debido a que ChatGPT se había creado con las mismas técnicas que OpenAI había usado antes, el equipo no hizo nada diferente cuando se preparó para lanzar este modelo al público. Sintieron que la barra que habían establecido para los modelos anteriores era suficiente.
Sandhini Agarwal: Cuando nos preparábamos para el lanzamiento, no pensamos en este modelo como un riesgo completamente nuevo. GPT-3.5 había estado en el mundo y sabemos que ya es lo suficientemente seguro. Y a través del entrenamiento de ChatGPT sobre las preferencias humanas, el modelo simplemente aprendió automáticamente el comportamiento de rechazo, donde rechaza muchas solicitudes.
Jan Leike: Hicimos algunos «equipos rojos» adicionales para ChatGPT, donde todos en OpenAI se sentaron e intentaron romper el modelo. Y teníamos grupos externos haciendo el mismo tipo de cosas. También teníamos un programa de acceso anticipado con usuarios de confianza, que dieron su opinión.
Sandhini Agarwal: Descubrimos que generó ciertas salidas no deseadas, pero todas eran cosas que GPT-3.5 también genera. Entonces, en términos de riesgo, como una vista previa de la investigación, porque eso es lo que inicialmente se pretendía que fuera, se sintió bien.
John Schulman: No puedes esperar hasta que tu sistema esté perfecto para lanzarlo. Habíamos estado probando la versión beta de las versiones anteriores durante algunos meses, y los probadores beta tenían impresiones positivas del producto. Nuestra mayor preocupación giraba en torno a la factualidad, porque a la modelo le gusta inventar cosas. Pero InstructGPT y otros grandes modelos de lenguaje ya están disponibles, por lo que pensamos que mientras ChatGPT sea mejor que esos en términos de factualidad y otras cuestiones de seguridad, debería estar listo. Antes del lanzamiento, confirmamos que los modelos parecían un poco más reales y seguros que otros modelos, según nuestras evaluaciones limitadas, por lo que decidimos continuar con el lanzamiento.
OpenAI ha estado observando cómo las personas usan ChatGPT desde su lanzamiento, viendo por primera vez cómo le va a un modelo de lenguaje grande cuando se pone en manos de decenas de millones de usuarios que pueden estar buscando probar sus límites y encontrar sus fallas. El equipo ha tratado de aprovechar los ejemplos más problemáticos de lo que ChatGPT puede producir, desde canciones sobre el amor de Dios por los sacerdotes violadores hasta el código de malware que roba números de tarjetas de crédito, y usarlos para controlar versiones futuras del modelo.
Sandhini Agarwal: Tenemos muchos próximos pasos. Definitivamente creo que lo viral que se ha vuelto ChatGPT ha hecho que muchos problemas que sabíamos que existían realmente surgieran y se volvieran críticos, cosas que queremos resolver lo antes posible. Sabemos que el modelo todavía está muy sesgado. Y sí, ChatGPT es muy bueno para rechazar solicitudes incorrectas, pero también es bastante fácil escribir avisos que hagan que no rechace lo que queríamos que rechazara.
Liam Fedus: Ha sido emocionante ver las diversas y creativas aplicaciones de los usuarios, pero siempre nos enfocamos en áreas para mejorar. Creemos que a través de un proceso iterativo en el que implementamos, recibimos comentarios y refinamos, podemos producir la tecnología más alineada y capaz. A medida que nuestra tecnología evoluciona, surgen inevitablemente nuevos problemas.
Sandhini Agarwal: En las semanas posteriores al lanzamiento, observamos algunos de los ejemplos más terribles que la gente había encontrado, las peores cosas que la gente estaba viendo en la naturaleza. Evaluamos cada uno de ellos y hablamos sobre cómo deberíamos solucionarlo.
Jan Leike: A veces es algo que se ha vuelto viral en Twitter, pero hay algunas personas que realmente se comunican en silencio.
Sandhini Agarwal: Muchas de las cosas que encontramos fueron jailbreaks, lo que definitivamente es un problema que debemos solucionar. Pero debido a que los usuarios tienen que probar estos métodos intrincados para que el modelo diga algo malo, no es como si esto fuera algo que nos perdimos por completo, o algo que nos sorprendió mucho. Aún así, eso es algo en lo que estamos trabajando activamente en este momento. Cuando encontramos jailbreaks, los agregamos a nuestros datos de entrenamiento y prueba. Todos los datos que estamos viendo alimentan un modelo futuro.
Jan Leike: Cada vez que tenemos un modelo mejor, queremos sacarlo y probarlo. Somos muy optimistas de que un poco de entrenamiento adversario específico puede mejorar mucho la situación con jailbreak. No está claro si estos problemas desaparecerán por completo, pero creemos que podemos hacer mucho más difícil el jailbreak. Una vez más, no es que no supiéramos que el jailbreak era posible antes del lanzamiento. Creo que es muy difícil anticipar realmente cuáles serán los verdaderos problemas de seguridad con estos sistemas una vez que los haya implementado. Por lo tanto, estamos poniendo mucho énfasis en monitorear para qué usan las personas el sistema, ver qué sucede y luego reaccionar ante eso. Esto no quiere decir que no debamos mitigar proactivamente los problemas de seguridad cuando los anticipamos. Pero sí,
En enero, Microsoft reveló Bing Chat, un chatbot de búsqueda que muchos suponen que es una versión del GPT-4 oficialmente no anunciado de OpenAI. (OpenAI dice: «Bing funciona con uno de nuestros modelos de próxima generación que Microsoft personalizó específicamente para la búsqueda. Incorpora avances de ChatGPT y GPT-3.5».) El uso de chatbots por parte de gigantes tecnológicos con reputaciones multimillonarias para proteger crea nuevos desafíos para aquellos encargados de construir los modelos subyacentes.