Morfema Press

Es lo que es

¿Es DeepSeek realmente un DeepShock? 

Comparte en

Por Laszlo Beke

El revuelo levantado por el modelo de Inteligencia Artificial y el chatbot de la empresa china DeepSeek realmente aumenta las posibilidades de éxito de la Inteligencia Artificial y merece un análisis más profundo. Disminuye significativamente el costo, lo que debería permitir ampliar y profundizar el uso global de IA.

Además, refuerza las posibilidades de competir para los emprendedores e innovadores de empresas más pequeñas y así no depender solamente del oligopolio de los gigantes de la tecnología. Los perdedores fueron los inversionistas que arriesgaron su dinero, en una ruleta de adivinar cual empresa será la mejor inversión a futuro, cuando con Inteligencia Artificial es casi imposible predecir cual será próximo conejo y quién lo traerá. Geopolíticamente, China ha probado que es un competidor serio, aun cuando existan dudas en los temas de seguridad y con la censura interna en China. También es relevante, que es logró fue usando los chips de Nvidia, que inteligentemente habían acumulado previamente varias empresas chinas.

OpenAI era una empresa minúscula y fue ella la que disparó la IA Generativa, a pesar de los miles de investigadores de empresas como Google o Microsoft. Así que la expectativa era que el próximo gran salto probablemente lo daría otra empresa desconocida. También se demostró que disponer de menos recursos, hizo que los chinos buscaran pequeñas eficiencias. Los estadounidenses estaban complacientes, los inversionistas lanzaban miles de millones de dólares como confeti. La hazaña de DeepSeek la podemos resumir así: (a) usar el modelo de fuente abierta de Meta; (b) entrenar a los modelos por la décima parte del costo; (c) usar menos chips y haber acumulado chips de Nvidia y (d) probar que no han funcionado las restricciones de exportación de Estados Unidos.

En todo caso, hay múltiples emprendimientos en el mundo desarrollando productos de IA. Es cierto que las empresas chinas DeepSeek y Alibaba lanzaron los modelos de IA competitivos, pero también lo hizo un pequeño emprendimiento de Seattle. Se trata de Allen, una pequeña empresa que esta semana introdujo Tülu 3 405B, versión mejorada de Tülu3 del año pasado, competitivo y superior a Deepseek v3 and GPT-4º.

Las reacciones de los inversionistas

En un instante la euforia sobre IA se convirtió en pánico, en pocos días el valor de las empresas de tecnología disminuyó en un millón de millones de dólares. La causa inmediate del pánico fue DeepSeek, un pequeño fondo especulativo chino convertido en emprendimiento de IA con su modelo de lenguaje. El chatbot de DeepSeek fue el app más descargado en iPhones en un fin de semana. Además, esta aparición ocurre precisamente cuando más están derrochando en infraestructura los gigantes tecnológicos estadounidenses. El año pasado el gasto en centros de datos alcanzó US$180.000 millones, 57% más que el año anterior.

Por supuesto, los inversionistas comenzaron a dudar de lo que podía ocurrir a sus inversiones. Hay tres incertidumbres en el mercado:

Requerimientos contradictorios – Las innovaciones de DeepSeek sugieren que se disminuirá el costo del entrenamiento. Sin embargo, ello está ocurriendo cuando los “modelos de razonamiento” (o3 (OpenAI) y R1(DeepSee)), están usando mucha más poder de computación en la etapa de inferencia, cuando el modelo responde a las preguntas.

Geopolítica – El esfuerzo de restringir la exportación de equipos y chips a China ha fallado.

Demanda – Al bajar los costos de entrenamiento, las empresas podrán usar más IA. Sin embargo, si los esfuerzos de implementación de IA no mejoran, poco importara el costo.

DeepSeek – origen y enfoque

La misión de DeepSeek es dedicarse a investigación y es similar a empresas como OpenAI, pero hasta allí llegan los parecidos. DepSeek proviene de un fondo especulativo denominado High-Flyer, cuyo negocio era hacer apuestas en la bolsa china utilizando IA. High-Flyer decidió buscar nuevas oportunidades mejor alineadas con las prioridades del gobierno chino (IA avanzado) y además en 2021 comenzó a acumular chips de Nvidia. Este enfoque poco convencional, le permitió a DeepSeek esquivar las estrictas regulaciones del gobierno chino del uso público de IA. Fue una de las empresas chinas que lograron acumular más de 10.000 chips avanzados de Nvidia. Toda la infraestructura de DeepSeek parece copiar a OpenAI, llegando incluso a detalles como los formatos de las llaves de los API. Los sistemas de DeepSeek han sido diseñados para ser muy similares a OpenAI, facilitando así la transición de los nuevos clientes.

El líder de DeepSeek es Liang Wenfeng, un joven ingeniero graduado en Zhejiang University y es un gerente capaz con sólidos conocimientos técnicos. Enfocó a la empresa en avances tecnológicos, en lugar de buscar utilidades. A diferencia de muchas empresas chinas que contratan ingenieros, el Sr. Liang tiene la reputación de emplear personas fuera del área de computación, como poetas y graduados en humanidades de las mejores universidades chinas.

Los efectos de la aparición de DeepSeek

DeepSeek parece haber puesto en duda varias de las presunciones que el sector de tecnología había hecho y al cual los inversionistas habían apostado:

Mucho dinero para crear chips poderosos y centros de datos – demuestra que modelos relativamente pequeños, bien entrenados, pueden igualar o mejorar el desempeño de modelos más grandes.

Competencia para las mega-tecnológicas – las inversiones futuras podrían también estar fluyendo a emprendimientos pequeños de IA.

Nuevas técnicas de punta – entre ellas, DeepSeek aplicó la destilación, donde se comprimen grandes modelos de IA en modelos más pequeños. Son más baratos en su ejecución, sin perder capacidad de desempeño.

Efecto de pequeñas mejoras – descritas más bajo como mejoras marginales de DeepSeek.

Computación en tiempo-de-prueba – DeepSeek, al igual que Alibaba, aplican en sus modelos lo que se conoce como “computación en tiempo-de-prueba”. Allí, en lugar de concentrar el poder de computación durante el período de prueba, también consumen mucho mientras están respondiendo. Esta es una versión digital, de lo que el psicólogo Daniel Kahneman denomina pensamiento “tipo dos”: más lento, más deliberado y más analítico que el rápido e instintivo “tipo uno” y ha demostrado resultados promisorios en matemáticas y programación.

Conversión de un modelo estándar – no resultó tan difícil transformar un modelo básico de fuente abierta en un sofisticado modelo sofisticado de razonamiento, aplicando lo que se denomina “refuerzo”.

La estrategia a largo plazo del sector – quedó cuestionada.

Los ganadores futuros – no necesariamente serán las grandes empresas.

Crecimiento futuro de sistemas poderosos de IA – será indetenible.

El futuro

El éxito de los modelos chinos, combinado con los cambios en el sector tecnológico, pueden transformar totalmente al sector. Estados Unidos se tiene que preparar para un mundo donde China será un competidor temible. La competencia de China es asimétrica, está claro que innovarán alrededor de los obstáculos, como no tener los mejores chips, bien sea con mejoras de eficiencia o compensando la falta de hardware de alta calidad con más cantidad.

Los LLM chinos no son los mejores, pero son los más económicos y han logrado disminuir significativamente el costo del entrenamiento de los LLM. Ahora bien, China logró disminuir el costo fijo de construcción de los modelos, mientras está aumentando el costo marginal de los “queries”, por el incremento de la calidad de estos. Si estas dos tendencias continúan, las economías del sector tecnológico se invertirían. En las búsquedas en Internet y en las redes sociales, replicar a un gigante como Google significa lidiar con enormes costos fijos de inversión y poder manejar grandes pérdidas. Pero el costo por búsqueda será infinitesimal.

Si modelos suficientemente-buenos de IA se pueden entrenar en forma relativamente barata, entonces los modelos proliferarán, particularmente por cuanto hay muchos países desesperados por tener los propios. Un costo alto-por-query promovería modelos construidos con propósitos específicos que proveen respuestas especializadas con un mínimo de query.

El efecto China

Este importante logro de DeepSeek socava algunas de las presunciones geopolíticas sobre la posición de China en la competencia de IA: (a) reta la narrativa que China está significativamente detrás de Estados Unidos en la construcción de modelos poderosos de IA; (b) pone en duda las acciones que Estados Unidos ha tomado para limitar la propagación de los sistemas de IA a sus adversarios; (c) genera preocupaciones sobre el impacto para la privacidad y la censura, en el caso que China llegara a tomar el liderazgo en la construcción de sistemas poderosos de IA para millones de estadounidenses y (d) la data compartida con DeeppSeek podría ser asequible para el gobierno chino.

La súbita popularidad alcanzada por DeepSeek la ha colocado en el centro de los esfuerzos del Partido Comunista Chino para promover la innovación y eso podría terminar siendo difícil de manejar. Esto para DeekSeek y su líder, aparece como un reto debido a su nuevo alto perfil. El mismo día que se liberó el nuevo modelo R1, Liang apareció en una mesa redonda de discusión con el primer ministro Li Qiang. Asimismo. trabajar en China tiene sus desventajas. El modelo de DeepSeek explica que Taiwan, es una isla “oficialmente conocida como República de China”. A otras consultas, responde ”Hablemos de algo diferente”. Las empresas chinas naturalmente preferirían construir sobre modelos chinos, con ello evitarán los problemas de censura de China.

Las mejoras marginales de DeepSeek

El LLM de DeepSeek no solo es notable por su escala, sino por la eficiencia de su entrenamiento, donde el modelo es alimentado por data que infiere sus parámetros. Las mejoras marginales incluyen:

El proceso de entrenamiento frecuentemente usa redondeos para facilitar los cálculos, pero mantiene los números precisos cuando los requiere.

La granja de servidores fue reconfigurada para permitir que los chips individuales se puedan comunicar más eficientemente.

Una vez que el modelo es entrenado, su output es afinado a través del DeepSeek R1, el sistema de razonamiento, aprendiendo así a emular su calidad a un costo menor.

Gracias a estas y otras innovaciones, generar 3.000 millones de parámetros tomó 3m horas-chips, a un costo de US$6 millones, una décima parte del poder de computación y costo de Llama 3.1.

El procesamiento también es menos costoso. DeepSeek reparte tareas a través de múltiples chips más eficientemente y comienza el próximo proceso, antes que el anterior haya concluido.

DeepSeek publicó el R1 en forma completa, así como un conjunto de variantes del modelo “destiladas” más pequeñas, más baratas y más veloces. Estas son casi tan poderosas como el modelo más grande.

Avances de Estados Unidos en IA

Todo lo alcanzado por DeepSeek no necesariamente significa que los modelos chinos arrasarán al mundo. Sam Altman, de OpenAI, comentó que “Es (relativamente) fácil copiar algo que sabes que funciona. Es extremadamente complicado hacer algo nuevo, y difícil cuando no sabes sin funcionará”. Seguramente se aprenderá y aplicarán aprendizajes de DeepSeek. En Estados Unidos hay capacidades que los rivales chinos todavía no pueden igualar y como ejemplos: (a) un programa de investigación de Google le entrega el navegador del usuario a un chatbot de Gemini, abriendo la posibilidad para que los Agentes de IA interactúen con el navegador; (b) chatbots de Anthropic y OpenAI, no solo ayudan a escribir el código, sino que también los procesan; (c) Claude crea y hospeda aplicaciones completas; (d) ChatGPT, no solo puede razonar paso-a-paso, sino que escribe un programa para encontrar la respuesta; (e) OpenAI ha creado “Super-agentes al nivel-PhD”, que son capaces de responder como expertos humanos en una serie de tareas intelectuales.

Temas de seguridad

Las medidas de protección y seguridad de DeepSeek no parecen equipararse con los de las otras empresas. En el modelo de razonamiento R1 de DeepSeek, las protecciones de seguridad están muy rezagadas frente a las de sus competidores. Cuando se le probó con 50 prompts maliciosos diseñados para provocar contenido tóxico, DeepSeek no bloqueó ni uno solo de estos. ¡Una tasa de éxito de ataques del 100%! DeepSeek es vulnerable a un rango amplio de tácticas de “fuga de la cárcel”, partiendo desde simples trucos del lenguaje hasta prompts complejos generados por IA. Adicionalmente, el servicio no tiene la madurez necesaria para manejar ningún tipo de data sensitiva. Investigadores de seguridad encontraron más de un millón de registros, incluyendo data de usuarios y claves de API’s en una base de datos abierta, en el “front door”. También, el regulador de protección de data de Italia le solicitó a DeepSeek el origen de su data de entrenamiento y no ha respondido.


Se hace referencia a AI2 takes on DeepSeek; Microsoft brings back DocumentDB,, Alibaba rolls out AI model, claiming it’s better than DeepSeek-V3DeepSeek’s Rise: How a Chinese Start-Up Went From Stock Trader to A.I. Star, Why DeepSeek Could Change What Silicon Valley Believes About A.I.How Chinese A.I. Start-Up DeepSeek Is Competing With Silicon Valley GiantsChina’s AI industry has almost caught up with America’sDeepSeek sends a shockwave through marketsDeepSeek’s Safety Guardrails Failed Every Test Researchers Threw at Its AI ChatbotExposed DeepSeek Database Revealed Chat Prompts and Internal Data y China’s AI industry has almost caught up with America’s. También aparece en mi Portal https://tinyurl.com/5xww5anu.

WP Twitter Auto Publish Powered By : XYZScripts.com
Scroll to Top
Scroll to Top