Pruebe ECO LLM Pruebe ECO Translate
Pruebe ECO LLM Pruebe ECO Translate
Featured Image

17 minutos de lectura

20/05/2025

DeepSeek no se entrenó por $5,57M ni copió a OpenAI

DeepSeek no se entrenó por $5,57M ni copió a OpenAI
31:27

El 27 de enero de 2025, el mundo de la tecnología experimentó lo que muchos denominan el "momento Sputnik" de la IA. Me encontraba celebrando mi cumpleaños cuando el último modelo de IA de DeepSeek se convirtió en la aplicación gratuita más descargada en la App Store estadounidense de Apple, superando a ChatGPT. Las repercusiones fueron inmediatas y dramáticas: las acciones de Nvidia se desplomaron un 17% el lunes siguiente, eliminando $600 mil millones en valor de mercado en un solo día. Sin embargo, más allá de estos movimientos del mercado, subyace una revolución más profunda en la forma en que se desarrolla y entrena la inteligencia artificial. Poca atención se prestó a otro modelo chino: el modelo Qwen 2.5 Plus de Alibaba, que también puede competir con cualquier rival occidental en la mayoría de las tareas (siga el enlace y observe cómo reserva un vuelo utilizando la aplicación de Booking.com en un teléfono).

JAl igual que el lanzamiento del Sputnik por la Unión Soviética en 1957 quebrantó las suposiciones estadounidenses sobre la superioridad tecnológica, el avance de DeepSeek ha desafiado las creencias fundamentales sobre el desarrollo de la IA. Estados Unidos, a través de empresas como OpenAI y gigantes de infraestructura como Nvidia, creía tener una ventaja insuperable en tecnología de IA. Estados Unidos incluso intentó mantener esta ventaja mediante controles de exportación de chips de IA avanzados a China. El éxito de DeepSeek demuestra que estas medidas no han logrado impedir la innovación china.

El cambio sísmico que DeepSeek ha provocado en el panorama de la inteligencia artificial está a punto de reconfigurar el orden tecnológico global. DeepSeek podría trastocar las matemáticas de financiamiento para las aplicaciones de IA y todo lo relacionado con la IA. El costo por token es increíblemente más económico que los LLM actuales. Además, al proporcionar acceso abierto a los pesos y al modelo en sí, DeepSeek está otorgando a los departamentos de aprendizaje automático e incluso a empresas pequeñas y medianas el poder de alojar y construir soluciones para las cuales habrían necesitado millones y meses para desarrollar (si es que alguna vez lo hubieran logrado). Su ascenso no marca solo otro hito en el desarrollo de la IA, sino potencialmente una transformación fundamental en cómo abordamos el aprendizaje automático en sí. Antes de profundizar en el potencial y las consecuencias, me gustaría aclarar 2 afirmaciones falsas que se han repetido como un mantra por medios "serios" y "amplificadores" en redes sociales sin verificar la fuente (es decir, el propio documento de DeepSeek).

Costos reales de entrenamiento e infraestructura

La mayoría de los medios de comunicación estaban lo suficientemente ocupados informando que DeepSeek-V3 costó solo $5,67M para entrenar. Los chinos "podían igualar con $5M lo que los estadounidenses hicieron por $100M". Pero esta cifra proviene de un cálculo teórico que asume costos de alquiler de GPU H800 de $2 por hora. La inversión real en infraestructura fue sustancialmente mayor, incluyendo la reserva reportada de 10.000-50.000 chips Nvidia A100 adquiridos antes de las restricciones de exportación.

DeepSeek training costs - just a calculation

Los siguientes párrafos explican el uso de H800 y el cálculo de las horas, lo cual es correcto. "Por último, enfatizamos nuevamente los económicos costos de entrenamiento de DeepSeek-V3, resumidos en la Tabla 1, logrados a través de nuestro diseño conjunto optimizado de algoritmos, marcos de trabajo y hardware. Durante la etapa de pre-entrenamiento, entrenar DeepSeek-V3 en cada billón de tokens requiere solo 180.000 horas de GPU H800, es decir, 3,7 días en nuestro clúster con 2.048 GPUs H800. En consecuencia, nuestra etapa de pre-entrenamiento se completa en menos de dos meses y cuesta 2.664.000 horas de GPU. Combinado con 119.000 horas de GPU para la extensión de longitud de contexto y 5.000 horas de GPU para post-entrenamiento, DeepSeek-V3 cuesta solo 2,788M de horas de GPU para su entrenamiento completo. Asumiendo que el precio de alquiler de la GPU H800 es de $2 por hora de GPU, nuestros costos totales de entrenamiento ascienden a solo $5,576M. Tenga en cuenta que los costos mencionados incluyen solo el entrenamiento oficial de DeepSeek-V3, excluyendo los costos asociados con la investigación previa y los experimentos de ablación en arquitecturas, algoritmos o datos".

Es evidente que el equipo de aprendizaje automático nunca pagó $5,57M; la infraestructura ya estaba instalada, y esto es solo un cálculo retrospectivo basado en el uso potencial de GPU. DeepSeek V3 efectivamente costaría esa cantidad en computación de entrenamiento. Los párrafos anteriores indican que el entrenamiento fue fluido y nunca hubo una parada (bastante sorprendente si me lo pregunta). Sin embargo, el costo de entrenamiento de R1 nunca se publicó, y una gran parte de las ganancias en eficiencia proviene de la elección del aumento en la proporción de dispersión MoE que decidieron utilizar, lo que termina sacrificando más VRAM pero obtiene el beneficio de la reducción en costos de entrenamiento. Análisis recientes también han cuestionado suposiciones previas sobre los costos generales de entrenamiento de modelos de IA, con estimaciones que sugieren gastos más modestos de lo que se creía ampliamente. Se estima que los principales modelos como GPT-4 y Claude tienen costos de entrenamiento alrededor de $10M. Al mismo tiempo, O1 y Claude-3.5 Sonnet se sitúan en el rango de $20-30M – esta última cifra confirmada por el CEO de Anthropic, Dario Amodei, en su publicación de blog diciendo que Claude-3.5 Sonnet costó "unas pocas decenas de millones". La desconexión con estimaciones anteriores de cientos de millones en costos de entrenamiento puede atribuirse a limitaciones técnicas que históricamente limitaban el entrenamiento a aproximadamente 24.000 GPUs. Sin embargo, el panorama está evolucionando, con empresas como Microsoft/OpenAI y XAI desarrollando recientemente clústeres más grandes de aproximadamente 100.000 H100s, permitiendo costos de entrenamiento alrededor de $500M. Este cambio en los costos reportados ha generado discusión sobre los incentivos corporativos, con algunos sugiriendo que las empresas estadounidenses pueden haber inflado las cifras para atraer inversiones. En contraste, otros, como DeepSeek, enfatizan la eficiencia en costos para mover la conversación hacia las habilidades de ingeniería. En cualquier caso, DeepSeek R-1 es solo el último modelo de una serie de modelos de IA de DeepSeek. Se basa en trabajo previo, particularmente en matemáticas. Aunque utilizaron H800 para este entrenamiento específico (los H800 son una versión modificada del modelo H100 de Nvidia vendida específicamente en el mercado chino debido a regulaciones de exportación con una tasa de transferencia de datos chip a chip reducida de aproximadamente 300 GBps comparada con los 600 GBps del H100). Sin duda, la empresa holding tenía acceso a H100 antes de la prohibición de exportación, algo que ha tenido un efecto completamente contraproducente. Aquí hay un desglose de los probables costos de entrenamiento y consideraciones de infraestructura:

  • GPUs Nvidia A100: Con una reserva reportada de 10.000 a 50.000 GPUs A100, la inversión en hardware por sí sola es sustancial. Cada GPU A100 cuesta aproximadamente entre 10.000 y 15.000 dólares, dependiendo de la configuración y el volumen de compra. Esto se traduce en una inversión en hardware que va desde $100M hasta $750M. Agreguemos la infraestructura de soporte necesaria: Más allá de las GPUs, el entrenamiento de grandes modelos de IA requiere una infraestructura de soporte significativa, incluyendo CPUs de alto rendimiento, memoria, almacenamiento y equipo de red. Los centros de datos también deben estar equipados con sistemas de enfriamiento, fuentes de alimentación y sistemas de redundancia, lo que aumenta el costo total.

  • Costos operativos como el consumo de energía. Por ejemplo, entrenar un modelo en 10.000 GPUs A100 durante varias semanas podría consumir millones de kilovatios-hora, resultando en costos de energía en el rango de $1M a $5M o más, dependiendo de las tarifas locales de electricidad, más mantenimiento y personal (el gran equipo capacitado de ingenieros, técnicos e investigadores con sus salarios, beneficios y gastos operativos).

  • Costos de software y desarrollo como el software personalizado para desarrollar y optimizar marcos de trabajo para entrenamiento distribuido, preprocesamiento de datos y evaluación de modelos, más la adquisición y preparación esencial de datos (los datos de entrenamiento de alta calidad son críticos para el rendimiento del modelo y, por lo tanto, adquirir, limpiar y preprocesar datos es un proceso costoso y que requiere mucho tiempo).

El costo teórico de entrenamiento de $5,57M es una subestimación significativa. La inversión real en DeepSeek-V3 incluye alquiler de GPUs y costos sustanciales de infraestructura, operativos y estratégicos, reflejando la verdadera escala del desarrollo moderno de IA (que es cómo OpenAI afirmó haber gastado $100M en el entrenamiento, por supuesto).

SSegunda falacia: "Solo usaron Aprendizaje por Refuerzo"

En el centro del avance de DeepSeek está su marco de trabajo de Optimización de Política Relativa Grupal (GRPO, por sus siglas en inglés) - explicamos cómo funciona esto a continuación. A diferencia de los enfoques tradicionales de aprendizaje por refuerzo donde se requiere un modelo "crítico" entrenado con datos etiquetados, GRPO permite que el modelo aprenda comparando su rendimiento contra un promedio grupal. Esto elimina la necesidad de datos de entrenamiento etiquetados mientras mantiene altos estándares de rendimiento. La cobertura inicial de los medios presentó el avance de DeepSeek como basado puramente en Aprendizaje por Refuerzo a través de GRPO, pero la lectura de su Informe Técnico DeepSeek-V3 2412.19437v1 revela un proceso de entrenamiento multietapa más sofisticado que combina varios enfoques. El informe discute explícitamente "destilar la capacidad de razonamiento de la serie de modelos DeepSeek-R1" durante el post-entrenamiento, mostrando que la transferencia de conocimiento de modelos supervisados jugó un papel crucial. Lo resumiré:

Más sobre el tema: ¿Qué es el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) y cómo funciona?

 

Según el documento, el entrenamiento de DeepSeek-V3 involucró múltiples etapas:

1. Pre-entrenamiento

  • 14,8T tokens de alta calidad y diversos (asumimos de muchos idiomas ya que el rendimiento de generación es impresionante, particularmente en idiomas asiáticos y europeos menos representados que hemos probado, por ejemplo)
  • Enfoques tradicionales de pre-entrenamiento de modelos de lenguaje
  • Desarrollo del modelo base con arquitectura MoE (la misma utilizada por OpenAI y Mixtral, la base de nuestra versión ajustada ECO LLM, 2023)

Más sobre el tema: Desmitificando la Mezcla de Expertos (MoE): El futuro para sistemas profundos de IA Generativa

2. Ajuste Fino Supervisado (SFT)

  • 1,5M de instancias de instrucción cuidadosamente curadas
  • Cobertura de múltiples dominios
  • Dos tipos distintos de muestras SFT por instancia:
    • <problema, respuesta original> formato
    • <indicación del sistema, problema, respuesta R1> formato

3. Post-Entrenamiento de Aprendizaje por Refuerzo

  • Implementación de GRPO
  • Uso de modelos de recompensa basados tanto en reglas como en modelos
  • Integración de patrones de verificación y reflexión

4. El Papel de la Retroalimentación Humana

El documento describe varios puntos donde la retroalimentación y supervisión humanas fueron cruciales para asegurar la calidad y alineación del modelo. Los anotadores humanos jugaron un papel crítico en la verificación de datos, revisando meticulosamente datos no relacionados con el razonamiento para mantener altos estándares en los conjuntos de datos de entrenamiento. Esto involucró medidas rigurosas de control de calidad para filtrar ruido, inconsistencias o información irrelevante, fortaleciendo los datos fundamentales utilizados para el entrenamiento del modelo. Además, los evaluadores humanos validaron sistemáticamente las salidas del modelo para evaluar precisión, coherencia y relevancia, asegurando que las respuestas del sistema cumplieran con puntos de referencia prácticos y éticos. Para el entrenamiento del modelo de recompensa, la entrada humana fue central: los anotadores generaron datos de preferencia humana para entrenar el modelo de recompensa, lo que guió al modelo hacia comportamientos deseables. Esto incluyó anotaciones de cadena de pensamiento que proporcionaron retroalimentación granular sobre pasos de razonamiento, permitiendo que el modelo alineara sus salidas con procesos lógicos similares a los humanos. Además, expertos en dominios validaron las salidas en campos especializados, inyectando precisión técnica y matices específicos del dominio en el sistema. Estos procesos iterativos con humanos en el ciclo —abarcando curación de datos, evaluación de salidas y refinamiento de señales de recompensa— destacan cómo el desarrollo de DeepSeek se basó en la supervisión humana continua para equilibrar la automatización con la precisión, asegurando en última instancia la fiabilidad del modelo y su alineación con las necesidades del mundo real.

No es nueva ingeniería - Es optimización. Esto no es "copiar"

Durante los meses iniciales del impacto de ChatGPT3.5, Stanford Alpaca (https://crfm.stanford.edu/2023/03/13/alpaca.html) se entrenó en 3 horas con $600 de computación utilizando datos de salida del modelo, en lugar de todo el conjunto de datos. Nadie se quejó de esa destilación. Durante un tiempo, el rendimiento resultante de Alpaca igualó al de Llama y OpenAI y fue la base de nuestros propios primeros experimentos. Cuando las respuestas de entrenamiento son consistentes, los modelos aprenden más eficientemente. Para comprender la magnitud del logro de DeepSeek, debemos entender el enfoque tradicional del desarrollo de IA y cómo DeepSeek lo ha revolucionado. No han inventado nada nuevo, pero han optimizado muchos componentes.

Tradicionalmente, los modelos de lenguaje grandes como GPT-4 se desarrollan a través de un proceso llamado Ajuste Fino Supervisado (SFT). Este enfoque requiere cantidades masivas de datos de entrenamiento etiquetados —esencialmente ejemplos de entradas y salidas correctas que ayudan al modelo a aprender. Piense en ello como enseñar a un estudiante mostrándole miles de problemas resueltos. Este proceso es costoso, consume mucho tiempo y crea una alta barrera de entrada para nuevos actores en el campo.

DeepSeek ha adoptado un enfoque radicalmente diferente, centrándose en el Aprendizaje por Refuerzo (RL). El RL está inspirado en cómo los humanos aprenden naturalmente – a través de prueba y error, y el DeepMind de Google señaló que "era suficiente" en su documento de 2021. La mayoría de nosotros que trabajamos en desarrollo o hemos creado conjuntos de datos para IA sabemos que los datos sintéticos (datos generados por máquina) son a menudo más confiables que los datos generados por humanos al entrenar para escenarios específicos. Con RL, el modelo aprende recibiendo recompensas o penalizaciones basadas en sus acciones en lugar de que se le muestren las respuestas correctas. Lo que hace notable el logro de DeepSeek es su exitosa implementación del entrenamiento "RL puro" sin ningún dato pre-etiquetado.

La implementación de DeepSeek, aunque potencialmente utilizando algunas señales supervisadas, demuestra cómo las innovaciones en ingeniería pueden hacer que el aprendizaje basado en recompensas sea más eficiente, y este es el verdadero avance. DeepSeek ha tomado la teoría y la ha aplicado incluso en condiciones desfavorables, y esto realmente brilla en los logros de ingeniería que describen en el documento:

  • Reduce los costos de memoria y computación proyectando matrices KQV en un espacio de menor dimensión.
  • Arquitectura de Mezcla de Expertos (MoE) con 671B parámetros totales: Incluso la empresa francesa Mistral lanzó dos modelos MoE (también enviando una señal a OpenAI: "Sabemos cómo lo han hecho"). Una Mezcla de Expertos usa solo parámetros seleccionados por token, reduciendo la computación mientras mantiene la calidad del modelo. DeepSeek ha implementado una pérdida especial de balance de carga para asegurar la utilización experta del Hardware distribuido.
  • Predicción Multi-Token (MTP): Permite la generación paralela de tokens, mejorando el rendimiento de 2 a 3 veces.
  • Por último, Cuantización FP8: Proporciona hasta un 75% de reducción de memoria comparado con FP32 mientras mantiene la estabilidad a través de técnicas de escalado adaptativo de ancho de bits y cuantización consciente de pérdida.

Estas innovaciones arquitectónicas (MoE, MLA, MTP y Cuantización FP8) se centran en optimizar el entrenamiento a gran escala y la eficiencia de implementación y servicio, no el rendimiento en tiempo de ejecución local o de usuario único. Por ejemplo, MoE requiere la misma huella de memoria que el modelo denso como la familia Llama de Meta. A pesar de usar menos parámetros por inferencia, la generación paralela de tokens de MTP beneficia principalmente a escenarios de alto rendimiento.

La verdadera innovación viene, entonces, de su metodología de entrenamiento. OpenAI, Gemini, Claude, Mixtral y otros pueden adoptar pronto las mismas técnicas de eficiencia. Como modelo, DeepSeek R1 es demasiado verboso incluso cuando su temperatura está configurada en 0. El equipo investigó para encontrar algunas de las ideas centrales de OpenAI o1 de forma independiente. (Confirmado por Mark Chen, Director de Investigación en OpenAI). Deepseek utilizó la Optimización de Política Relativa Grupal (GRPO) - Una alternativa más eficiente a PPO/DPO para el aprendizaje por refuerzo en un enfoque de entrenamiento multietapa que combina SFT y RL. Las capacidades de razonamiento emergen a través del aprendizaje por refuerzo.

Entendiendo GRPO (y su vínculo con la enseñanza eficiente en escuelas de negocios)

GRPO es ciertamente innovador, pero el concepto ha sido parte de algunos establecimientos educativos como IESE Business School durante mucho tiempo. En IESE, a los estudiantes se les asignan tareas y proyectos para completar en grupos. Los estudiantes en una clase no reciben evaluaciones individuales. En su lugar, el grupo recibe una puntuación por el trabajo, y el logro del estudiante es relativo al promedio del grupo, con los mejores y peores desempeños. El objetivo es aumentar la precisión del grupo y animar a los estudiantes con peores calificaciones a mejorar (trabajar con mayor precisión y exactitud). En la práctica, esto funcionaría así:

Pregunta: ¿Cuál es la capital de Francia?

Estudiante A

París 0,9

Estudiante B

La capital de Francia es París. 1

Estudiante C

Roma 0

Estudiante D

París es la capital de Francia 0,95

Promedio

  0,7125

Aquí, ciertas penalizaciones pueden tener lugar. Por ejemplo, si estamos buscando respuestas más largas, el Estudiante A puede ser ligeramente penalizado por proporcionar una respuesta concisa, etc. Sin embargo, cualquier respuesta que puntúe por encima de 0,7125 es una respuesta viable. A escala, podemos aprender la respuesta de sentido común y cómo puede expresarse. Imagine aplicar este método a matemáticas o código, disciplinas muy populares en Asia. Este método parece haber sido el núcleo de los "ahorros", ya que no se emplearon tantos humanos como en las primeras versiones estadounidenses (ChatGPT3.5, Gemini de Google o la serie de modelos Claude de Anthropic).

La Optimización de Política Relativa Grupal (GRPO) de DeepSeek representa una elegante solución de ingeniería a un problema clásico de aprendizaje por refuerzo. Para resolver una pregunta como "¿Cuál es la capital de Francia?", los enfoques tradicionales habrían requerido un modelo "crítico" separado. Como hemos visto, GRPO estima las líneas base de recompensa comparando respuestas dentro de grupos de salidas del modelo.

Sin embargo, esta innovación ha generado debate. Algunos expertos en la comunidad de IA señalan potenciales contradicciones - mientras DeepSeek afirma "RL puro sin datos supervisados", generar recompensas significativas para las salidas del modelo de lenguaje probablemente aún requiere alguna forma de supervisión o juicio. Como señaló un investigador en Reddit /singularity: "Sin ninguna etiqueta, ¿cómo se calcula esta 'recompensa' para cada respuesta? La única solución lógica es usar otro LLM avanzado". Hay un punto en ello, que es obtener ciertos niveles de precisión. Seamos realistas, la IA ya está extensamente presente en muchas áreas de nuestras vidas, y no aprovechar los sistemas de IA para acelerar el trabajo propio no sería comprensible. Pero la verificación de hechos con un jugador establecido o usar algo de su conocimiento existente para procesos de soporte difícilmente puede considerarse "destilación".

La conexión "La recompensa es suficiente": Este es el verdadero avance

Ahora estamos llegando a la idea de que los costos de entrenamiento de DeepSeek y el proceso han sido mucho más estándar de lo que inicialmente informaron los medios y que el frenesí y la conmoción tienen más que ver con el sensacionalismo y la mala interpretación del documento. El hecho de que un modelo producido en China haya superado a OpenAI o Gemini en varias tareas debería ser noticia por sí mismo, pero volver a contar la historia como "lo hicieron con $5M, y lo hicieron solo con Aprendizaje por Refuerzo" (de alguna manera, procesos sintéticos sin intervención humana)... vende más y captura más titulares.

DeepSeek adoptó un enfoque radicalmente diferente, centrándose en el Aprendizaje por Refuerzo (RL). El RL está inspirado en cómo los humanos aprenden naturalmente – a través de prueba y error. En lugar de que se le muestren las respuestas correctas, el modelo aprende recibiendo recompensas o penalizaciones basadas en sus acciones. El enfoque de DeepSeek se alinea con los principios delineados en el influyente documento "La recompensa es suficiente" por investigadores de DeepMind en octubre de 2021. (DeepMind fue adquirida por Google en 2014 y se fusionó con la división Google Brain de Google AI para convertirse en Google DeepMind en abril de 2023. El equipo ahora trabaja en Google con centros de investigación en Canadá, Francia, Alemania y Estados Unidos). ¡Prepárese para algunas noticias de Google en 2025!).

DeepMind hizo titulares en 2016 después de que su programa AlphaGo venció a un jugador profesional humano de Go, Lee Sedol, un campeón mundial, en un partido de cinco juegos que fue el tema de un documental. Otro programa, AlphaZero, venció a los programas más poderosos jugando go, ajedrez y shogi (ajedrez japonés) después de unos días de jugar contra sí mismo utilizando... Aprendizaje por Refuerzo.

Este marco sugiere que la inteligencia y sus habilidades asociadas pueden emerger únicamente a través de la maximización de una recompensa: "La maximización de diferentes recompensas en varios entornos conduce a distintas formas de inteligencia al dar forma a la naturaleza de las habilidades de un agente basado en sus experiencias específicas. Cada entorno presenta desafíos y recompensas únicos, que, cuando se maximizan, resultan en la emergencia de formas poderosas y especializadas de inteligencia. Este proceso permite que los agentes desarrollen una diversa gama de habilidades, como lo demuestra el éxito de AlphaZero en dominar juegos como Go, ajedrez y shogi a través de un enfoque singular en la maximización de recompensas".

La Evolución de DeepSeek

El viaje de DeepSeek hacia este avance fue metódico. Su primer lanzamiento significativo, DeepSeek Coder, llegó en noviembre de 2023 como un proyecto de código abierto. El DeepSeek LLM siguió a esto, escalado a 67B parámetros, desafiando las capacidades de GPT-4 pero enfrentando desafíos de eficiencia.

El verdadero avance llegó con DeepSeek-V2 en mayo de 2024, demostrando una eficiencia sin precedentes en recursos computacionales y consumo de energía. Esta versión desencadenó lo que los medios chinos denominaron la "guerra de precios de la IA", forzando incluso a gigantes tecnológicos como ByteDance y Alibaba a reducir sus precios para competir.

DeepSeek-V3, lanzado en diciembre de 2024, representó otro salto adelante, igualando el rendimiento de modelos top como GPT-4 y Claude 3.5 Sonnet mientras utilizaba significativamente menos recursos. El lanzamiento en enero de 2025 de DeepSeek-R1 y R1-Zero representa la culminación de su innovación. Estos modelos demuestran que la IA sofisticada puede desarrollarse a través del aprendizaje por refuerzo puro, desafiando la dependencia de la industria en conjuntos masivos de datos etiquetados y enviando ondas de cambio a varias industrias (la necesidad de gran adquisición de datos por empresas de IA), y aquellos que habían basado sus aplicaciones en la API de OpenAI, por nombrar dos. Áreas como la precisión en las capacidades de traducción de LLM aún deben probarse en profundidad (no es secreto que hemos comenzado las nuestras). DeepSeek recomienda un parámetro más alto de lo usual. Nuestras pruebas iniciales apuntan a una tendencia a resumir y adaptar demasiado, especialmente en idiomas de Europa Occidental, quizás debido al valor predeterminado de 1,3. Aunque las traducciones son fluidas, también hay una tendencia a perder algunos segmentos o fusionar los conceptos. La fluidez, adaptación y precisión en idiomas de alta demanda (chino, japonés, coreano) se ven muy bien.

The temperature parameter for Translation is a little higher at 1.3

Tenga en cuenta que el Parámetro de Temperatura de DeepSeek no está configurado para concisión sino para una ligera verbosidad. Esto afecta las conversaciones y la traducción.

Implicaciones para la industria

Las implicaciones del avance de DeepSeek se extienden mucho más allá de la comunidad de investigación en IA:

Primero, está la democratización del desarrollo de IA. Al hacer su tecnología de código abierto, demostrar que la IA de alto rendimiento puede desarrollarse sin conjuntos masivos de datos etiquetados, y regalar el modelo abierto con pesos abiertos, DeepSeek ha reducido las barreras de entrada para el desarrollo de IA. El ajuste fino adecuado llevará a una explosión de modelos de IA especializados desarrollados por empresas y organizaciones más pequeñas. Pronto comenzaremos la personalización y el ajuste fino en Pangeanic para nuestra Traducción IA Profunda Adaptativa, resumen y clasificación de datos, entre otras tecnologías. En segundo lugar, está la eficiencia energética ya que los modelos de DeepSeek requieren significativamente menos poder computacional y energía que sus competidores. Esto aborda una de las principales críticas a los modelos de lenguaje grandes – su impacto ambiental debido al alto consumo de energía. Incluso para aquellos que no quieren alojar el modelo, hay una reducción tangible en el costo de uso ya que los costos de API de DeepSeek son aproximadamente 27 veces más bajos que los de OpenAI tanto para los tokens de entrada como de salida.

PImplicaciones políticas y económicas

Las ramificaciones geopolíticas del éxito de DeepSeek son significativas. Demuestra que los controles de exportación estadounidenses sobre chips avanzados de IA no han impedido la innovación china. En cambio, estas restricciones pueden haber empujado a las empresas chinas a desarrollar alternativas más eficientes, que ahora están disponibles para desarrolladores en todo el mundo. La situación ha creado lo que algunos analistas llaman una "Guerra Fría Digital", con Europa atrapada entre los ecosistemas de IA estadounidense y chino. Es cierto que esto puede plantear importantes preguntas sobre la soberanía tecnológica y el futuro del desarrollo global de la IA, que, nuevamente, la disponibilidad y apertura del modelo DeepSeek puede resolver. Parafraseando a Yann LeCun de Meta, el conflicto es realmente sobre modelos cerrados y propietarios versus modelos abiertos. Por una vez, después de la investigación de Italia y Bélgica a DeepSeek sobre la protección de datos personales (enfrentando una potencial prohibición, al igual que ChatGPT), las autoridades estadounidenses probablemente estén contentas de que exista una legislación como el GDPR. El GDPR requiere el anonimización de datos personales. DeepSeek enfrenta escrutinio sobre su relación con las autoridades chinas. El modelo incluye ciertas restricciones y mecanismos de censura, particularmente en torno a temas políticamente sensibles. Esto plantea preguntas sobre el equilibrio entre el desarrollo de código abierto y el control e influencia gubernamental, que ya observamos en los Estados Unidos.

Mirando hacia adelante

La emergencia del modelo R1 de DeepSeek y su rápida adopción señalan un cambio fundamental en el panorama de la IA, con profundas implicaciones para el desarrollo tecnológico, la competencia global y el impacto social. El avance de DeepSeek sugiere que estamos entrando en una nueva fase en el desarrollo de la IA, donde la innovación podría venir de lugares inesperados y tomar formas inesperadas. Algunos países africanos y comunidades en India o América Latina pueden tomar un modelo DeepSeek más pequeño y ajustarlo para sus propósitos, simplemente agregando instrucciones culturalmente relevantes o más datos para necesidades localizadas (por ejemplo, traducción de idiomas de bajos recursos y optimización agrícola). La innovación por parte de startups en esas regiones podría florecer fuera de los centros tecnológicos tradicionales. Esto se alinea con la tendencia de la "IA glocal" —modelos globales adaptados a contextos locales. Los proyectos de preservación de idiomas probablemente se beneficiarán. Centrarse en el Aprendizaje por Refuerzo sobre el entrenamiento supervisado podría conducir a sistemas de IA más eficientes y adaptables que aprendan más como los humanos.

Para las industrias que dependen de la tecnología de IA, desde la traducción de idiomas hasta el desarrollo de software, esto significa prepararse para un mundo donde las capacidades avanzadas de IA son más accesibles y asequibles. Las empresas deben centrarse en aplicaciones especializadas y servicios de valor agregado en lugar de simplemente acceso a modelos de IA. Esto lleva a una comoditización de los modelos fundamentales: A medida que los modelos fundamentales se vuelven más baratos y accesibles, su valor como productos independientes disminuye. Es como tener un sistema operativo de computadora: lo esperas y lo das por sentado. Lo que importa es lo que construyes encima. La competencia se desplazará hacia aplicaciones especializadas, curación de datos y soluciones específicas verticales (por ejemplo, diagnósticos de salud, automatización legal). Las startups pueden priorizar la experiencia en el dominio sobre la construcción de modelos, remodelando las estrategias de capital de riesgo.

Estamos a punto de ver mucha presión sobre los incumbentes. Anthropic desdeñó a DeepSeek en su blog. El CEO Dario Amodei dijo que no ve a China o DeepSeek "como adversarios" pero cree que los controles de exportación son más críticos que nunca cuando se trata de inteligencia artificial. Esa estrategia ya ha demostrado ser miope. La respuesta de OpenAI (por ejemplo, acelerar los lanzamientos) refleja la amenaza de alternativas de bajo costo. Si el rendimiento de DeepSeek se mantiene, los incumbentes pueden enfrentar compresión de márgenes, forzándolos a innovar más rápido o diversificarse en servicios empresariales, hardware o herramientas del ecosistema (por ejemplo, marcos de evaluación).

Los modelos de negocio que van a emerger serán novedosos y muy interesantes. La asequibilidad de la inferencia (llamadas API) y la flexibilidad de código abierto podrían impulsar la IA descentralizada para el ajuste fino de modelos impulsado por la comunidad y el aprendizaje federado y, sobre todo, "IA como utilidad" (servicios basados en suscripción para industrias nicho) y arquitecturas híbridas (startups combinando múltiples modelos rentables (por ejemplo, DeepSeek para razonamiento, Mistral para creatividad) para optimizar el rendimiento).

El futuro del desarrollo de IA parece más abierto y democrático que nunca, pero también más complejo y políticamente cargado. El éxito de DeepSeek destaca el creciente papel de China en la innovación de IA, desafiando la dominación occidental. Esto probablemente intensificará la desvinculación tecnológica entre EE.UU. y China mientras ambas naciones compiten por la supremacía tecnológica. Sin embargo, también presenta una oportunidad para la colaboración en áreas críticas como la seguridad de la IA, donde los objetivos compartidos podrían fomentar esfuerzos cooperativos a pesar de las tensiones geopolíticas. El logro de DeepSeek no es meramente un hito técnico; significa un potencial realineamiento del orden tecnológico global, donde las dinámicas de poder pueden cambiar y nuevos líderes en innovación de IA podrían emerger.

También enfrentaremos nuevos sesgos y riesgos de seguridad ya que las preocupaciones sobre sesgos culturales/políticos incorporados en modelos como R1 (entrenado con datos chinos) pueden limitar la adopción en ciertos mercados. Por el contrario, los desarrolladores en regímenes autoritarios podrían explotar modelos de código abierto para herramientas de vigilancia o censura. Finalmente, los mismos dilemas regulatorios persistirán ya que los gobiernos lidiarán con equilibrar los incentivos de innovación (vía IA asequible) con riesgos como la desinformación, el desplazamiento laboral y el mal uso ético. Regiones como la UE pueden endurecer la supervisión de modelos de código abierto, mientras que otras priorizarán el despliegue rápido.

A medida que avanzamos, la pregunta clave no es solo quién puede construir los modelos de IA más poderosos, sino quién puede usarlos más efectivamente para resolver problemas del mundo real mientras aborda preocupaciones cruciales sobre ética, privacidad e impacto social. La revolución de la IA ha entrado en una nueva fase, solo 2 años después de que los primeros modelos Chat+LLM asombraron al mundo con su fluidez.