Stargate: ¿nació muerto? Donald Trump anunció, entre bombos y platillos, junto a Sam Altman, CEO de OpenIA, la iniciativa Stargate, una inversión de 500.000 millones de dólares para mejorar la infraestructura de IA. El monto millonario se otorgaría, específicamente, para la empresa tecnológica del momento, en el marco de un acuerdo con Softbank y Oracle. Los primeros 100.000 millones se utilizarán para construir un gran centro de datos en Texas, construcción que ya está iniciada.
Este contenido se hizo gracias al apoyo de la comunidad de El Destape. Sumate. Sigamos haciendo historia.
Más allá del anuncio, no queda del todo claro la viabilidad y sostenibilidad del proyecto. Elon Musk ya salió a desacreditar la iniciativa, señalando que están abusando de la confianza del presidente. Las dudas descansan en la existencia del dinero comprometido para realizar las inversiones, lo que se conecta con la expectativa respecto a que OpenIA realmente logre escalar sus desarrollos, sin caer en costos desmesurados que ahoguen cualquier estructura rentable de negocios. Como indica Gary Marcus, cuando OpenIA presenta una nueva versión de GPT, sus competidores se ponen rápidamente a punto. Su poder de exclusividad se está agotando. Y junto a la pérdida de sorpresa, las ganancias comienzan a ser modestas. Además, el último lanzamiento, el modelo o1, si bien logró captar la atención y resultó atractivo en términos comerciales, no mostró grandes avances respecto a los modelos anteriores. Una pregunta que emerge por decantación es: ¿Puede OpenIA garantizar superioridad en el desarrollo de la IA para justificar tamaña inversión de capital? o, por el contrario: ¿Ya se empiezan a notar las hilachas de un marketing preciso y efectivo que choca con una realidad compleja y desafiante?
Y en eso llegó DeepSeek...
A pesar de las declaraciones pomposas de Sam Altman respecto a la posibilidad de alcanzar la IA general más temprano que tarde, los hechos hablan por sí mismos. No solo ese horizonte parece desmedido si se toma en cuenta los éxitos alcanzados en las sucesivas versiones de GPT, sino que aparecen competidores serios que prometen menos y cumplen más.
El desembarco de Deep Seek, un desarrollo con origen en una startup china de un año de antigüedad, que es capaz de replicar el funcionamiento de GPT 4o o Claude 3.5 Sonnet, incluso mostrar mejoras en algunas funciones, no solo preocupa al bueno de Sam. En NVIDIA suenan las sirenas. Lo que está mostrando Deep Seek es que se puede optimizar el rendimiento de los LLM sin gastar tanto poder de cómputo. Esto podría afectar el plan de negocios de la multinacional norteamericana que se sostiene sobre la base de vender el insumo material indispensable (los chips) para que la nueva joya del capitalismo digital se luzca. Queda el interrogante de si los últimos chips de alta gama fabricados por esta compañía son realmente necesarios. Esto podría reducir drásticamente los costos del hardware involucrado en el desarrollo de la IA, pero también pinchar la burbuja financiera que se fue construyendo a su alrededor. En el premarket de Wall Street del 27 de enero, NVIDIA registró una caída del 12%. Este parece más un piso que un techo, a pesar de que habrá intentos para aminorar el derrumbe. Hay que tener presente que más allá del derrumbe espectacular en la bolsa, NVIDIA podría continuar vendiendo chips de gama baja y eso la mantiene aún con vida en un campeonato que recién comienza.
Una particularidad de DeepSeek es que fue desarrollada de forma mucho más barata que otras aplicaciones similares y que está disponible en código abierto. Esto quiere decir que existe en el mercado, una opción igual de efectiva que las otras, pero a un costo considerablemente menor y con la posibilidad, por el modo de funcionamiento del código abierto, de que el acceso al modelo y sus avances, por parte de todos los investigadores y usuarios interesados en experimentar con él, pueda eventualmente mejorar el producto de manera más sencilla. La innovación abierta puede transformar el éxito de hoy en el éxito de mañana, sin tanto gasto en publicidad y de manera mucho más transparente: ¿Tiembla el modelo de arquitectura cerrada?
No es la única novedad China…
Además de DeepSeek, la empresa de origen chino, ByteDance, propietaria de la plataforma Tik Tok, lanzó una actualización de su modelo Doubao-1.5-pro. Esta versión se ofrece a poco más de un dólar por millón de tokens, un precio agresivo que pone los pelos de punta a Sam y a toda la estructura de Stargate. Habrá que ver si la calidad de este chatbot es similar a la de GPT 4o, pero, por el momento, cuesta casi doscientas veces menos y exige costos de infraestructura sensiblemente menores. Los chips de gama baja podrían ser útiles en este modelo, lo que perjudica el acuerdo estratégico entre OpenIA y NVIDIA que venía definiendo el ensamble hardware-software. Pareciera que la ley de Chips, sancionada por Joe Biden en el marco de un consenso entre el bipartidismo norteamericano y la oligarquía hightech, generó un efecto contraproducente para toda la industria. Al obligar a China a resolver una limitación técnica, se topan ahora con una competencia capaz de ofrecer el mismo producto a un menor precio. Moraleja 1: no molestes a los chinos que son expertos en encontrar soluciones. Moraleja 2: hacele caso al lema “si no puedes con ellos, únete”.
Esta versión china es aún más barata que DeepSeek, aunque en este caso no está disponible en código abierto. Habrá que esperar a ver cuál de los desarrollos mencionados se impone en China. Sin embargo, sería un error circunscribir su expansión a Asia. El antecedente de Tik Tok nos alerta sobre la enorme capacidad de adopción que tienen estas nuevas aplicaciones que trascienden fronteras e incluso, en numerosas ocasiones, se posicionan por encima de la rivalidad entre Estados Unidos y la superpotencia asiática.
¿Y la IA general?
En el medio de esta curiosa rivalidad entre modelos de lenguaje natural, por momentos, orientada hacia una convergencia inevitable de soportes, dispositivos y plataformas, por momentos, inserta en una competencia feroz por captar la preferencia de los usuarios, tanto de individuos como empresas, una pregunta vuelve a la escena: ¿Y la IA general?
En sintonía con lo que plantea Gary Marcus, seguir enfrascado en la competencia por la supremacía en los MLL, hará que se pierda tiempo en lo verdaderamente importante: la IA general. Esta superinteligencia que es capaz de superar al ser humano en todos los dominios del intelecto, parece hoy más cerca que ayer, pero aún estamos lejos. La IA general no necesariamente provenga de ese juego de competencia por el liderazgo en la innovación, contaminado por las finanzas y la geopolítica de la IA, acotado a una sola dirección. Tal vez sea hora de poner huevos en otras canastas.
Contra el sentido común y la narrativa tecno optimista que nos inunda de mensajes confusos, se pueden plantear, en términos de hipótesis o supuestos, tres razones que nos alejan, en el corto plazo, de la IA General, que se vinculan con la forma en que se plantea alcanzar ese objetivo de la mano de los modelos de lenguaje natural.
En primer lugar, los resultados actuales son consecuencia de la propia disputa por la hegemonía global. Las restricciones impuestas por Estados Unidos a la compra de semiconductores obligaron al gigante asiático a encontrar nuevas soluciones. Y los chinos son expertos en esa tarea. Sin embargo, esto constituye un síntoma más de una mirada dogmática. Ambas potencias están concentradas en una disputa por una trayectoria específica en el campo de la IA, que, si bien se tornó dominante y tiene un enorme potencial disruptivo, no representa en sí misma todas las posibilidades de desarrollo hacia una IA general. Es probable que entremos en una fase donde estas disputas se agudizan y con ella la pérdida de tiempo, recursos y esfuerzos por concentrar la innovación en una disputa entre grandes empresas de las dos superpotencias: ¿Hay vida más allá de los LLM? ¿Hay posibilidad de encarar una estrategia distinta en el desarrollo de estos modelos que demore más tiempo, pero permita alcanzar mejores resultados?
En segundo lugar, cualquier evento pareciera poder pinchar una burbuja de especulación financiera en torno a la IA Generativa. Al mismo tiempo, lo que no se rompe se hace más fuerte. Un evento crítico en la senda de desarrollo de la IA, como ya sucedió en otras etapas, podría demorar cualquier horizonte de mejora radical. Estamos cerca de eso, pero aún no sucede, con lo cual, la demora puede profundizar aún más el golpe. Es una hipótesis que como toda conjetura puede caer en desgracia más rápido que lo usual en tiempos de aceleración. Lo importante es comprender que, si bien las burbujas financieras preceden a una gran revolución tecnológica, como demostró Carlota Pérez, una crisis en la IA, podría también desviar los esfuerzos hacia otros destinos con potencial disruptivo también. El paradigma 4.0 comprende un conjunto más amplio de tecnologías que exceden a la IA.
Por último, la propia escalada de la competencia entre corporaciones norteamericanas, pero también contra empresas chinas, podría acelerar tiempos y modelos que aún no están preparados ni listos para salir al mercado. En vez de resolver las limitaciones como pueden ser las alucinaciones, el grueso del esfuerzo se va a poner en conseguir modelos más económicos que amorticen el tándem tokens-dollar-watt. Tendremos modelos cada vez mejor diseñados para encandilarnos en tanto usuarios, pero que nos alejan del sueño de una IA que realmente supere al ser humano en todos los dominios del intelecto. Tal vez, el capitalismo no esté preparado todavía para el poscapitalismo.