Grandes corporaciones están experimentando de primera mano la insostenibilidad de los costos actuales. Uber, por ejemplo, agotó su presupuesto de IA para 2026 en apenas cuatro meses, una clara señal de la escala de gasto. Microsoft, otro gigante, está cancelando licencias de Claude Code en varios departamentos debido a la presión presupuestaria. Un ejecutivo de Nvidia, empresa en el epicentro de la infraestructura de IA, ha admitido que los costos de computación "están superando con creces los costos de los empleados". Estas cifras, junto con proyecciones de OpenAI de gastar más de 150 mil millones de dólares solo en costos de inferencia hasta 2030, subrayan una crisis de rentabilidad que Forbes y otras fuentes han estado documentando. La asunción de que los modelos más grandes son intrínsecamente superiores está siendo desafiada por una realidad económica innegable, impulsando a las empresas a examinar con lupa cada implementación de IA, buscando un equilibrio entre capacidad y viabilidad financiera.
Modelos Grandes y Costosos vs. Modelos Más Pequeños y Eficientes
El debate actual en el ámbito de la IA se centra en dos enfoques divergentes: por un lado, los modelos de lenguaje grandes (LLM) que, si bien ofrecen capacidades impresionantes, conllevan costos operativos exorbitantes; por otro, una creciente ola de modelos más pequeños y especializados que prometen un rendimiento comparable a una fracción del precio.
Históricamente, la tendencia ha sido hacia modelos de IA de mayor tamaño, que requieren inmensas cantidades de datos y recursos computacionales para su entrenamiento y operación. Estos modelos "gigantes" se han asociado con un rendimiento superior en tareas complejas, pero su mantenimiento es una carga financiera considerable. En 2025, el 45% de las empresas gastó más de 100.000 dólares mensuales en IA, según datos recopilados por KuCoin. Los costos de inferencia, es decir, el gasto recurrente de ejecutar estos modelos una vez entrenados, se han disparado, poniendo en jaque la rentabilidad de muchas iniciativas de IA. La promesa de la IA de transformar industrias enteras se topa con la cruda realidad de los balances financieros.
Frente a esta situación, la industria está pivotando hacia la eficiencia. El cofundador de Coinbase, Brian Armstrong, ha sido un vocal defensor de este cambio, prediciendo que el 80% de las cargas de trabajo de IA se ejecutarán en modelos un 99% más baratos en los próximos 12 a 18 meses. Este no es un pronóstico aislado. Ejemplos concretos demuestran que es posible mantener la calidad reduciendo drásticamente los costos. La startup legal de IA Harvey, por ejemplo, logró reducir sus costos de inferencia en tres veces al combinar el modelo Claude Opus con un modelo más pequeño y especializado para tareas específicas.
Una de las alternativas más disruptivas proviene de China, donde los modelos de IA son entre 10 y 30 veces más baratos que sus contrapartes estadounidenses. Su adopción por parte de desarrolladores en EE. UU. ha crecido exponencialmente, pasando del 1% en 2024 a más del 60% en mayo de 2026. Esta explosión no solo refleja una ventaja de precio, sino también la madurez y capacidad creciente de estos modelos. Además, las estrategias de optimización no se limitan solo a elegir un modelo más pequeño. Técnicas como el caché de prompts, que evita re-ejecutar solicitudes idénticas, y el enrutamiento de modelos, que dirige las consultas al modelo más adecuado y eficiente, pueden reducir los costos operativos de IA en un 70% o más. Investigaciones de Stanford con su "FrugalGPT" han demostrado ahorros de hasta el 98% mediante una selección inteligente y en cascada de modelos. La era de la "evaluación de la IA", como señalan analistas de Stanford, está reemplazando el "evangelismo de la IA", exigiendo rigor y eficiencia sobre la mera fascinación tecnológica.
Los datos hablan
La evidencia cuantitativa respalda un cambio innegable en la economía de la IA. Los costos de inferencia para sistemas como GPT-3.5 han experimentado una caída monumental de más de 280 veces entre finales de 2022 y finales de 2024. Este descenso no es una anomalía, sino una tendencia. Anthropic, por ejemplo, redujo los precios de su modelo Claude en un 67%, y su versión Claude Opus 4.6 es no solo un 67% más barata que su predecesora, sino también más capaz. Modelos que antes costaban 60 dólares por millón de tokens ahora se sitúan en el rango de 1 a 2 dólares. Estas cifras ilustran una deflación masiva en el costo de la computación de IA.
Sin embargo, el panorama no está exento de complejidades. Will Sommer de Gartner advierte que, aunque los costos por token están disminuyendo, los CIOs podrían no ver ahorros directos significativos. La razón es que la demanda de capacidades de IA más avanzadas, como la IA agéntica (sistemas autónomos que interactúan con su entorno), seguirá aumentando, empujando los costos hacia aplicaciones de mayor valor. Es un equilibrio dinámico entre la reducción del precio unitario y la expansión del uso.
Expertos y analistas están reaccionando a este cambio con diversas perspectivas. Scott Galloway, según KuCoin, anticipa que las empresas se inclinarán cada vez más por modelos chinos debido a su rentabilidad. La predicción de Brian Armstrong sobre el 80% de las cargas de trabajo migrando a modelos 99% más baratos resalta la escala del impacto potencial. Analistas de Stanford subrayan que el 2026 marca un hito, pasando de la "era del evangelismo de la IA" a la "era de la evaluación de la IA", donde la pregunta clave es "qué tan bien, a qué costo y para quién". Ilya Bonic de Mercer añade una capa crucial a esta discusión: la IA no reemplazará el trabajo humano, sino que obligará a su rediseño. Las empresas que no transformen los roles laborales para integrar eficientemente la IA verán limitaciones significativas en la mejora de la productividad, incluso con modelos más baratos. La inversión no es solo en tecnología, sino en la adaptación organizativa y humana.
Qué significa para Latam
Para Latinoamérica, esta transición hacia modelos de IA más baratos y eficientes representa una oportunidad transformadora, pero también presenta desafíos específicos en un contexto de rápida evolución regulatoria. La región ha mostrado un notable optimismo y una adopción acelerada de la IA, con un 65% de los consumidores utilizando herramientas de IA en 2025. El mercado de IA en LatAm está valorado en 12.7 mil millones de dólares y crece a una impresionante tasa anual del 28.1%. Sin embargo, la confianza es aún desigual, con un 44% de los usuarios preocupados por la desinformación.
La regulación de la IA en la región es un campo dinámico y en pleno desarrollo. Países como Brasil (Proyecto de Ley No. 2,338/2023) y Chile (Política Nacional de IA y proyecto de ley) están avanzando con marcos basados en riesgos. Chile, además, implementará el 1 de diciembre de 2026 su Ley No. 21,719, que regula la protección de datos personales y el derecho a oponerse a decisiones automatizadas. México ya incluye un requisito de exclusión voluntaria para decisiones automatizadas y busca enmiendas a leyes laborales y de derechos de autor. Perú ha promulgado la Ley No. 31,814 de 2023 y el Decreto Supremo No. 115-2025, regulando la IA de "alto riesgo" en sectores como empleo, salud y educación, con implementación escalonada hasta 2029. Argentina también cuenta con el Proyecto de Ley No. 4243-D-2025 para regular el procesamiento de datos personales en sistemas de IA. Es fundamental que las empresas latinoamericanas también consideren el alcance extraterritorial de la Ley de IA de la UE, cuyas obligaciones principales entrarán en vigor el 2 de agosto de 2026, afectando a quienes operen o comercialicen sistemas de IA en el mercado europeo.
La accesibilidad económica de los nuevos modelos de IA, especialmente los de código abierto que son de 5 a 7 veces más baratos que las alternativas propietarias, es clave para que las empresas de LatAm superen las barreras de costo y escalen sus implementaciones. La adopción estratégica y responsable de la IA podría añadir entre un 3.6% y un 6.7% al PIB de la región, lo que representa un impacto potencial de hasta 242 mil millones de dólares anuales. México y Brasil se destacan como líderes en proyectos y financiación de IA.
Numerosas empresas en la región ya están aprovechando estas eficiencias. InvGate, desde Argentina, utiliza IA para optimizar la gestión de TI. En Brasil, Blip y DeltaAI aplican IA en plataformas conversacionales y legaltech predictivo, respectivamente. Chile cuenta con SimpliRoute y Fracttal, optimizando logística y mantenimiento predictivo. En México, Kueski mejora la evaluación crediticia con IA, mientras que en Colombia, Rappi optimiza sus rutas de entrega. Estos ejemplos demuestran cómo la IA, ahora más accesible, puede resolver problemas locales y potenciar la competitividad regional, impulsando la productividad y la innovación.