El estudio, diseñado para destacar cómo la IA está transformando diversas industrias, citaba a empresas y entidades de alto perfil como UBS, el Servicio Nacional de Salud del Reino Unido (NHS), Swiss Federal Railways y Transport for London. Sin embargo, estas organizaciones rápidamente confirmaron que las descripciones de su supuesto uso de IA eran, en el mejor de los casos, incorrectas y, en muchos casos, completamente falsas o engañosas. Un portavoz de KPMG Internacional afirmó que la firma "toma en serio la exactitud e integridad de su contenido publicado" y que están "investigando las circunstancias" que llevaron a esta situación, reiterando la expectativa de que sus empleados sigan las directrices de uso responsable de la IA, incluyendo la supervisión humana.
La magnitud del problema fue expuesta por GPTZero, una empresa especializada en la detección de contenido generado por IA. Tras analizar 45 citas incluidas en el informe de KPMG, GPTZero encontró que la precisión era alarmantemente baja: solo 5 citas (un mísero 11%) eran verificablemente exactas. Otras 28 contenían paráfrasis o componentes falsos, mientras que 12 eran demasiado vagas para su verificación. En esencia, aproximadamente la mitad de las afirmaciones clave del informe resultaron ser falsas o mal atribuidas, lo que llevó a Edward Tian, CEO de GPTZero, a acuñar el término "vibe citing" para describir la creación de referencias que suenan plausibles pero que carecen de fundamento real.
Más allá de las citas externas, el informe incluso contradecía datos propios de KPMG. Por ejemplo, citaba que el 55% de los CEOs priorizan la IA en sus agendas, mientras que el "KPMG 2025 CEO Outlook" (un informe interno de la misma firma) indicaba que la cifra real era del 71%. Esta discrepancia subraya no solo el problema de las alucinaciones de la IA, sino también la falta de una revisión interna efectiva que pudiera haber detectado tales inconsistencias.
Contexto y antecedentes: Un patrón de desinformación que socava la confianza
El incidente de KPMG no es un caso aislado, sino más bien la punta del iceberg en una tendencia preocupante. Expertos del sector han señalado que este tipo de errores se están convirtiendo en un "patrón constante" donde las organizaciones, atraídas por la eficiencia y la novedad de la inteligencia artificial, la utilizan sin la verificación adecuada. Esta práctica, lamentablemente, a menudo resulta en la publicación de contenido ficticio o incorrecto. De hecho, otras firmas de consultoría de renombre, como EY y Deloitte, también han tenido que retirar informes por problemas similares, aunque quizás no con la misma repercusión o nivel de detalle en la exposición de sus fallos.
La rapidez con la que las herramientas de IA generativa pueden producir grandes volúmenes de texto es una espada de doble filo. Si bien ofrece eficiencias sin precedentes en la creación de contenido y análisis preliminares, también introduce un riesgo significativo de propagar desinformación a una escala nunca antes vista. Edward Tian de GPTZero advirtió que los informes erróneos de grandes consultoras "envenenan la fuente de información", creando un riesgo de "alucinaciones de segunda mano" que pueden ser replicadas y citadas por otros, extendiendo la falsedad a través del ecosistema informativo.
La presión por adoptar y mostrar experticia en IA es innegable en el entorno empresarial actual. Las consultoras, en particular, tienen un incentivo para posicionarse a la vanguardia de las nuevas tecnologías. Sin embargo, este incidente sirve como un recordatorio severo de que la velocidad no puede comprometer la precisión, especialmente cuando la reputación y la confianza son los activos más valiosos de una firma de servicios profesionales.
Implicaciones técnicas: El desafío de la verificación y la "alucinación de segunda mano"
Desde una perspectiva técnica, las "alucinaciones" de los Grandes Modelos de Lenguaje (LLMs) son un fenómeno conocido. Ocurren cuando el modelo genera información que no está respaldada por sus datos de entrenamiento, o cuando combina elementos de manera engañosa, creando una narrativa coherente pero falsa. Esto puede deberse a limitaciones en la calidad o cantidad de los datos, la complejidad de las preguntas, o simplemente la tendencia inherente de estos modelos a "inventar" para completar patrones.
El concepto de "vibe citing", como lo define GPTZero, va un paso más allá. No se trata solo de errores aleatorios, sino de la capacidad del modelo para simular referencias y atribuciones de manera convincente. Para desarrolladores, ingenieros de IA y gerentes de producto (PMs), este incidente subraya varias lecciones cruciales:
- Necesidad de Pipelines de Verificación Robustos: La implementación de la IA en procesos críticos requiere un diseño de sistemas donde la validación y verificación de la salida de la IA sean pasos obligatorios. Esto implica el uso de herramientas de detección de plagio y alucinaciones, así como la comparación con fuentes de datos autorizadas.
- Supervisión Humana Reforzada: La "supervisión humana" no puede ser una formalidad. Debe ser un proceso activo y riguroso, donde expertos en la materia revisen críticamente cada afirmación generada por IA, especialmente aquellas que implican datos o atribuciones específicas. Es el famoso "human-in-the-loop", pero con una función de auditoría más que de simple edición.
- Estrategias de RAG (Retrieval-Augmented Generation): Para minimizar las alucinaciones, la implementación de arquitecturas RAG es fundamental. Esto permite a los LLMs consultar bases de datos externas y confiables en tiempo real, en lugar de depender únicamente de su conocimiento interno, que puede estar desactualizado o ser propenso a errores.
- Tuning y Fine-tuning Responsable: El ajuste fino de modelos de IA debe priorizar la precisión y la veracidad sobre la fluidez o la creatividad. Es esencial entrenar los modelos con datos limpios y etiquetados con un enfoque en la factualidad.
- Desarrollo de Herramientas de Transparencia: La industria necesita invertir en herramientas que no solo detecten alucinaciones, sino que también proporcionen la trazabilidad de la información generada por IA, indicando las fuentes utilizadas y el nivel de confianza de cada afirmación.
El riesgo de las "alucinaciones de segunda mano" es particularmente insidioso. Si un informe erróneo de una firma como KPMG es citado por otros medios o estudios, la desinformación puede amplificarse exponencialmente. Esto crea una cadena de credibilidad rota, donde el error original se perpetúa y se vuelve más difícil de corregir, afectando la confianza en la IA y en la información en general.
Impacto en Latinoamérica: Adopción acelerada, regulación incipiente y brechas de valor
El incidente de KPMG resuena con especial fuerza en América Latina, una región que se ha mostrado particularmente entusiasta en la adopción de tecnologías de inteligencia artificial, pero donde también existen desafíos únicos. Según diversas fuentes, la región está experimentando una rápida incorporación de la IA: el 85% de las startups latinoamericanas ya están adoptando IA generativa, y el 75% utiliza IA predictiva. La región representa el 14% del tráfico web global a soluciones de IA, superando su 11% de usuarios de internet a nivel mundial. Países como Costa Rica lideran la adopción de IA generativa, con un 28.5% de su población en edad laboral utilizándola en el primer trimestre de 2026.
Sin embargo, este entusiasmo por la adopción contrasta con una realización de valor económico aún limitada. Datos recientes indican que solo el 6% de las empresas latinoamericanas logran un valor económico significativo de la IA, lo que se traduce en un impacto superior al 5% en sus ganancias antes de intereses e impuestos. Mario Marchetti, de Sinch Latinoamérica, observó que, si bien la IA está presente en el día a día de la región, "sigue ausente en la arquitectura del negocio", convirtiéndose a menudo en una "capa tecnológica aislada" sin un rediseño adecuado de procesos o métricas claras de impacto. Esto se debe, en parte, a la falta de talento cualificado (en México, por ejemplo, el 71% del talento posee solo conocimientos básicos de IA) y a limitaciones de financiamiento para proyectos integrales.
El riesgo para Latinoamérica es doble: por un lado, replicar los errores de verificación observados a nivel global si se importan soluciones de IA sin el escrutinio necesario. Por otro lado, la región se consolida como una "consumidora neta" de soluciones finales de IA, con una menor integración y producción de tecnologías avanzadas propias. Esto hace que la dependencia de informes y análisis externos, como el de KPMG, sea mayor, lo que exige una capacidad crítica aún más aguda.
Afortunadamente, la región también está avanzando en la regulación de la IA. Países como Chile, Perú (con una norma actualizada en 2025), Brasil y El Salvador (que aprobó su propia ley en 2025) están desarrollando marcos legales inspirados en el modelo europeo, enfocándose en la clasificación de sistemas por riesgo y la protección de derechos fundamentales. Estas normativas buscan exigir mayor documentación, supervisión humana, transparencia y gestión de riesgos en el uso de la IA, lo que podría ser un contrapeso esencial contra los problemas de alucinaciones y desinformación.
El incidente de KPMG debe servir como una lección vital: la IA es una herramienta poderosa, pero no infalible. Su valor reside no solo en su capacidad de generar, sino en la inteligencia humana para verificar, integrar y aplicar sus resultados de manera ética y responsable. Para Latinoamérica, esto significa aprovechar la ola de adopción, pero con una base sólida de pensamiento crítico, inversión en talento local y marcos regulatorios que garanticen que la innovación no comprometa la veracidad y la confianza.