Mercury 2: La IA que Responde a 1.000 Tokens por Segundo y Hace que ChatGPT Parezca Lento

+ NOTICIAS

03 / 01 : ¡ChatGPT, Claude y Gemini eligen la BOMBA NUCLEAR en el 95% de las guerras simuladas! El estudio que sacude a King’s College London
02 / 28 : Mercury 2: La IA que Responde a 1.000 Tokens por Segundo y Hace que ChatGPT Parezca Lento
02 / 27 : ¡Perplexity Computer ya llegó! La IA que trabaja SOLA mientras tomás mate: crea sitios, reportes y apps por vos
02 / 26 : Nano Banana 2 ya está aquí: La IA de Google que genera imágenes Pro en segundos y gratis 🍌 (Pruébala ahora)
02 / 24 : ¡Adiós ElevenLabs! Qwen3-TTS: Clona Cualquier Voz en Solo 3 Segundos 100% Gratis y en Tu PC (Open Source en Hugging Face)
02 / 21 : Lyria 3 de Google: Prueba Gratis la IA que Convierte Tus Ideas (o Fotos) en Música Real en Gemini – ¡Ya Disponible!
02 / 18 : Doubao 2.0 de ByteDance: La IA China que Mata a ChatGPT con Precios 10x Más Bajos y Agentes que Sí Hacen el Trabajo
02 / 17 : ¡Alerta IA! Claude Opus 4.6 Cruza a la Zona Gris: Ayuda en Armas Químicas, Engaño y Sabotaje Oculto – El Informe que Nadie Esperaba
02 / 13 : ¡Alarmante! La IA Inventa Suicidios en Registros de Niños Vulnerables: El Fracaso Crítico que Sacude al Trabajo Social Británico
02 / 12 : Qwen-Image 2.0: La IA que por fin arregla el texto en imágenes + 2K nativo y edición unificada

Los mejores Prompts IA encontrálos en nuestro instagram o personalizamos el que necesites DM

¡Mercury 2 rompe los límites de velocidad! La IA que responde más rápido que tu pensamiento

Imagina esto: estás escribiendo código a las 3 de la mañana, tienes un bug complicado y, en menos de un segundo, tu asistente de IA te entrega no solo la solución, sino un refactor completo listo para copiar y pegar. Sin esperar. Sin “pensando…”. Sin frustración.

Eso ya no es ciencia ficción. Se llama Mercury 2, el nuevo modelo de lenguaje de Inception Labs, y literalmente acaba de pulverizar los límites de velocidad de la inteligencia artificial. Con más de 10 años siguiendo cada avance en IA —desde los primeros GPT hasta los monstruos actuales—, te puedo decir con total honestidad: esto se siente diferente. Es el primer modelo que hace que la IA parezca… humana de verdad.

Hacemos tu página web autoadminstrable para que no dependas de nadie, hablemos!!

¿Qué demonios es Mercury 2 y por qué es tan rápido?

Olvídate de todo lo que creías saber sobre cómo funciona una IA conversacional. Los modelos que usamos todos los días —ChatGPT, Claude, Gemini— funcionan como una persona que escribe un mensaje de WhatsApp letra por letra: piensan un token (una palabra o pedacito de palabra), lo eligen, lo escriben, y recién después pasan al siguiente. Es secuencial, es lógico… pero es lento por diseño. Cada paso depende del anterior, y si la respuesta es larga, la espera se acumula como tráfico en la 9 de Julio un viernes a la tarde.

Mercury 2, desarrollado por Inception Labs, tira todo eso por la ventana. No escribe secuencialmente. En vez de eso, usa difusión —la misma tecnología mágica que hace que Midjourney o Stable Diffusion creen imágenes impresionantes de la nada— pero aplicada al texto.

¿Cómo funciona en la práctica? Imaginate que le pedís a la IA que te escriba un email profesional de 400 palabras. Los modelos tradicionales empiezan por la primera palabra y van avanzando como un tren en rieles: «Estimado… Juan… gracias… por…». Si se equivoca en la mitad, tiene que seguir arrastrando ese error o corregirlo con mucho esfuerzo después.

Mercury 2 hace algo completamente distinto: arranca con un borrador total de ruido puro (como una foto pixelada y borrosa al 100%). En ese caos inicial hay un poco de todo: palabras al revés, frases sin sentido, ideas mezcladas. Pero entonces entra en acción un proceso de refinamiento paralelo, paso a paso (generalmente pocos pasos, como 10-20 iteraciones rápidas).

En cada paso, el modelo mira toda la respuesta al mismo tiempo y dice: «Acá hay incoherencia, limpio esto; esta parte es redundante, la ajusto; el tono está muy formal, lo bajo un poco». Todo ocurre en paralelo, gracias a la arquitectura de difusión. No hay que esperar a que termine una oración para empezar la siguiente. Es como si un equipo de editores talentosos revisara y puliera un borrador entero de una, simultáneamente.

El resultado es brutal: más de 1.000 tokens por segundo en hardware real (en NVIDIA Blackwell GPUs alcanza 1.009 tokens/segundo según los benchmarks oficiales). Para que te hagas una idea:

Claude 4.5 Haiku (uno de los más rápidos del mundo actual) ronda los 89 tokens/segundo en modo razonamiento.
GPT-5 Mini está cerca de 71 tokens/segundo.
Mercury 2 multiplica eso por 10-14 veces, dependiendo del setup.

Una respuesta larga de 2.000-3.000 tokens (un artículo completo, un análisis detallado, un plan de código extenso) sale en menos de 3 segundos de principio a fin. No es solo throughput bruto: la latencia real (el tiempo hasta que ves la primera palabra) también se desploma porque no hay que generar token por token antes de mostrar nada.

¿Por qué esto es revolucionario y no solo un truco de marketing? Porque la velocidad no viene de GPUs más caras o optimizaciones menores. Viene de cambiar los cimientos mismos de cómo se genera lenguaje. Mientras toda la industria ha gastado miles de millones exprimiendo hasta el último milisegundo de los modelos autoregresivos (token por token), Inception Labs dijo: «¿Y si volvemos a los fundamentos y usamos difusión para texto como ya lo hacemos para imágenes y videos?».

Stefano Ermon, el CEO (uno de los pioneros mundiales en difusión desde sus días en Stanford), lo explica clarito en el anuncio oficial: la difusión permite razonamiento de calidad frontier (comparable a Haiku o GPT-5 Mini en muchos benchmarks) pero con latencia y costo que antes eran imposibles.

Hacemos tu página web autoadminstrable para que no dependas de nadie, hablemos!!

En números duros:

Velocidad: >1.000 tokens/seg (hasta 1.009 en Blackwell).
Latencia end-to-end: ~1.7 segundos para respuestas completas vs. 14-23 segundos en competidores equivalentes.
Precio: $0.25 por millón de tokens de entrada y $0.75 por millón de salida —ridículamente barato para lo que entrega.

Y lo mejor: es compatible con la API de OpenAI, así que integrarlo en tu app o workflow es cuestión de cambiar una URL y una key. No hay que reescribir código.

En resumen: Mercury 2 no es «más rápido». Es la primera IA que hace que la espera desaparezca. Responde tan rápido que deja de sentirse como una herramienta externa y empieza a sentirse como una extensión de tu propio cerebro. Para programadores que iteran código en vivo, para agentes autónomos que toman decisiones en cadena, para chats en tiempo real o voz… esto cambia las reglas del juego.

¿Querés verlo en acción? Andá directo al chat oficial y probalo vos mismo: chat.inceptionlabs.ai. Te va a volar la cabeza en la primera pregunta larga que le hagas.

Más info técnica y benchmarks frescos en el post oficial: Introducing Mercury 2 – Inception Labs

Ejemplos reales que ya están cambiando el juego

No son promesas vacías ni demos bonitos en videos. Mercury 2 ya está en producción en empresas reales, resolviendo problemas donde cada milisegundo cuenta. La velocidad extrema no es un lujo: es lo que hace que la IA deje de ser una herramienta lenta y pase a ser parte del flujo diario, casi invisible de lo natural que se siente. Aquí van casos concretos que están pasando ahora mismo, con nombres, citas y links para que puedas investigar vos mismo.

En programación y editores de código (Zed y otros IDEs): Zed, el editor de código colaborativo ultra-rápido que ya usan miles de devs, lo integró para sugerencias de autocompletado, refactorizaciones en vivo y agentes interactivos que proponen cambios enteros. Max Brunsfeld, cofundador de Zed, lo describe perfecto: “Las sugerencias llegan tan rápido que se sienten como parte de tu propio pensamiento, no algo que tenés que esperar”. Imaginate: estás escribiendo una función complicada, pulsás tab y en fracciones de segundo te aparece no solo el código, sino una explicación + tests + optimizaciones. Antes, la espera rompía el flow; ahora, es como si el editor “pensara” con vos. Esto también se ve en integraciones con Continue.dev (el agente de código open-source), Proxy AI, JetBrains plugins, Kilo Code y Cline. La latencia baja hace que los loops de “prompt → review → tweak” sean instantáneos, multiplicando productividad en coding real.
Agentes autónomos y workflows multi-paso (Skyvern): Skyvern, que crea agentes IA para automatizar tareas en navegadores (como llenar formularios, scraping ético o procesos de negocio), dice que Mercury 2 es “al menos dos veces más rápido que GPT-5.2”. Suchintan Singh, CTO y cofundador, lo confirma directo: un game changer. ¿Por qué importa tanto? En agentes que hacen 20-50 llamadas seguidas (tool calls, razonamiento, correcciones), la latencia se acumula como una bola de nieve. Con Mercury 2, un workflow que antes tardaba 2-3 minutos ahora cierra en segundos. Empresas usan esto para monitoreo en tiempo real, corrección de errores en producción o automatización de soporte. Un dev en foros compartió cómo lo usa en un sistema de alertas para una cadena de retail: detecta caída de ventas → analiza datos → genera fix + nuevo monitor… todo antes de que el gerente termine el café.
Voz y conversaciones en tiempo real (Wispr Flow y Happyverse AI): Wispr Flow, la app de dictado por voz que convierte habla en texto pulido en cualquier app (Mac, Windows, iPhone), evalúa Mercury 2 para limpieza de transcripciones en vivo y HCI interactiva. Sahaj Garg, CTO: “Ningún otro modelo se acerca a la velocidad que ofrece Mercury. Es invaluable para aplicaciones donde la latencia rompe la naturalidad”. Happyverse AI lo mete en su stack de voz para avatares de video que conversan en tiempo real con humanos. Max Sapo, CEO: “Low latency no es un nice-to-have, es todo. Mercury 2 genera texto consistente y rápido que mantiene la experiencia humana y natural”. Imaginate un avatar en una demo de ventas o un tutor IA que responde sin pausas raras: las conversaciones fluyen como con una persona real, sin ese “esperando…” que mata la inmersión.
Publicidad y optimización a escala (Viant): Viant, una plataforma de publicidad programática, usa Mercury 2 para optimizar campañas en tiempo real. Adrian Witas, SVP y Chief Architect: “Superficial insights y mejora dinámica de delivery en vivo, impulsando mejor performance, eficiencia y un ecosistema publicitario más resiliente con IA autónoma”. Procesan millones de impresiones; la velocidad permite ajustes continuos sin delays, convirtiendo datos en decisiones accionables al instante.
Búsqueda empresarial y RAG a gran escala (SearchBlox): SearchBlox integra Mercury 2 en su SearchAI para respuestas GenAI sub-segundo en entornos enterprise (soporte al cliente, compliance, risk, analytics, e-commerce). Timo Selvaraj, Chief Product Officer: “Nuestra partnership hace práctico el AI en tiempo real. Cada cliente de SearchBlox gana inteligencia sub-segundo sobre todos sus datos”. En RAG (retrieval-augmented generation), donde hay que buscar, razonar y responder rápido, la latencia baja permite loops complejos sin romper SLAs.
Otros casos emergentes: OpenCall usa Mercury 2 para voice agents más responsivos en customer support. Empresas de gaming y traducción en vivo lo prueban para interacciones inmersivas. Incluso en workflows de enterprise como routing automático o analytics en cadena, la combinación de razonamiento frontier + velocidad extrema está habilitando cosas que antes eran solo demos.

Estos no son experimentos de laboratorio. Son compañías que ya pagan por API, integran en producción y reportan gains reales: menos churn de usuarios por latencia, más steps en agentes sin costo extra, devs que codifican 2-3x más rápido. Mercury 2 no solo es rápido; está demostrando que la velocidad desbloquea adopción masiva en escenarios donde la IA “tiene que sentirse instantánea”.

Y si estás en Buenos Aires armando algo con IA (¿un agente para e-commerce local? ¿un asistente de voz para pymes?), contame abajo qué caso te voló la cabeza o cuál probarías primero. ¡Esto recién arranca! 🚀

Lo que dicen los especialistas (a favor y en contra)

A favor (y con razón): Stefano Ermon, CEO de Inception Labs y uno de los cerebros detrás de esta apuesta, lo resume perfecto: “Mientras toda la industria seguía exprimiendo los mismos modelos autoregresivos, nosotros volvimos a los principios básicos y cambiamos la arquitectura”. NVIDIA no se queda atrás: “Superar los 1.000 tokens por segundo en nuestras GPUs muestra lo que es posible cuando arquitectura nueva se encuentra con infraestructura de primer nivel”.

Desarrolladores líderes como Max Brunsfeld (Zed) y Sahaj Garg (Wispr Flow) ya lo están integrando y no paran de alabar la latencia baja y la calidad consistente.

En contra (porque también hay que ser honestos): Algunos expertos en foros como Hacker News y Reddit señalan que, aunque es rapidísimo, en razonamientos ultra-complejos o escritura creativa larga todavía no alcanza a los modelos “frontier” más potentes (como Opus o los mayores). Hay casos aislados donde comete errores tontos (un emoji mal interpretado, un nombre propio equivocado) y no siempre se autocorrige como los autoregresivos. Además, al ser una arquitectura nueva, el ecosistema de prompts y herramientas todavía está madurando.

Un usuario en HN lo dijo claro: “Prefiero un modelo lento pero correcto que uno rápido pero que a veces se equivoca”. Totalmente válido. Pero para la mayoría de tareas del día a día (coding, agentes, chat, resumen, soporte), la velocidad compensa con creces.

Opiniones reales de usuarios que están estudiando y probando el tema

Como experto, siempre miro qué dicen los que realmente lo están usando todos los días. Aquí van comentarios frescos y sin filtro:

Un desarrollador en X (@pato_inter): compartió un caso práctico brutal con monitoreo en AWS y concluyó: “La difusión está revolucionando no solo imágenes, sino razonamiento en tiempo real para operaciones a escala masiva”.
En Hacker News, varios coinciden: “Esto cambia completamente los loops de agentes. Antes esperabas 8-10 segundos por cada paso; ahora sientes que estás conversando con alguien que piensa a tu velocidad”.
Otro entusiasta: “Estoy probando Mercury 2 para parsear PDFs masivos y generar markdown. El volumen que procesa en minutos es una locura. Para tareas donde la inteligencia ‘suficiente’ + velocidad es clave, esto es oro”.

Hay quien probó el demo y tuvo algún queue o error de servidor (normal en lanzamiento), pero la mayoría sale impresionada: “Se siente como el futuro”.

¿Por qué esto importa para ti (y para todos)?

Porque Mercury 2 no solo es más rápido. Abre puertas que antes estaban cerradas por latencia:

Asistentes de voz que responden en tiempo real sin cortarse.
Agentes IA que hacen 50 iteraciones por minuto en vez de 5.
Aplicaciones móviles y de escritorio donde la IA se siente “dentro” del flujo, no como un invitado lento.
Empresas que pueden procesar miles de documentos o consultas en minutos, ahorrando tiempo y dinero.

Y el precio es ridículamente accesible: 0,25 USD por millón de tokens de entrada y 0,75 USD por millón de salida. Más barato que muchos modelos “rápidos” actuales.

¿Quieres probarlo ya?

Ve directo a la plataforma: platform.inceptionlabs.ai Es compatible con la API de OpenAI, así que cambias una línea de código y listo. También tienes el chat de prueba aquí: chat.inceptionlabs.ai

Gestionamos a un precio increible tus redes sociales, hablemos!!

Mi veredicto después de 20+ años en tecnología

Con más de dos décadas metido de lleno en el mundo de la IA —desde los primeros experimentos con redes neuronales recurrentes en los 2000s, pasando por el boom de los transformers en 2017, hasta ver cómo OpenAI y Anthropic escalaban monstruos autoregresivos—, puedo decirte con absoluta convicción: Mercury 2 no es solo un modelo más rápido. Es el primer cambio de paradigma real que veo desde que el transformer nos obligó a repensar todo en 2017.

He visto promesas de “velocidad revolucionaria” antes: MoE, quantization extrema, speculative decoding, flash attention… todas mejoras ingeniosas, pero todas dentro del mismo paradigma autoregresivo. Token por token, izquierda a derecha, dependiente del anterior. Ese enfoque agotó su potencial incremental hace rato; la industria ha gastado billones en GPUs y optimizaciones para ganar milisegundos, pero el bottleneck fundamental seguía ahí: la secuencialidad.

Inception Labs, con Stefano Ermon (uno de los padres fundacionales de la difusión moderna desde Stanford) al frente, hizo lo que nadie se animó a hacer a escala comercial: aplicar difusión al lenguaje de verdad, no como un paper académico lindo, sino como un producto listo para producción. Generar en paralelo, refinar iterativamente todo el output de una, converger en pocos pasos limpios… es como pasar de escribir un libro capítulo por capítulo a pintar un cuadro entero y luego pulirlo capa por capa hasta que brille.

El resultado no es solo throughput de >1.000 tokens/segundo (confirmado en benchmarks independientes y en hardware real como NVIDIA Blackwell). Es latencia end-to-end que cae de 15-20 segundos a menos de 2 en respuestas complejas. Es razonamiento de calidad frontier (comparable a Haiku o GPT-5.2 Mini en GPQA, AIME, LiveCodeBench) pero dentro de presupuestos de latencia real-time. Es precio ridículo: $0.25/M input y $0.75/M output. Y sobre todo: es la prueba de que romper la autoregresividad no sacrifica inteligencia; la potencia.

Después de 20 años viendo ciclos de hype y decepción, esto se siente diferente. No es hype. Es arquitectura nueva habilitando casos de uso que antes eran imposibles o carísimos:

Agentes que dan 50-100 pasos en loops sin que el usuario sienta espera.
Voz y chat que suenan humanos porque no hay pausas artificiales.
Coding en vivo donde la IA anticipa tu pensamiento en vez de seguirlo.
Operaciones enterprise donde la latencia acumulada ya no cuesta millones en downtime o churn.

¿Limitaciones? Claro que las tiene. En tareas ultra-largas o creativas muy nicho, los autoregresivos todavía tienen una ventaja en coherencia sostenida y autocorrección natural. La difusión a veces necesita más pasos de refinamiento en edge cases raros. El ecosistema de fine-tuning y prompting está naciendo (aunque la compatibilidad con OpenAI API acelera todo brutalmente). Pero para el 80-90% de lo que realmente importa en producción hoy —agentes, voz, coding, RAG en tiempo real, soporte escalado— Mercury 2 no compite; domina.

Mi apuesta personal: estamos viendo el comienzo del fin de la era “next-token prediction” como dogma absoluto. La difusión no es un truco; es la nueva base para LLMs que piensan en paralelo, como el cerebro humano lo hace en muchos procesos cognitivos. Inception no inventó la difusión (crédito a los papers de 2015-2020), pero la llevaron de imágenes a lenguaje razonante a escala comercial. Y lo hicieron en un momento donde la industria más necesitaba exactamente eso: velocidad sin sacrificar cerebro.

En resumen, después de 20 años: Mercury 2 es el salto que esperaba. No el más inteligente del planeta (todavía no), pero el que más cambia las reglas del juego para el mundo real. Si estás construyendo algo en IA hoy —sea en Buenos Aires para una pyme, un startup o una Fortune 500— intégralo ya. Pruébalo en platform.inceptionlabs.ai o el playground chat.inceptionlabs.ai. La diferencia se siente en la primera interacción larga.

Gestionamos a un precio increible tus redes sociales, hablemos!!

Esto no es evolución. Es revolución arquitectónica. Y después de ver tantas “revoluciones” que fueron solo iteraciones… esta vez, creo de verdad que sí lo es.

¡Llegaste hasta el final y ya sabés que Mercury 2 no es solo otro modelo… es un antes y un después en la IA!

Ahora quiero saber tu opinión real: ¿Ya lo probaste en el playground o en tu código? ¿Para qué lo usarías primero: agentes autónomos, coding en vivo, voz o automatizaciones enterprise? ¿Creés que la difusión va a terminar reemplazando a los modelos token-por-token o todavía hay camino por recorrer?

Dejá tu comentario abajo (aunque sea una línea). Leo todos y respondo personalmente. Si te voló la cabeza como a mí, compartí este artículo con tus compañeros de equipo, en tu grupo de WhatsApp de devs o en LinkedIn. ¡Ayudame a que más gente en Argentina y Latam descubra esta revolución de velocidad!

🚀 Te espero en los comentarios. ¡Nos leemos ya!

Los mejores Prompts IA encontrálos en nuestro instagram o personalizamos el que necesites DM

Deja un comentario Cancelar la respuesta

¡ChatGPT, Claude y Gemini eligen la BOMBA NUCLEAR en el 95% de las guerras simuladas! El estudio que sacude a King’s College London

¡ChatGPT, Claude y Gemini eligen la BOMBA NUCLEAR en el 95% de las guerras simuladas! El estudio que sacude a King’s College London

01/03/2026 IA, Noticias

Mercury 2: La IA que Responde a 1.000 Tokens por Segundo y Hace que ChatGPT Parezca Lento

Mercury 2: La IA que Responde a 1.000 Tokens por Segundo y Hace que ChatGPT Parezca Lento

28/02/2026 IA, Noticias

¡Perplexity Computer ya llegó! La IA que trabaja SOLA mientras tomás mate: crea sitios, reportes y apps por vos

¡Perplexity Computer ya llegó! La IA que trabaja SOLA mientras tomás mate: crea sitios, reportes y apps por vos

27/02/2026 IA, Noticias

Nano Banana 2 ya está aquí: La IA de Google que genera imágenes Pro en segundos y gratis 🍌 (Pruébala ahora)

Nano Banana 2 ya está aquí: La IA de Google que genera imágenes Pro en segundos y gratis 🍌 (Pruébala ahora)

26/02/2026 IA, Noticias

¡Adiós ElevenLabs! Qwen3-TTS: Clona Cualquier Voz en Solo 3 Segundos 100% Gratis y en Tu PC (Open Source en Hugging Face)

¡Adiós ElevenLabs! Qwen3-TTS: Clona Cualquier Voz en Solo 3 Segundos 100% Gratis y en Tu PC (Open Source en Hugging Face)

24/02/2026 IA, Noticias

Lyria 3 de Google: Prueba Gratis la IA que Convierte Tus Ideas (o Fotos) en Música Real en Gemini – ¡Ya Disponible!

Lyria 3 de Google: Prueba Gratis la IA que Convierte Tus Ideas (o Fotos) en Música Real en Gemini – ¡Ya Disponible!

21/02/2026 IA, Noticias