La inteligencia artificial generativa ha invadido nuestra vida cotidiana y las grandes tecnológicas nos bombardean a diario con nuevos anuncios de modelos de lenguaje y herramientas basadas en esa tecnología. El último gran fetiche de las principales empresas del sector son los agentes de IA, que prometen cambiarnos la vida, aunque mucha gente aún no sabe qué son ni como funcionan.
El desconocimiento de las personas radica, en gran medida, en el incansable ritmo de lanzamientos de nuevas aplicaciones y soluciones de este tipo. Los agentes de IA se parecen bastante a los chatbots de uso cotidiano como ChatGPT o Gemini, pero en muchos casos funcionan como complementos de dichas herramientas o presumen de capacidades y casos de uso más específicos y avanzados.
En términos sencillos, los agentes de IA son sistemas que realizan tareas de forma autónoma dentro del contexto y los márgenes que le establecen las personas, a partir de una simple instrucción de texto. Esto les permite tomar decisiones o ejecutar una gran variedad de acciones dentro de sus parámetros de operación, sin que los usuarios deban especificarle paso por paso qué es lo que deben hacer.
La adopción de este tipo de soluciones no se limita a un segmento en particular. Algunas empresas ya están utilizando agentes de IA en labores de soporte, permitiéndoles que respondan de forma automatizada a las consultas del público basándose en información que extraen de documentos que forman parte de su bases de datos. En tanto que Microsoft ya los usa en el ámbito de la ciberseguridad, para reducir la carga de trabajo de sus equipos humanos.
Aunque tal vez los usos que resultan más llamativos para el común de las personas son aquellos que se vinculan con la navegación web y la concreción de tareas mundanas sin intervención directa de un individuo. Es en este apartado donde firmas como OpenAI, Anthropic o Amazon, entre otras, han puesto buena parte de su atención inicial.
¿Podrán los agentes de IA revolucionar nuestra vida cotidiana?


Como dijimos previamente, algunas de las principales empresas del segmento de la IA están enfocando sus esfuerzos iniciales en agentes capaces de concretar tareas en nuestros ordenadores y, más precisamente, dentro de un navegador web. Uno de los primeros exponentes fue Computer Use, que Anthropic presentó de la mano de Claude 3.5 Sonnet. Esta demostraba la capacidad de identificar información en la pantalla y completar acciones que habitualmente involucran el uso de un teclado y un ratón. Por ejemplo, copiar información de un documento y pegarla en un formulario en línea.
OpenAI también cuenta con una función similar que se llama Operator y que, por ahora, solo está disponible para los suscriptores de ChatGPT Pro. Lo que hace esta utilidad es navegar la web de forma autónoma para completar instrucciones de los usuarios. Por ejemplo, buscar una receta en la web y comprar los ingredientes necesarios a través de una tienda online.
Amazon, en tanto, acaba de presentar su propio agente de IA de este estilo llamado Nova Act. El mismo cuenta con un SDK para que los desarrolladores comiencen a experimentar y lo integren en sus propias creaciones. Al igual que propuestas rivales, esta solución puede navegar la web y concretar acciones, pero presume de una mayor confiabilidad al lidiar con elementos como los menús desplegables y las ventanas emergentes.
La nueva gran apuesta de las Big Tech


De acuerdo con Amazon, en los próximos años habrá más agentes de IA que personas navegando en la web. Por ello no sorprende que las empresas estén tan enfocadas en perfeccionar este tipo de soluciones. Claro que no todo se limita a automatizar las interacciones con un navegador para compras, reservaciones y otras labores relativamente sencillas.
En el otro extremo de la historia, los agentes de IA se están desplegando para tareas mucho más complejas y que requieren de múltiples pasos. ChatGPT y Gemini ya cuentan con herramientas de este tipo de la mano de Deep Research. Hablamos de funciones capaces de hacer investigaciones en profundidad, visitando decenas o cientos de páginas web en simultáneo, y de redactar reportes en pocos minutos.
Manus es otra de las IA que ha destacado recientemente por la introducción de un agente con características de avanzada. Según una demo presentada por sus desarrolladores, la utilidad puede concatenar diferentes labores a partir de una única instrucción de texto. En teoría, la plataforma supera a soluciones rivales —como OpenAI— en los principales benchmarks. No obstante, las afirmaciones de sus responsables se han puesto a debate.
Marc Benioff, CEO de Salesforce, dijo en 2024 que los agentes de IA liderarían la transformación tecnológica de las empresas. Incluso llegó a vaticinar que su compañía lideraría el segmento con más de 1.000 millones de agentes operativos en los siguientes 12 meses. Por el lado de los consumidores, en tanto, Bill Gates vaticinó que este tipo de soluciones se convertirá en parte integral de nuestra vida. ¿Será realmente así?