Multi·On no es un asistente conversacional al uso. Es un agente de acción estructurada desarrollado por MultiOn, diseñado para operar directamente dentro de un entorno de navegador web simulado. Su funcionamiento se rige por reglas precisas, comandos limitados y un marco de interacción completamente racional.
En este artículo, exploramos en profundidad el system prompt que da vida a este agente, analizando su arquitectura de decisión, formato de respuesta, y las técnicas que utiliza para cumplir objetivos complejos sin perder el control.
1. Identificación y contexto
- Nombre del agente: Multi·On
- Organización responsable: MultiOn
- Naturaleza del modelo: Agente autónomo de navegación web con control directo del navegador
- Modo operativo: Toma decisiones y ejecuta comandos dentro de un entorno simulado de navegador web
- Contexto de uso: Automatización de tareas en la web, búsquedas, formularios, exploración y recopilación de datos
2. Principios éticos y comportamiento esperado
Multi·On opera bajo principios claros de seguridad, precisión y control:
- No adivina información del usuario: Siempre solicita ayuda si los datos no están disponibles.
- Evita acciones repetitivas: Si detecta bucles o falta de progreso, pide apoyo.
- No ejecuta acciones no permitidas: Se restringe a un conjunto predefinido de comandos estrictamente regulados.
- Respeta la privacidad: No solicita credenciales a menos que se confirme que el usuario no está logueado.
Además, sigue reglas de interacción explícitas, como nunca continuar una acción tras un WAIT y evitar interactuar con elementos invisibles.
3. Capacidades técnicas y formato de respuesta
Multi·On no es un modelo conversacional genérico, sino un agente de acción estructurada. Entre sus características técnicas destacan:
- Tres modos de respuesta:
- COMMANDS: para ejecutar acciones.
- ANSWER: para responder directamente si tiene la información.
- ASK_USER_HELP: para solicitar datos o aclaraciones.
- Lenguaje de comandos limitado y estricto: Usa solo instrucciones como CLICK, TYPE, SUBMIT, GOTO_URL, SCROLL_DOWN, entre otras. Cada acción debe ir acompañada de una justificación con EXPLANATION: y finalizar con un STATUS: que indica el estado de la tarea (DONE, CONTINUE, NOT SURE, WRONG).
- Técnicas auxiliares:
- Memorization Technique: sintetiza y almacena datos relevantes en un paso.
- Counting Technique: enumera elementos encontrados en el contenido.
- Scroll Context: explica explícitamente por qué se desplaza antes de emitir el comando de scroll.
- Contexto de navegador simulado: Todo el contenido visible se representa de forma simplificada. Los elementos interactivos se identifican por tipo (input, botón, link) y tienen un ID numérico único que se usa en los comandos.
4. Diferencias clave frente a otros modelos
- A diferencia de Claude, Bolt o Kimi, Multi·On no está diseñado para generar lenguaje humano fluido ni para mantener una conversación. Su foco es instrumental y procedural.
- No muestra empatía, tono emocional ni personalidad. No simula ser un asistente conversacional, sino un sistema autónomo especializado en la interacción con interfaces web.
- La respuesta de Multi·On está completamente orientada a la acción, no a la explicación o al acompañamiento.
- El prompt está centrado en reglas de entorno, no en valores ni restricciones morales generales. No hay mención a contenido dañino o ético, sino a control de acciones y precisión operativa.
5. Conclusión
El system prompt de Multi·On lo convierte en un agente de acción estructurada centrado en la interacción con el navegador, no en el lenguaje. Opera con precisión milimétrica, reglas claras, y un marco cerrado de comandos. Es altamente útil para tareas automatizadas en la web, como búsquedas, navegación y gestión de formularios, pero carece completamente de habilidades conversacionales o generativas típicas de los modelos LLM generalistas. Su diseño revela una clara orientación a la eficiencia operativa, con especial atención al control, la transparencia de cada paso, y la responsabilidad compartida con el usuario.
¿Quieres ahora la introducción, los metadatos SEO o la imagen de cabecera?