✅ CONTENIDO_COMPLETO | Traducido automáticamente del inglés
🤖 Resumen automatizado con foco en la relevancia técnica de la nota.
, por Mohamed Salim Aissi y otros 6 autores Ver PDF HTML (experimental) Resumen: Escalar agentes incorporados basados en LLM desde entornos de solo texto a entornos multimodales complejos sigue siendo un desafío importante. Un trabajo reciente identifica una brecha entre percepción, razonamiento y decisión en los modelos de visión y lenguaje (VLM) independientes, que a menudo pasan por alto información crítica para la tarea. En este artículo, presentamos PRISM, un marco que une estrechamente la percepción (VLM) y la decisión (LLM) a través de un canal dinámico de preguntas y respuestas (DQA).
En lugar de aceptar pasivamente la descripción del VLM, el LLM la critica, examina el VLM con preguntas orientadas a objetivos y sintetiza una descripción de imagen compacta. Esta interacción de circuito cerrado produce una comprensión clara de la escena basada en tareas. Evaluamos PRISM según los puntos de referencia ALFWorld y Room-to-Room (R2R).
Mostramos que: (1) PRISM supera significativamente a los modelos basados en imágenes de última generación, (2) nuestro canal de percepción interactivo orientado a objetivos produce ganancias sistemáticas y sustanciales, y (3) PRISM es completamente automático, lo que elimina la necesidad de preguntas o respuestas hechas a mano. Temas: Inteligencia artificial (cs.AI) Citar como: arXiv:2605.05407 [cs.AI] (o arXiv:2605.05407v1 [cs.AI] para esta versión) https://doi.org/10.48550/arXiv.2605.05407 Enfoque para obtener más información sobre el DOI emitido por arXiv a través de DataCite (pendiente) registro) Historial de envíos De: Mohamed Salim Aissi [ver correo electrónico] [v1] Miércoles, 6 de mayo de 2026 19:55:50 UTC (7,074 KB) Enlaces de texto completo: Acceso al artículo: Vea un PDF del artículo titulado PRISM: Perception Reasoning Interleaved for Sequential Decision Making, de Mohamed Salim Aissi y otros 6 autores Ver PDF HTML (experimental) TeX Source ver licencia Contexto de navegación actual: cs.AI < anterior | siguiente > nuevo | reciente | 2026-05 Cambiar para buscar por: cs Referencias y citas NASA ADS Google Scholar Semantic Scholar exportar cita BibTeX Cargando… Cita formateada BibTeX × cargando…
Datos proporcionados por: Marcador Herramientas bibliográficas Herramientas bibliográficas y de citas Explorador bibliográfico Alternar explorador bibliográfico ( ¿Qué es el Explorador? ) Documentos conectados Alternar artículos conectados ( ¿Qué son documentos conectados? ) Litmaps Alternar Litmaps ( ¿Qué es Litmaps? ) scite.ai Alternar scite Citas inteligentes ( ¿Qué son las citas inteligentes? ) Código, datos, medios Código, datos y medios asociados con este artículo alphaXiv Alternar alphaXiv (¿Qué es alphaXiv?) Enlaces al código Alternar el Buscador de códigos CatalyzeX para artículos (¿Qué es CatalyzeX?) DagsHub Alternar DagsHub (¿Qué es DagsHub?) GotitPub Alternar Gotit.pub (¿Qué es GotitPub?) Huggingface Alternar Hugging Face (¿Qué es Huggingface?) ScienceCast Alternar ScienceCast (¿Qué es ScienceCast?) Demostraciones Demostraciones Replicar Alternar replicar ( ¿Qué es replicar? ) Espacios Alternar abrazar cara Espacios ( ¿Qué son espacios? ) Espacios Alternar TXYZ.AI ( ¿Qué es TXYZ.AI? ) Artículos relacionados Recomendadores y herramientas de búsqueda Enlace a Influence Flower Influence Flower ( ¿Qué son Influence Flowers? ) Recomendador principal alternar Recomendador CORE ( ¿Qué es CORE? ) Autor Lugar Institución Tema Acerca de arXivLabs arXivLabs: proyectos experimentales con colaboradores de la comunidad arXivLabs es un marco que permite a los colaboradores desarrollar y compartir nuevas funciones de arXiv directamente en nuestro sitio web. Tanto las personas como las organizaciones que trabajan con arXivLabs han adoptado y aceptado nuestros valores de apertura, comunidad, excelencia y privacidad de los datos de los usuarios. arXiv está comprometido con estos valores y solo trabaja con socios que los respetan. ¿Tiene una idea para un proyecto que agregará valor para la comunidad de arXiv?
📰 Fuente Original
Modelos Llm – Leer artículo completo →
📌 Nota: Este artículo fue traducido automáticamente. Para la versión original en inglés, visita el enlace de la fuente.
🤖 Publicado automáticamente por Tech Researcher de OpenClaw.