Evaluación centrada en la implementación: predicción del riesgo de rechazo a nivel de consulta en un sistema clínico LLM

✅ CONTENIDO_COMPLETO | Traducido automáticamente del inglés

🍭 En esta nota me enfoqué en el impacto para experiencia de desarrollo, interfaces y ergonomía del producto.

, por Alyssa Unell y otros 6 autores Ver PDF Resumen: Los modelos de lenguaje grande (LLM) se integran cada vez más en los sistemas clínicos, lo que hace que sea esencial evaluar la utilidad de estos sistemas en el mundo real. Sin embargo, los puntos de referencia estáticos tienden a medir la corrección en lugar de la aceptación del usuario, agregan el rendimiento de las consultas y requieren conjuntos de datos densamente anotados, lo que genera importantes puntos ciegos para evaluar los sistemas clínicos. En este trabajo, realizamos una evaluación centrada en la implementación de un sistema LLM integrado en registros médicos electrónicos en un centro médico académico, donde los comentarios de los usuarios son escasos pero reflejan fielmente las condiciones de implementación.

Específicamente, entrenamos un clasificador de respuesta previa que estima el riesgo de que una interacción futura resulte en que el usuario rechace la respuesta LLM, según el contenido de la consulta y el contexto específico de la implementación disponible antes de la generación. Realizamos un análisis prospectivo de nuestro modelo durante 4,5 meses de comentarios de los usuarios y descubrimos que nuestro modelo de predicción alcanza un AUROC de 0,719. Además, estimamos el beneficio de tales predicciones en dos casos de uso posteriores (activación de barreras y abstención).

Nuestra idea conceptual clave es que hacer uso del contexto específico de la implementación (es decir, el tipo de proveedor, el nombre del departamento, el modelo de lenguaje utilizado para la respuesta), en lugar de consultar únicamente el contenido, mejora la capacidad de predecir si el usuario rechazará la salida del sistema. En conjunto, nuestro estudio de caso empírico demuestra la viabilidad de predecir el rechazo del usuario utilizando un contexto específico de implementación, abriendo la puerta a barreras de seguridad específicas. Temas: Inteligencia artificial (cs.AI) Citar como: arXiv:2606.12702 [cs.AI] (o arXiv:2606.12702v1 [cs.AI] para esta versión) https://doi.org/10.48550/arXiv.2606.12702 Enfoque para obtener más información sobre el DOI emitido por arXiv a través de DataCite (pendiente) registro) Historial de envíos De: Alyssa Unell [ver correo electrónico] [v1] Miércoles, 10 de junio de 2026 21:44:20 UTC (640 KB) Enlaces de texto completo: Documento de acceso: Vea un PDF del artículo titulado Evaluación centrada en la implementación: predicción del riesgo de rechazo a nivel de consulta en un sistema de LLM clínico, por Alyssa Unell y otros 6 autores Ver PDF TeX Source ver licencia Contexto de navegación actual: cs.AI nuevo | reciente | 2026-06 Cambiar para buscar por: cs Referencias y citas NASA ADS Google Scholar Semantic Scholar exportar cita BibTeX Cargando…

Cita con formato BibTeX × cargando… Datos proporcionados por: Marcador Herramientas bibliográficas Herramientas bibliográficas y de citas Explorador bibliográfico Alternar explorador bibliográfico ( ¿Qué es el Explorador? ) Documentos conectados Alternar artículos conectados ( ¿Qué son documentos conectados? ) Litmaps Alternar mapas de litografía ( ¿Qué es Litmaps? ) scite.ai Alternar scite Citas inteligentes ( ¿Qué son las citas inteligentes? ) Código, datos, medios Código, datos y medios Asociado con este artículo alphaXiv Alternar alphaXiv ( ¿Qué es alphaXiv? ) Enlaces a Code Toggle CatalyzeX Code Finder for Papers ( ¿Qué es CatalyzeX? ) DagsHub Alternar DagsHub ( ¿Qué es DagsHub? ) GotitPub Alternar Gotit.pub ( ¿Qué es GotitPub? ) Huggingface Alternar Hugging Face ( ¿Qué es Huggingface? ) ScienceCast Alternar ScienceCast ( ¿Qué es ScienceCast? ) Demostraciones Demos Replicar Alternar Replicar ( ¿Qué es Replicar? ) Espacios Alternar abrazando la cara Espacios ( ¿Qué es Espacios? ) Espacios Alternar TXYZ.AI ( ¿Qué es TXYZ.AI? ) Artículos relacionados Recomendadores y herramientas de búsqueda Enlace a Influence Flower Influence Flower ( ¿Qué son Influence Flowers? ) Recomendador principal alternar Recomendador CORE ( ¿Qué es CORE? ) Autor Lugar Institución Tema Acerca arXivLabs arXivLabs: proyectos experimentales con…

📰 Fuente Original

Modelos Llm – Leer artículo completo →

📌 Nota: Este artículo fue traducido automáticamente. Para la versión original en inglés, visita el enlace de la fuente.

🍭 Curada por Jicaleta con ojo en UX, frontend y claridad para devs.

📰 Fuente Original

Must Read