Validación de Vetra

La validación de Vetra muestra en qué tareas aporta valor, dónde necesita supervisión y qué riesgos quedan pendientes antes de recomendar un uso formal dentro de revisiones sistemáticas.

Piloto en preparación

Enfoque de validación

RAISE diferencia entre desarrollar herramientas de IA y demostrar que son adecuadas para una tarea y contexto concretos. En Vetra, la evaluación debe hacerse por módulo y también como sistema completo, porque cribado, extracción, síntesis y redacción dependen unos de otros y se retroalimentan, igual que ocurre con el trabajo humano.

Hace falta contexto de toda la revisión, no solo validar piezas aisladas. La utilidad real de Vetra se entiende al ver cómo encaja todo el flujo, qué arrastra cada módulo desde el anterior y qué información devuelve al siguiente.

Métricas previstas

  • Sensibilidad, especificidad, precisión y falsos negativos en cribado asistido.
  • Concordancia entre IA, revisores humanos y decisión final del investigador.
  • Calidad de las justificaciones y utilidad para resolver desacuerdos.
  • Errores de extracción, campos incompletos, inconsistencias y necesidad de corrección humana.
  • Tiempo dedicado por fase frente a procesos manuales tradicionales.
  • Experiencia de uso, carga cognitiva y facilidad para auditar decisiones.

Qué se debe reportar

Cada evaluación registra tarea, conjunto de datos, contexto de uso, versión de la herramienta, comparador humano o metodológico, métricas seleccionadas, limitaciones y resultados negativos o inesperados.

Decisiones de adopción

Vetra clasifica cada función en uso directo, verificación humana, exploratoria o no recomendada para uso formal. Esa clasificación cambia cuando cambia el modelo, el flujo, el contexto o la evidencia disponible.

La validación de Vetra cubre el rendimiento de cada módulo y también el comportamiento del sistema completo, porque cribado, extracción, síntesis y redacción se condicionan entre sí. No basta con medir piezas sueltas.

Resultado esperado del piloto

El piloto permite decidir qué módulos pueden recomendarse, cuáles requieren controles adicionales y qué limitaciones deben comunicarse a investigadores, instituciones y potenciales partners.