13
¿Cuáles son los tres pilares de observabilidad adaptados para LLMs?
Logging (prompt/completion), Métricas (latencia, tokens, costos), Tracing (pipeline completo)
CPU, memoria y disco del servidor donde corre la API
Solo logging de errores HTTP 500 y alertas por email
Uptime del servicio, número de usuarios y revenue
💡 Explicación: Los tres pilares clásicos de observabilidad (logs, métricas, traces) se adaptan para LLMs: Logging de cada prompt/completion con tokens y costos, Métricas de latencia p50/p95/p99, tokens/min, costo acumulado, cache hit rate, y Tracing distribuido del pipeline completo (embedding → retrieval → generation → post-procesamiento) con herramientas como LangSmith o Langfuse.
17
¿Qué debe incluir un pipeline CI para una aplicación LLM que no incluye un CI tradicional?
Validación de prompts, evaluación contra golden dataset, estimación de costos y comparación con baseline
Solo tests unitarios más exhaustivos y mayor code coverage
Compilación del modelo a un formato binario optimizado
Deploy automático a producción sin gates adicionales
💡 Explicación: Además de lint, tests unitarios y build, un CI para LLMs debe incluir: validación de prompts (formato, variables, límite de tokens), evaluación contra datasets golden (accuracy, relevancia), estimación de costos del cambio, y comparación con baseline. Estos pasos aseguran que cambios en prompts o configuración no degraden la calidad.
20
¿Cuál es el orden correcto de prioridades al llevar una aplicación LLM de prototipo a producción?
Evaluación → Seguridad → Observabilidad → Costos → Escalabilidad
Escalabilidad → Costos → Evaluación → Seguridad → Observabilidad
Costos → Escalabilidad → Seguridad → Evaluación → Observabilidad
Observabilidad → Escalabilidad → Costos → Seguridad → Evaluación
💡 Explicación: El orden de prioridades para producción: 1) Evaluación (sin métricas no puedes medir progreso), 2) Guardrails y seguridad (proteger contra inyección, PII, outputs tóxicos), 3) Observabilidad (logging, tracing para diagnosticar problemas), 4) Optimización de costos (caché, model routing), 5) Escalabilidad (streaming, batching, load balancing). Primero medir, luego proteger, luego observar, luego optimizar.