Evaluación: LLMOps Ingeniero

1

¿Cuál es la diferencia principal entre MLOps y LLMOps?

LLMOps gestiona modelos pre-entrenados con foco en prompts, RAG y costos por token; MLOps entrena modelos propios MLOps es para modelos grandes y LLMOps para modelos pequeños LLMOps solo funciona con GPT-4 mientras que MLOps es genérico No hay diferencia real, son sinónimos usados en diferentes empresas

2

¿Qué controla el parámetro temperature en un LLM?

La aleatoriedad: 0 es determinista, valores altos aumentan creatividad y variabilidad La velocidad de procesamiento del modelo El número máximo de tokens que puede generar La cantidad de memoria GPU utilizada durante la inferencia

3

¿Cuál es la estrategia correcta para manejar un error 429 (rate limit) de una API de LLM?

Exponential backoff: reintentar con esperas que se duplican, respetando Retry-After Reintentar inmediatamente en un loop hasta que funcione Cambiar la API key y reintentar con la nueva Abortar la operación y notificar al usuario que el servicio no está disponible

4

¿Qué técnica de prompt engineering pide al modelo "pensar paso a paso" antes de dar la respuesta?

Chain-of-Thought (CoT): descompone el razonamiento en pasos intermedios Few-shot: proporciona varios ejemplos de entrada-salida Zero-shot: envía la instrucción directa sin ejemplos Tree-of-Thought: explora múltiples ramas de razonamiento en paralelo

5

¿Cuál es la mejor práctica para gestionar prompts en producción?

Versionarlos en archivos YAML con registro centralizado, evaluación automática y rollback Hardcodearlos directamente en el código fuente de la aplicación Almacenarlos en una base de datos sin versionado y editarlos en producción Dejar que cada desarrollador escriba sus propios prompts sin estándares

6

¿Cuál es el orden correcto del pipeline RAG?

Ingesta → Embedding → Retrieval → Augmentation del prompt → Generation Generation → Retrieval → Embedding → Augmentation Embedding → Fine-tuning → Generation → Retrieval Retrieval → Generation → Embedding → Validación

7

¿Qué tipo de índice usan las vector databases para búsqueda eficiente de vecinos más cercanos?

HNSW (Hierarchical Navigable Small World) para búsqueda ANN eficiente B-Tree como en bases de datos relacionales tradicionales Hash tables con locality-sensitive hashing solamente Búsqueda lineal secuencial sobre todos los vectores

8

¿Qué es LoRA y por qué es popular para fine-tuning de LLMs?

Congela pesos originales y entrena matrices de bajo rango, reduciendo memoria y tiempo drásticamente Es una técnica que duplica el modelo para entrenar ambas copias en paralelo Reduce el dataset de entrenamiento para que sea más rápido Comprime el modelo eliminando capas no necesarias antes de entrenar

9

¿Qué es "LLM-as-Judge" y cuándo es útil?

Usar un LLM más capaz para evaluar respuestas de otro modelo según criterios definidos Un modelo que decide si una pregunta es apropiada para el sistema Un juez humano que evalúa si el LLM está funcionando correctamente Un sistema que compara el costo de diferentes modelos automáticamente

10

¿Cuál es la diferencia principal entre LangChain y LlamaIndex?

LangChain es general (chains, agentes); LlamaIndex se especializa en indexación y RAG LangChain solo funciona con OpenAI; LlamaIndex funciona con cualquier modelo LlamaIndex es más rápido porque usa Rust internamente LangChain es open-source y LlamaIndex es propietario

11

¿Cómo funciona el patrón ReAct en agentes LLM?

Loop de Pensamiento → Acción → Observación que se repite hasta obtener la respuesta Un sistema que reacciona a eventos del usuario en tiempo real Un modelo que ejecuta todas las herramientas disponibles y combina resultados Una técnica de prompt que genera múltiples respuestas y vota por la mejor

12

¿Cuál es la defensa más efectiva contra prompt injection?

Defensa en profundidad: múltiples capas (sanitización, system prompt robusto, validación de output) Bloquear cualquier input que contenga la palabra "ignore" Usar solo modelos open-source que no son vulnerables a injection Limitar la longitud del input del usuario a 100 caracteres

13

¿Cuáles son los tres pilares de observabilidad adaptados para LLMs?

Logging (prompt/completion), Métricas (latencia, tokens, costos), Tracing (pipeline completo) CPU, memoria y disco del servidor donde corre la API Solo logging de errores HTTP 500 y alertas por email Uptime del servicio, número de usuarios y revenue

14

¿Cuál es la estrategia de mayor impacto para reducir costos de LLM en producción?

Caché de respuestas (exacto y semántico) que elimina 40-60% de llamadas al LLM Usar siempre el modelo más barato sin importar la calidad Reducir max_tokens a 50 en todas las llamadas Hacer todas las llamadas en horario nocturno cuando es más barato

15

¿Qué es vLLM y cuándo lo usarías en lugar de APIs externas?

Motor de inferencia para LLMs open-source con PagedAttention; para privacidad, costos fijos y control Un cliente de Python para conectarse a la API de OpenAI más rápido Una herramienta de visualización para métricas de LLMs Un compilador que convierte modelos PyTorch a ONNX automáticamente

16

¿Por qué es importante implementar streaming en aplicaciones LLM?

Reduce el time-to-first-token a ~200ms, mejorando la UX mientras se genera la respuesta Reduce el costo total de la llamada al LLM a la mitad Permite procesar inputs más largos que la ventana de contexto Elimina la necesidad de rate limiting en la API

17

¿Qué debe incluir un pipeline CI para una aplicación LLM que no incluye un CI tradicional?

Validación de prompts, evaluación contra golden dataset, estimación de costos y comparación con baseline Solo tests unitarios más exhaustivos y mayor code coverage Compilación del modelo a un formato binario optimizado Deploy automático a producción sin gates adicionales

18

¿Qué patrón arquitectónico es más apropiado para un sistema que recibe diferentes tipos de consultas (soporte, ventas, facturación)?

Clasificador de intención + Router a handlers especializados por categoría Un solo prompt gigante que maneja todos los casos de uso posibles Fine-tuning de un modelo diferente para cada tipo de consulta Responder todo con el mismo handler y dejar que el LLM se adapte solo

19

¿Cómo diseñarías un sistema RAG que escale a millones de documentos?

Vector DB distribuida + hybrid search + metadata filtering + re-ranking + caché Almacenar todos los documentos en el prompt del LLM con un modelo de contexto infinito Fine-tunear el LLM con todos los documentos para que los memorice Usar solo keyword search con Elasticsearch sin embeddings

20

¿Cuál es el orden correcto de prioridades al llevar una aplicación LLM de prototipo a producción?

Evaluación → Seguridad → Observabilidad → Costos → Escalabilidad Escalabilidad → Costos → Evaluación → Seguridad → Observabilidad Costos → Escalabilidad → Seguridad → Evaluación → Observabilidad Observabilidad → Escalabilidad → Costos → Seguridad → Evaluación

0 / 20 correctas