Evaluación: AI-First Full Stack

1

¿Cuál es la diferencia principal entre una aplicación tradicional y una aplicación AI-First?

En AI-First el LLM es el motor central con respuestas probabilísticas; requiere prompts, embeddings, vector stores y guardrails en lugar de solo CRUD No hay diferencia; solo se agrega un endpoint que llama a OpenAI AI-First significa que no se necesita backend, solo frontend con la API de OpenAI AI-First solo aplica a chatbots, no a otras aplicaciones

2

¿Qué parámetro controla la aleatoriedad de las respuestas de un LLM y cómo afecta al output?

temperature: 0 = determinista (siempre el token más probable), alto = más creativo. top_p limita el pool de tokens considerados max_tokens controla la creatividad del modelo El model name determina si las respuestas son aleatorias o no No se puede controlar; los LLMs siempre son completamente aleatorios

3

¿Cuál es la ventaja de usar JSON mode o structured output en lugar de parsear texto libre del LLM?

Garantiza JSON válido parseable sin errores; define estructura exacta con schemas y elimina regex frágiles y fallos de JSON.parse JSON mode es más barato porque usa menos tokens Solo funciona con GPT-4o, no con otros modelos No tiene ventaja; parsear texto libre funciona igual de bien

4

¿Qué protocolo se usa comúnmente para streaming de tokens desde un LLM al frontend y por qué?

Server-Sent Events (SSE): unidireccional servidor→cliente, simple, auto-reconectable, sobre HTTP estándar. WebSockets sería overkill WebSockets porque es bidireccional y más rápido que HTTP Long polling con fetch cada 100ms para verificar nuevos tokens gRPC streaming porque es el más eficiente para datos binarios

5

¿Qué es la similitud coseno y por qué se usa para búsqueda semántica con embeddings?

Mide el ángulo entre vectores (no magnitud); 1=idénticos, 0=sin relación. Ideal porque textos con mismo significado apuntan en la misma dirección Cuenta cuántas palabras tienen en común dos textos Calcula la distancia en metros entre dos puntos en un espacio 3D Es un algoritmo de compresión de texto para reducir tokens

6

¿Qué es el chunking en un pipeline RAG y por qué es importante elegir el tamaño correcto?

Divide documentos en fragmentos para embeberlos. Muy pequeños pierden contexto, muy grandes diluyen relevancia. Overlap evita cortar información Chunking comprime los documentos para que quepan en menos espacio Es lo mismo que tokenización; divide texto en tokens individuales Chunking solo aplica a PDFs, no a texto plano

7

¿Por qué es importante implementar rate limiting en el backend de una app AI y qué estrategia se recomienda?

Evita costos masivos por abuso. Sliding window con Redis, límites por plan, token budgets diarios y circuit breaker para fallos del proveedor No es necesario; OpenAI ya tiene sus propios rate limits Solo se necesita un CAPTCHA en el frontend Se implementa bloqueando la IP después de un solo request

8

¿Qué hace el hook `useChat` del Vercel AI SDK y qué ventajas ofrece sobre una implementación manual?

Maneja estado de mensajes, streaming SSE, loading, cancelación, reintentos y tool calls automáticamente, ahorrando cientos de líneas Es un wrapper de fetch que solo hace POST requests Solo funciona con OpenAI, no con Anthropic ni otros providers Es obligatorio para usar React; no se puede hacer chat sin él

9

¿Por qué nunca se debe exponer la API key del LLM directamente en el frontend?

Es visible en DevTools/código fuente; cualquiera puede usarla sin límites. El backend debe hacer de proxy con auth, rate limiting y env vars Se puede exponer si se ofusca el código JavaScript OpenAI bloquea automáticamente keys usadas desde el frontend Es seguro si se usa HTTPS porque encripta todo el tráfico

10

¿Cómo funciona function calling / tool use en un LLM?

El LLM genera JSON con tool name y args (no ejecuta). Tu código ejecuta la función real y devuelve el resultado. maxSteps permite loops automáticos El LLM ejecuta código directamente en el servidor del usuario Function calling es lo mismo que un webhook HTTP Solo funciona con funciones de JavaScript, no con otros lenguajes

11

¿Qué es el patrón ReAct y cómo se diferencia de un simple prompt con tools?

ReAct alterna Razonamiento→Acción→Observación en loop. El agente encadena herramientas autónomamente con memoria, no es un solo prompt→respuesta ReAct es una librería de React para construir chatbots Es lo mismo que function calling pero con otro nombre ReAct solo funciona con modelos open source, no con APIs comerciales

12

¿Qué es el Model Context Protocol (MCP) y qué problema resuelve?

Protocolo abierto que estandariza la conexión LLM↔herramientas. Sin él, cada integración es custom (N×M). Define Tools, Resources y Prompts vía JSON-RPC Es un modelo de lenguaje creado por Anthropic para competir con GPT Es un protocolo de red para transferir archivos entre servidores Solo funciona dentro de Claude Desktop, no en aplicaciones propias

13

¿Cómo se envía una imagen a un modelo multimodal como GPT-4o vía API?

En el content del mensaje como {type: "image_url"} con URL pública o base64 data URI. El parámetro detail controla costo de procesamiento Se sube a un bucket S3 y se pasa la ruta del archivo No es posible enviar imágenes via API, solo vía la web de ChatGPT Se convierte la imagen a texto con OCR antes de enviarla

14

¿Cuándo deberías elegir fine-tuning en lugar de RAG o prompt engineering?

Cambiar estilo/tono consistente, formato específico repetitivo, dominio especializado, o reducir latencia. NO para datos dinámicos (usar RAG) Siempre; fine-tuning es superior a RAG y prompt engineering en todos los casos Nunca; prompt engineering resuelve absolutamente todo Solo cuando se tienen millones de ejemplos de entrenamiento

15

¿Qué es LLM-as-Judge y por qué es útil para evaluar aplicaciones AI?

Un LLM evalúa respuestas de otro con rúbricas definidas. Más escalable que humanos, más flexible que BLEU/ROUGE. Complementa tests deterministas Es un juez humano que usa ChatGPT como asistente Es un benchmark estándar como MMLU o HumanEval Solo sirve para evaluar modelos open source, no APIs comerciales

16

¿Qué es el semantic cache y cómo reduce costos en una app AI?

Cachea respuestas indexadas por embedding. Si una nueva pregunta es semánticamente similar (coseno > umbral), retorna sin llamar al LLM Comprime los tokens antes de enviarlos al LLM para reducir el costo Es un modelo más barato que reemplaza a GPT-4o en producción Guarda solo la primera respuesta y la reutiliza para todas las preguntas

17

¿Qué es prompt injection indirecta y por qué es especialmente peligrosa en aplicaciones RAG?

Instrucciones maliciosas en documentos que el LLM procesa vía RAG. Peligrosa porque el LLM no distingue instrucciones del developer de contenido inyectado Es cuando el usuario escribe "ignora las instrucciones" directamente en el chat Solo afecta a modelos open source, no a APIs comerciales como OpenAI Se previene completamente con un buen system prompt

18

¿Qué ventaja ofrece Edge Runtime para endpoints de AI y cuál es su limitación principal?

Baja latencia global (TTFB rápido para streaming). Limitación: no soporta todas las APIs de Node.js (sin fs, sin native modules) Es más barato que cualquier otra opción de hosting Soporta GPUs para ejecutar modelos localmente en el edge No tiene limitaciones; reemplaza completamente a los servidores tradicionales

19

¿Cuál es la arquitectura recomendada para manejar procesamiento de documentos (embeddings) en una app SaaS AI?

Async: upload → S3 → encolar en Redis/BullMQ → worker procesa en background (chunk→embed→vector DB) → notificar. Nunca sincrónico en el request Procesar todo sincrónicamente en el mismo endpoint de upload Enviar el documento completo como contexto al LLM sin embeddings Usar un cron job que procesa todos los documentos una vez al día

20

¿Cómo diseñarías un sistema de chat con documentos que sea escalable, seguro y costo-eficiente?

Auth+planes → upload async con workers → RAG (vector search + reranking + streaming) → semantic cache → rate limits + guardrails → monitoring + fallback Pegar todo el documento en el system prompt y usar GPT-4o para todo Fine-tunear un modelo con cada documento subido por cada usuario Usar solo keyword search en los documentos sin embeddings ni LLM

0 / 20 correctas