12
¿Cuál es la diferencia principal entre usar una API comercial (OpenAI, Anthropic) y ejecutar un modelo open source con Ollama/vLLM?
💡 Explicación: APIs comerciales: sin infraestructura, pago por token, modelos frontier (GPT-4o, Claude 3.5 Sonnet), pero datos salen a terceros. Open source local (Llama 3.1, Mistral via Ollama/vLLM): privacidad total, costo fijo por GPU, latencia predecible, pero requiere hardware (GPUs), mantenimiento, y modelos generalmente menores en capacidad.
19
¿Cuándo elegirías RAG sobre fine-tuning para personalizar un LLM y viceversa?
💡 Explicación: RAG: datos que cambian frecuentemente, necesidad de citar fuentes, sin GPU para entrenamiento, datos sensibles que no puedes enviar para entrenar. Fine-tuning: necesitas cambiar el estilo/comportamiento del modelo, dominio muy especializado (médico, legal), formato de output específico, o latencia crítica (sin retrieval). A menudo se combinan.