Evaluación: Inteligencia Artificial y LLMs

1

¿Cuál es la diferencia fundamental entre ANI (Artificial Narrow Intelligence) y AGI (Artificial General Intelligence)?

ANI resuelve tareas específicas; AGI (aún teórica) razonaría en cualquier dominio como un humano. Todo lo actual es ANI ANI usa redes neuronales y AGI usa algoritmos clásicos AGI ya fue alcanzada con GPT-4 y Claude 3.5 ANI es más potente que AGI porque está más enfocada

2

¿Cuál es la diferencia entre supervised learning y unsupervised learning?

Supervised usa datos etiquetados (input→output); unsupervised encuentra patrones en datos sin etiquetas. LLMs usan self-supervised Supervised necesita un humano supervisando; unsupervised entrena solo No hay diferencia real; son nombres distintos para lo mismo Unsupervised es siempre mejor porque no necesita etiquetas

3

¿Qué es backpropagation y por qué es esencial para entrenar redes neuronales?

Calcula gradientes del error propagándolos hacia atrás con la regla de la cadena, permitiendo ajustar pesos con gradient descent Es un algoritmo que propaga datos de entrada hacia adelante por la red Es un tipo de función de activación para capas ocultas Elimina neuronas que no contribuyen al resultado

4

¿Por qué las CNNs son efectivas para visión y las RNNs/LSTMs fueron reemplazadas por transformers en NLP?

CNNs capturan patrones espaciales; RNNs eran secuenciales (lentas, vanishing gradients). Transformers paralelizan con self-attention CNNs y RNNs son igual de efectivas; los transformers solo son marketing Las CNNs fueron inventadas después de los transformers Las RNNs son mejores que transformers pero más caras de entrenar

5

¿Qué problema resuelven los word embeddings (Word2Vec, GloVe) y cómo evolucionaron hacia embeddings contextuales?

Embeddings estáticos: un vector fijo por palabra. Contextuales (BERT/GPT): vectores dinámicos según contexto, capturando polisemia Embeddings solo sirven para traducción automática, no para otros usos Word2Vec genera una imagen por cada palabra Los embeddings son obsoletos; LLMs no los usan

6

¿Cómo funciona el mecanismo de self-attention en un transformer?

Cada token genera Q, K, V; calcula scores QK^T/√d_k con softmax; permite atender a cualquier token directamente sin distancia Procesa tokens uno por uno de izquierda a derecha como una RNN Usa convoluciones para relacionar tokens cercanos entre sí Calcula la media de todos los embeddings sin ponderar

7

¿Qué son las scaling laws y por qué fueron determinantes para el desarrollo de LLMs?

La performance escala predeciblemente con parámetros, datos y compute (leyes de potencia). Chinchilla demostró la proporción óptima datos/params Las scaling laws dicen que el doble de parámetros siempre da el doble de calidad Son reglas para decidir cuántas GPUs comprar Solo aplican a modelos de OpenAI, no a open source

8

¿Cuál es la diferencia entre RLHF y DPO para alinear un LLM?

RLHF necesita reward model + PPO (complejo). DPO optimiza directamente de las preferencias, sin RL; más simple y estable RLHF es para texto y DPO es para imágenes Son nombres distintos para el mismo algoritmo DPO es versión anterior a RLHF y ya no se usa

9

¿Qué es Chain-of-Thought (CoT) prompting y por qué mejora el razonamiento?

Pide razonamiento paso a paso; el modelo descompone el problema y usa tokens intermedios como memoria de trabajo, mejorando lógica y matemáticas Es una técnica para que el modelo genere respuestas más cortas Chain-of-Thought solo funciona con GPT-4, no con otros modelos Es lo mismo que few-shot prompting, solo con otro nombre

10

¿Cómo funciona RAG y qué problema resuelve en comparación con solo usar un LLM?

Busca documentos relevantes con embeddings y los da como contexto al LLM; resuelve datos desactualizados, alucinaciones y acceso a datos privados RAG re-entrena el modelo cada vez que hay una pregunta nueva RAG solo funciona con bases de datos SQL, no con documentos Es una alternativa a los LLMs que no usa redes neuronales

11

¿Qué es LoRA y por qué revolucionó el fine-tuning de LLMs?

Congela pesos originales y entrena matrices de bajo rango; reduce 10-100x la memoria necesaria. QLoRA agrega cuantización a 4-bit LoRA elimina capas innecesarias del modelo para hacerlo más pequeño Es un método de entrenamiento que solo funciona con TPUs de Google LoRA re-entrena todos los parámetros pero de forma más rápida

12

¿Cuál es la diferencia principal entre usar una API comercial (OpenAI, Anthropic) y ejecutar un modelo open source con Ollama/vLLM?

API: sin infra, pago por token, modelos frontier, datos a terceros. Local: privacidad total, costo fijo, requiere GPUs, menor capacidad general No hay diferencia; los modelos open source son igual de buenos que GPT-4o Las APIs son siempre más baratas que ejecutar modelos localmente Ollama solo funciona en Linux y no soporta GPUs

13

¿Qué es function calling / tool use en LLMs y cómo habilita agentes de IA?

El LLM genera llamadas estructuradas a herramientas externas; con ReAct alterna razonamiento y acciones. MCP estandariza la integración Function calling es simplemente darle instrucciones al LLM en el prompt Los agentes no necesitan LLMs; funcionan solo con reglas if/else Solo GPT-4 soporta function calling; ningún otro modelo lo tiene

14

¿Cómo funciona la búsqueda semántica con embeddings y por qué supera a la búsqueda por keywords?

Convierte texto a vectores, usa similitud coseno para capturar significado; "auto" encuentra "vehículo". Búsqueda híbrida combina con BM25 Busca sinónimos en un diccionario y los agrega a la query de keywords Semantic search solo funciona en inglés, no en español Es más lento que keywords y siempre menos preciso

15

¿Por qué los benchmarks estáticos (MMLU, HumanEval) son cada vez menos confiables para comparar LLMs?

Se contaminan (datos filtrados al training set) y los modelos memorizan. Dinámicos (Arena, LiveBench) y LLM-as-Judge los complementan Son perfectamente confiables; la industria los usa sin problemas Los benchmarks se renuevan diariamente y nunca se contaminan Solo son poco confiables para modelos open source, no para comerciales

16

¿Qué es un prompt injection attack y por qué es difícil de prevenir?

Inyecta instrucciones que sobreescriben el system prompt; difícil porque el LLM no distingue instrucciones de contenido a nivel fundamental Es un ataque de SQL injection adaptado para LLMs Solo afecta a chatbots, no a aplicaciones con APIs Se resuelve completamente con un buen system prompt

17

¿Qué significa que un modelo sea "natively multimodal" vs "multimodal via pipeline"?

Nativo: un modelo con encoder unificado para todas las modalidades. Pipeline: modelos separados conectados; pierde contexto cross-modal No hay diferencia real; todos los modelos multimodales funcionan igual Pipeline es siempre mejor porque cada modelo se especializa Natively multimodal solo procesa texto e imágenes, nunca audio

18

¿Qué es la cuantización de modelos y cuáles son los trade-offs?

Reduce precisión de pesos (FP16→INT8/INT4); reduce tamaño 2-4x y acelera inferencia. Pérdida mínima en INT8, más notable en INT4 Elimina parámetros innecesarios del modelo (pruning) Cuantización siempre destruye la calidad del modelo Solo funciona con modelos de menos de 7B parámetros

19

¿Cuándo elegirías RAG sobre fine-tuning para personalizar un LLM y viceversa?

RAG: datos dinámicos, citar fuentes, sin GPU. Fine-tuning: cambiar estilo/comportamiento, dominio especializado, latencia crítica. Se combinan Siempre fine-tuning; RAG es solo para prototipos rápidos Siempre RAG; fine-tuning es obsoleto desde GPT-4 Fine-tuning es para texto, RAG es para imágenes

20

¿Cómo diseñarías un sistema de IA para responder preguntas sobre la documentación interna de una empresa?

RAG: chunking docs → embeddings → vector DB → búsqueda híbrida + re-ranking → LLM con contexto → RAGAS eval → guardrails anti-alucinación Fine-tunear GPT-4o con toda la documentación copiada al prompt Usar solo keyword search en la documentación sin IA Entrenar un modelo desde cero con los documentos de la empresa

Evaluación: Inteligencia Artificial y LLMs

0 / 20 correctas