RAG
Retrieval-Augmented Generation
Un modelo de lenguaje (LLM) solo sabe lo que vio durante el entrenamiento, con un corte temporal fijo. Si le preguntas por documentos internos de tu empresa o por noticias de hoy, no puede saberlo.
RAG (Retrieval-Augmented Generation) resuelve esto añadiendo un paso previo: cuando llega una pregunta, el sistema busca documentos relevantes en una base de datos vectorial (usando embeddings) y los inyecta en el contexto del modelo. El LLM responde basándose en esos fragmentos recuperados, no solo en su memoria entrenada.
Casos típicos: chatbot de soporte que cita el manual real, asistente legal que consulta sentencias, búsqueda interna de empresa.
Cuándo NO usar RAG: si el conocimiento es estático y cabe en el contexto del modelo (~200k tokens en Claude actual), pasarlo todo directamente puede ser más simple. RAG añade latencia y complejidad.