BLOG POST

Retrieval-Augmented Generation

Im sich schnell entwickelnden Bereich der künstlichen Intelligenz (KI) ist die Fähigkeit, präzise und aktuelle Informationen bereitzustellen, entscheidend. Retrieval-Augmented Generation (RAG) stellt einen bedeutenden Baustein in diesem Bereich dar, der es großen Sprachmodellen (LLMs) ermöglicht, Antworten auf Grundlage umfangreicher, spezialisierter Datensätze zu liefern. Dieser Artikel beleuchtet die Relevanz, Mechanik und technischen Lösungen hinter RAG und diskutiert dessen aktuelle Einschränkungen.

July 16th, 2024

3 min read

Warum ist es relevant?

Retrieval-Augmented Generation (RAG) ist grundlegend für die Nutzung von LLMs in Kontexten, die spezifische und aktuelle Informationen erfordern. Dieser Ansatz ist essentiell für Szenarien, die Antworten auf Basis umfangreicher, privater Datensätze benötigen. Es ist die Technologie hinter Lösungen wie Bing Chat und Expertensystemen wie unserem eigenen KalAI. Trotz zunehmender Größe der Kontextfenster ist RAG entscheidend, um Erkenntnisse aus großen Datensätzen zu gewinnen und die Qualität zu verbessern. Mega-Prompts führen oft dazu, dass LLMs den Überblick über Details verlieren, insbesondere in der Mitte des Kontexts (siehe https://arxiv.org/abs/2307.03172). Indem es sich auf den relevanten Kontext konzentriert, mildert RAG dieses Problem.

Was ist es?

RAG umfasst das Nachschlagen relevanter Informationen aus einem größeren Datensatz, bevor ein LLM gepromptet wird. Der häufigste Ansatz verwendet Vektor-Embeddings, um die Daten zu indexieren.

In einem ersten Schritt oder fortlaufend wird der gesamte Text aus dem relevanten Datensatz in Vektor-Embeddings umgewandelt. Wenn der Benutzer eine Frage eingibt, wird der Prompt ebenfalls in einen Embedding-Vektor umgewandelt. Dieser wird dann verwendet, um die k-nächsten Nachbarn über eine Ähnlichkeitssuche zu finden. Es gibt sowohl erschöpfende (k-nächste Nachbarn oder kNN) als auch approximative, leistungsfähigere Suchalgorithmen. Letztere tauschen in der Regel etwas Qualität gegen Geschwindigkeit ein.

Schließlich werden die Ergebnisse der Ähnlichkeitssuche - z.B. Textstücke aus dem Datensatz, die am relevantesten für die Suche des Benutzers sind - dem LLM als Kontext zur Verfügung gestellt. Das LLM verwendet diese Informationen dann, um die Frage zu beantworten.

Welche technischen Lösungen gibt es?

Obwohl es eine große Anzahl von Text-Embedding-Modellen gibt, gehören die folgenden zu den am häufigsten verwendeten:

  • OpenAI’s ada-002 und text-embedding-3

  • Cohere's embed-english-v3.0

  • Google’s text-embedding-gecko

  • Open-Source-Modelle wie E5

Ein weiteres wichtiges Element ist die effiziente Speicherung und Abruf von Vektor-Embeddings. Einige der beliebtesten sind (in keiner bestimmten Reihenfolge):

  • Pinecone

  • Pgvector für Postgres

  • Redis

  • AWS OpenSearch

  • Azure AI Search

  • Elasticsearch

  • Milvus

  • Qdrant

Einschränkungen

Naive Embedding-Suchergebnisse umfassen nur semantisch ähnliche Übereinstimmungen mit der Eingabe und können keine High-Level Fragen wie Zusammenfassungen oder die Identifizierung gemeinsamer Themen im Datensatz beantworten. Darüber hinaus beinhaltet das Umwandeln von Informationen in Embeddings eine Kompression der Informationen. Die häufig verwendeten 1536 Dimensionen bedeuten eine Limitierung für die semantische Bedeutung, die ein Vektor enthalten kann.

Fazit

Retrieval-Augmented Generation ist eine zentrale Technologie, um große Sprachmodelle in Umgebungen zu nutzen, in denen spezifische, aktuelle Informationen von entscheidender Bedeutung sind. Durch die Fokussierung auf relevanten Kontext und die Verwendung fortschrittlicher Embedding-Modelle und Suchlösungen überwindet RAG die Einschränkungen herkömmlicher Prompting-Methoden. Es hat jedoch seine eigenen Limitierungen, wie die Unfähigkeit, hochrangige Fragen zu bearbeiten, und die semantischen Grenzen von Embeddings.

Ausblick

In einem kommenden Artikel werden wir anspruchsvollere Ansätze untersuchen, die diese Einschränkungen adressieren. Bleiben Sie dran, um zu erfahren, wie diese Innovationen die Grenzen des Möglichen mit KI-gesteuerter Informationsbeschaffung erweitern.

Abonnieren Sie unseren Newsletter für exklusive Updates!

Seien Sie der Erste, der exklusive Updates, branchenspezifische Einblicke und besondere Angebote von uns erhält.