Kurs
Was ist Meta's Llama 3.1 405B? Funktionsweise, Anwendungsfälle und mehr
Am Dienstag, den 23. Juli 2024, kündigte Meta Llama 3.1 an, die neueste Version der Llama-Reihe von großen Sprachmodellen (LLMs).
Obwohl es sich um ein kleines Update des Llama 3 Modells handelt, führt es vor allem ein Llama 3.1 405Bein Modell mit 405 Milliarden Parametern, das bisher größte Open-Source-LLM der Welt, das das NVIDIA-Modell Nemotron-4-340B-Instruct.
Experimentelle Bewertungen legen nahe, dass es mit führenden Modellen wie GPT-4, GPT-4ound Claude 3.5 Sonnet über verschiedene Aufgaben hinweg.
Doch mit Konkurrenten wie Mistral und Falcon sich für kleinere Modelle entscheiden, stellt sich die Frage, ob große LLMs mit offenen Gewichten in der aktuellen Landschaft noch relevant sind.
Lies weiter, um unsere Meinung zu erfahren und Informationen über die Aktualisierungen des Llama-Ökosystems zu erhalten.
KI-Upskilling für Einsteiger
Was ist Llama 3.1 405B?
Llama 3.1 ist ein Punkt-Update zu Llama 3 (angekündigt im April 2024). Llama 3.1 405B ist die Flaggschiff-Version des Modells, die, wie der Name schon sagt, 405 Milliarden Parameter hat.
Quelle: Meta AI
Llama3.1 405B auf dem LMSys Chatbot Arena Leaderboard
Mit 405 Milliarden Parametern ist er ein Kandidat für einen Spitzenplatz auf dem LMSys Chatbot Arena Leaderboardeinem Leistungsmaßstab, der aus blinden Nutzerstimmen ermittelt wird.
In den letzten Monaten hat sich der Spitzenplatz zwischen Versionen von OpenAI GPT-4 abgewechselt, Anthropic Claude 3und Google Gemini. Derzeit hält GPT-4o die Krone, aber das kleinere Claude 3.5 Sonnet belegt den zweiten Platz und das bevorstehende Claude 3.5 Opus wird wahrscheinlich den ersten Platz einnehmen, wenn es vor der Aktualisierung von GPT-4o durch OpenAI veröffentlicht werden kann.
Das bedeutet, dass die Konkurrenz am oberen Ende der Skala hart ist und es wird interessant sein zu sehen, wie sich das Llama 3.1 405B im Vergleich zu diesen Konkurrenten schlägt. Während wir darauf warten, dass Llama 3.1 405B auf der Bestenliste erscheint, findest du weiter unten im Artikel einige Benchmarks.
Mehrsprachige Fähigkeiten
Das wichtigste Update von Llama 3 zu Llama 3.1 ist die bessere Unterstützung von nicht-englischen Sprachen. Die Trainingsdaten für Llama 3 bestanden zu 95 % aus Englisch, daher schnitt es in anderen Sprachen schlecht ab. Das Update 3.1 bietet Unterstützung für Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thai.
Längerer Kontext
Die Llama 3-Modelle hatten ein Kontextfenster - die Menge an Text, über die gleichzeitig nachgedacht werden kann - von 8k Token (etwa 6k Wörter). Mit Llama 3.1 wird es auf eine modernere 128k-Version angehoben und ist damit konkurrenzfähig mit anderen modernen LLMs.
Damit wird eine wichtige Schwachstelle der Lama-Familie behoben. Für Unternehmensanwendungen wie das Zusammenfassen langer Dokumente, das Generieren von kontextbezogenem Code aus einer großen Codebasis oder die erweiterte Unterstützung von Chatbot-Konversationen ist ein langes Kontextfenster, das Hunderte von Textseiten speichern kann, unerlässlich.
Open Model Lizenzvertrag
Die Llama 3.1-Modelle sind unter Metas eigener Open Model License Agreement erhältlich. Diese freizügige Lizenz gibt Forschern, Entwicklern und Unternehmen die Freiheit, das Modell sowohl für die Forschung als auch für kommerzielle Anwendungen zu nutzen.
In einem bedeutenden Updatehat Meta die Lizenz erweitert, damit Entwickler die Ergebnisse von Llama-Modellen, einschließlich des 405B-Modells, zur Verbesserung anderer Modelle nutzen können.
Das bedeutet im Wesentlichen, dass jeder die Fähigkeiten des Modells nutzen kann, um seine Arbeit voranzutreiben, neue Anwendungen zu entwickeln und die Möglichkeiten der KI zu erforschen, solange er sich an die in der Vereinbarung festgelegten Bedingungen hält.
Wie funktioniert Llama 3.1 405B?
In diesem Abschnitt werden die technischen Details der Funktionsweise von Llama 3.1 405B erklärt, einschließlich der Architektur, des Trainingsprozesses, der Datenaufbereitung, der Rechenanforderungen und der Optimierungstechniken.
Transformator-Architektur mit Tweaks
Llama 3.1 405B basiert auf einer Standard-Decoder-only Transformer-Architekturauf, ein Design, das vielen erfolgreichen großen Sprachmodellen gemein ist.
Während die Kernstruktur unverändert bleibt, hat Meta kleinere Anpassungen vorgenommen, um die Stabilität und Leistung des Modells beim Training zu verbessern. Die Mixture-of-Experts (MoE)-Architektur wird absichtlich ausgeschlossen, um die Stabilität und Skalierbarkeit des Trainingsprozesses zu gewährleisten.
Quelle: Meta AI
Das Diagramm zeigt, wie Llama 3.1 405B Sprache verarbeitet. Zunächst wird der Eingabetext in kleinere Einheiten unterteilt, die Token und dann in numerische Repräsentationen umgewandelt werden, die Token-Einbettungen.
Diese Einbettungen werden dann durch mehrere Schichten von Self-AttentionDabei analysiert das Modell die Beziehungen zwischen den einzelnen Token, um ihre Bedeutung und ihren Kontext innerhalb des Inputs zu verstehen.
Die von den Selbstbeobachtungsschichten gesammelten Informationen werden dann durch ein Feedforward-Netzwerk geleitet, das die Informationen weiterverarbeitet und kombiniert, um eine Bedeutung abzuleiten. Dieser Prozess der Selbstbeobachtung und Feedforward-Verarbeitung wird mehrmals wiederholt, um das Verständnis des Modells zu vertiefen.
Schließlich verwendet das Modell diese Informationen, um eine Antwort Token für Token zu erstellen, die auf den vorherigen Ausgaben aufbaut, um einen kohärenten und relevanten Text zu erstellen. Dieser iterative Prozess, der als autoregressive Dekodierung bezeichnet wird, ermöglicht es dem Modell, eine flüssige und kontextgerechte Antwort auf die Eingabeaufforderung zu geben.
Mehrstufiger Ausbildungsprozess
Die Entwicklung von Llama 3.1 405B war ein mehrstufiger Ausbildungsprozess. Zunächst wurde das Modell mit einer großen und vielfältigen Sammlung von Datensätzen trainiert, die Billionen von Token umfassen. Dadurch, dass das Modell großen Textmengen ausgesetzt ist, lernt es Grammatik, Fakten und logisches Denken aus den Mustern und Strukturen, denen es begegnet.
Nach dem Vortraining durchläuft das Modell iterative Runden der überwachten Feinabstimmung (SFT) und der direkten Präferenzoptimierung (DPO). SFT beinhaltet das Training für bestimmte Aufgaben und Datensätze mit menschlichem Feedbackum das Modell zu den gewünschten Ergebnissen zu führen.
DPO hingegen konzentriert sich darauf, die Antworten des Modells auf der Grundlage der von menschlichen Bewertern gesammelten Präferenzen zu verfeinern. Dieser iterative Prozess verbessert schrittweise die Fähigkeit des Modells, Anweisungen zu befolgen, die Qualität seiner Antworten zu verbessern und die Sicherheit.
Qualität und Quantität der Daten
Meta behauptet, die Qualität und Quantität der Trainingsdaten stark betont zu haben. Für Llama 3.1 405B wurde ein strenger Datenaufbereitungsprozess durchgeführt, der umfangreiche Filter- und Bereinigungsmaßnahmen beinhaltete, um die Gesamtqualität der Datensätze zu verbessern.
Interessanterweise wird das 405B-Modell selbst verwendet, um synthetische Daten zu erzeugen, die dann in den Trainingsprozess einbezogen werden, um die Fähigkeiten des Modells weiter zu verfeinern.
Rechnerisch hochskalieren
Um ein so großes und komplexes Modell wie Llama 3.1 405B zu trainieren, braucht man eine enorme Menge an Rechenleistung. Um das zu verdeutlichen, hat Meta über 16.000 der leistungsstärksten NVIDIA-GPUs, die H100, eingesetzt, um dieses Modell effizient zu trainieren.
Sie haben auch ihre gesamte Ausbildungsinfrastruktur erheblich verbessert, um sicherzustellen, dass sie den immensen Umfang des Projekts bewältigen kann, damit das Modell effektiv lernen und sich verbessern kann.
Quantisierung für Inferenz
Um Llama 3.1 405B für reale Anwendungen besser nutzbar zu machen, hat Meta eine Technik namens Quantisierung angewandt, bei der die Gewichte des Modells von 16-Bit-Präzision (BF16) in 8-Bit-Präzision (FP8) umgewandelt werden. Das ist so, als würdest du von einem hochauflösenden Bild zu einer etwas niedrigeren Auflösung wechseln: Die wesentlichen Details bleiben erhalten, während die Dateigröße reduziert wird.
Außerdem vereinfacht die Quantisierung die internen Berechnungen des Modells, so dass es viel schneller und effizienter auf einem einzigen Server läuft. Diese Optimierung macht es für andere einfacher und kostengünstiger, die Fähigkeiten des Modells zu nutzen.
Llama 3.1 405B Anwendungsfälle
Llama 3.1 405B bietet dank seines Open-Source-Charakters und seiner umfangreichen Möglichkeiten verschiedene Anwendungsmöglichkeiten.
Synthetische Daten erzeugen
Die Fähigkeit des Modells, Text zu generieren, der der menschlichen Sprache sehr ähnlich ist, kann genutzt werden, um große Mengen an synthetischen Daten zu erstellen.
Diese synthetischen Daten können wertvoll sein, um andere Sprachmodelle zu trainieren, Datenerweiterungstechniken zu verbessern (bestehende Daten vielfältiger zu machen) und realistische Simulationen für verschiedene Anwendungen zu entwickeln.
Modell Destillation
Das im 405B-Modell enthaltene Wissen kann durch einen Prozess namens Destillation auf kleinere, effizientere Modelle übertragen werden.
Stell dir die Modelldestillation so vor, dass ein Schüler (ein kleineres KI-Modell) das Wissen eines Experten (das größere Llama 3.1 405B-Modell) erlernt. So kann das kleinere Modell lernen und Aufgaben erfüllen, ohne die gleiche Komplexität oder die gleichen Rechenressourcen zu benötigen wie das größere Modell.
So können fortschrittliche KI-Funktionen auf Geräten wie Smartphones oder Laptops ausgeführt werden, die im Vergleich zu den leistungsstarken Servern, die zum Trainieren des ursprünglichen Modells verwendet wurden, nur über begrenzte Leistung verfügen.
Ein aktuelles Beispiel für die Modell-Destillation ist OpenAIs GPT-4o minidas eine destillierte Version von GPT-4o ist.
Forschung und Experimentieren
Llama 3.1 405B dient als wertvolles Forschungswerkzeug, mit dem Wissenschaftler und Entwickler neue Grenzen in der Verarbeitung natürlicher Sprache und künstlicher Intelligenz erkunden können.
Seine Offenheit fördert das Experimentieren und die Zusammenarbeit und beschleunigt das Tempo der Entdeckung.
Branchenspezifische Lösungen
Durch die Anpassung des Modells an branchenspezifische Daten, z. B. aus dem Gesundheits-, Finanz- oder Bildungswesen, ist es möglich, maßgeschneiderte KI-Lösungen zu entwickeln, die den besonderen Herausforderungen und Anforderungen dieser Bereiche gerecht werden.
Llama 3.1 405B Sicherheitsschwerpunkt
Meta behauptet, dass sie einen großen Wert auf die Sicherheit ihrer Llama 3.1 Modelle legen.
Quelle: Meta AI
Vor der Freigabe von Llama 3.1 405B wurden umfangreiche "Red Teaming"-Übungendurchgeführt . Bei diesen Übungen agieren interne und externe Experten als Gegner und versuchen, Wege zu finden, um das Modell auf schädliche oder unangemessene Weise zu beeinflussen. Dies hilft, potenzielle Risiken oder Schwachstellen im Verhalten des Modells zu erkennen.
Zusätzlich zu den Tests vor dem Einsatz wird Llama 3.1 405B einer Feinabstimmung der Sicherheitunterzogen . Dieser Prozess umfasst Techniken wie Reinforcement Learning from Human Feedback (RLHF)bei dem das Modell lernt, seine Antworten mit menschlichen Werten und Vorlieben abzugleichen. Dies hilft, schädliche oder verzerrte Ergebnisse zu vermeiden, und macht das Modell sicherer und zuverlässiger für den realen Einsatz.
Meta hat außerdem eingeführt Llama Guard 3vorgestellt, ein neues mehrsprachiges Sicherheitsmodell, das schädliche oder unangemessene Inhalte, die von Llama 3.1 405B erzeugt werden, filtert und kennzeichnet. Diese zusätzliche Sicherheitsebene trägt dazu bei, dass die Ergebnisse des Modells den ethischen und sicherheitstechnischen Richtlinien entsprechen.
Quelle: Meta AI
Eine weitere Sicherheitsfunktion ist Prompt Guard, die Prompt-Injection-Angriffe verhindern soll. Bei diesen Angriffen werden bösartige Anweisungen in Benutzeraufforderungen eingefügt, um das Verhalten des Modells zu manipulieren. Prompt Guard filtert solche Anweisungen heraus und schützt das Modell so vor möglichem Missbrauch.
Quelle: Meta AI
Außerdem hat Meta Code Shieldintegriert , eine Funktion, die sich auf die Sicherheit des von Llama 3.1 405B erzeugten Codes konzentriert. Code Shield filtert unsichere Codevorschläge in Echtzeit während des Inferenzprozesses heraus und bietet sicheren Befehlsausführungsschutz für sieben Programmiersprachen, und das mit einer durchschnittlichen Latenz von 200 ms. So lässt sich das Risiko verringern, dass Code erzeugt wird, der ausgenutzt werden kann oder eine Sicherheitsbedrohung darstellt.
Quelle: Meta AI
Llama 3.1 405B Benchmarks
Meta hat Llama 3.1 405B einer strengen Bewertung mit über 150 verschiedenen Benchmark-Datensätzen unterzogen. Diese Benchmarks umfassen ein breites Spektrum an sprachlichen Aufgaben und Fähigkeiten, das von Allgemeinwissen und logischem Denken bis hin zu Codierung, Mathematik und mehrsprachigen Fähigkeiten reicht.
Quelle: Meta AI
Llama 3.1 405B kann in vielen Benchmarks mit führenden Closed-Source-Modellen wie GPT-4, GPT-4o und Claude 3.5 Sonnet mithalten. Besonders stark ist er bei den Aufgaben zum logischen Denken: 96,9 Punkte bei der ARC Challenge und 96,8 Punkte bei GSM8K. Auch bei der Codegenerierung schneidet er mit 89,0 Punkten im HumanEval-Benchmark hervorragend ab.
Zusätzlich zu den automatisierten Benchmarks hat Meta AI umfangreiche menschliche Bewertungen durchgeführt, um die Leistung von Llama 3.1 405B in realen Szenarien zu beurteilen.
Quelle: Meta AI
Obwohl das Llama 3.1 405B in diesen Bewertungen konkurrenzfähig ist, übertrifft es die anderen Modelle nicht durchgehend. Es schneidet gleich gut ab wie GPT-4-0125-Preview (OpenAIs GPT-4-Modell, das Anfang 2024 als Preview veröffentlicht wird) und Claude 3.5 Sonnet und gewinnt und verliert ungefähr den gleichen Prozentsatz an Bewertungen. Sie liegt leicht hinter der GPT-4o zurück und gewinnt nur 19,1 % der Vergleiche.
Wo kann ich auf Llama 3.1 405B zugreifen?
Du kannst auf Llama 3.1 405B über zwei Hauptkanäle zugreifen:
- Direkter Download von Meta: Die Modellgewichte können direkt von der offiziellen Llama-Website von Meta heruntergeladen werden: llama.meta.com
- Umarmendes Gesicht: Llama 3.1 405B ist auch erhältlich auf der Hugging Face Plattform verfügbar, einer beliebten Plattform für den Austausch von und den Zugriff auf Machine-Learning-Modelle.
Durch die Bereitstellung des Modells möchte Meta Forschern, Entwicklern und Organisationen die Möglichkeit geben, seine Fähigkeiten für verschiedene Anwendungen zu nutzen und zur Weiterentwicklung der KI-Technologie beizutragen. Mark Zuckerbergs Brief.
Llama 3.1 Familie von Modellen
Während das Llama 3.1 405B mit seiner Größe für Schlagzeilen sorgt, bietet die Llama 3.1-Familie noch weitere Modelle, die für unterschiedliche Einsatzbereiche und Ressourcenbeschränkungen entwickelt wurden. Diese Modelle haben die gleichen Vorteile wie die 405B-Version, sind aber auf spezielle Bedürfnisse zugeschnitten.
Llama 3.1 70B: Vielseitig
Das Modell Llama 3.1 70B bietet ein ausgewogenes Verhältnis zwischen Leistung und Effizienz, was es zu einem starken Kandidaten für eine breite Palette von Anwendungen macht.
Es eignet sich hervorragend für Aufgaben wie die Zusammenfassung langer Texte, die Erstellung mehrsprachiger Konversationsagenten und die Unterstützung bei der Codierung.
Obwohl es kleiner ist als das Modell 405B, ist es in verschiedenen Benchmarks mit anderen offenen und geschlossenen Modellen ähnlicher Größe konkurrenzfähig. Durch seine geringe Größe lässt es sich auch leichter auf Standard-Hardware einsetzen und verwalten.
Quelle: Meta AI
Llama 3.1 8B: Leicht und effizient
Das Modell Llama 3.1 8B legt den Schwerpunkt auf Geschwindigkeit und geringen Ressourcenverbrauch. Sie ist ideal für Szenarien, in denen diese Faktoren entscheidend sind, wie z. B. beim Einsatz auf Edge-Geräten, mobilen Plattformen oder in Umgebungen mit begrenzten Rechenressourcen.
Trotz seiner geringen Größe liefert er im Vergleich zu ähnlich großen Modellen bei verschiedenen Aufgaben eine konkurrenzfähige Leistung (siehe Tabelle oben).
Wenn du dich für die Feinabstimmung von Llama 3.1 8B interessierst, erfährst du mehr in diesem Tutorial über die Feinabstimmung von Llama 3.1 für die Textklassifizierung.
Gemeinsame Verbesserungen in allen Llama 3.1 Modellen
Alle Llama 3.1 Modelle haben einige wichtige Verbesserungen gemeinsam:
- Erweitertes Kontextfenster (128K Tokens): Das Kontextfenster, d.h. die Menge an Text, die das Modell auf einmal berücksichtigen kann, wurde deutlich auf 128.000 Token erhöht. Dadurch können die Modelle viel längere Eingaben verarbeiten und den Kontext über längere Gespräche oder Dokumente hinweg beibehalten.
- Mehrsprachige Unterstützung: Alle Modelle unterstützen jetzt acht Sprachen: Englisch, Deutsch, Französisch, Italienisch, Portugiesisch, Hindi, Spanisch und Thai. Diese breitere Sprachunterstützung erweitert ihre Anwendbarkeit für ein globales Publikum.
- Verbesserte Nutzung von Werkzeugen und logisches Denken: Die Modelle wurden mit verbesserten Werkzeug- und Argumentationsfähigkeiten ausgestattet, die sie vielseitiger und geschickter im Umgang mit komplexen Aufgaben machen.
- Erhöhte Sicherheit: Alle Llama 3.1-Modelle wurden strengen Sicherheitstests und Feinabstimmungen unterzogen, um mögliche Risiken zu minimieren und einen verantwortungsvollen Umgang mit KI zu fördern. Dazu gehören auch Bemühungen, Vorurteile und schädliche Ergebnisse zu reduzieren.
Groß vs. Kleine LLMs: Die Debatte
Die Veröffentlichung von Llama 3.1 405B ist zwar beeindruckend, gibt aber Anlass zu einer Diskussion über die optimale Größe von Sprachmodellen in der aktuellen KI-Landschaft.
Wie in der Einleitung kurz erwähnt, haben sich Konkurrenten wie Mistral und Falcon für kleinere Modelle entschieden und argumentieren, dass diese praktischer und zugänglicher sind. Diese kleineren Modelle benötigen oft weniger Rechenressourcen, sodass sie leichter eingesetzt und für bestimmte Aufgaben angepasst werden können.
Die Befürworter großer Modelle wie Llama 3.1 405B argumentieren jedoch, dass sie aufgrund ihrer Größe mehr Wissen erfassen können, was zu einer besseren Leistung bei einer größeren Anzahl von Aufgaben führt. Sie weisen auch auf das Potenzial dieser großen Modelle hin, die als "Grundmodelle" auf denen kleinere, spezialisierte Modelle durch Destillation aufgebaut werden können.
Die Debatte zwischen großen und kleinen LLMs läuft letztlich auf einen Kompromiss zwischen Fähigkeiten und Praktikabilität hinaus. Größere Modelle bieten zwar ein größeres Potenzial für mehr Leistung, sind aber auch mit einem höheren Rechenaufwand und potenziellen Umweltauswirkungen aufgrund ihres Energieverbrauchs verbunden. Kleinere Modelle hingegen opfern möglicherweise etwas Leistung für eine bessere Zugänglichkeit und einen einfacheren Einsatz.
Dass Meta das Llama 3.1 405B zusammen mit kleineren Varianten wie den Modellen 70B und 8B herausgebracht hat, scheint diesen Kompromiss anzuerkennen. Durch das Angebot verschiedener Modellgrößen werden sie den unterschiedlichen Bedürfnissen und Vorlieben der KI-Gemeinschaft gerecht.
Letztendlich hängt die Wahl zwischen großen und kleinen LLMs vom jeweiligen Anwendungsfall, den verfügbaren Ressourcen und den gewünschten Leistungsmerkmalen ab. Da sich das Feld weiter entwickelt, ist es wahrscheinlich, dass beide Ansätze nebeneinander bestehen werden, wobei jeder seine Nische in der vielfältigen Landschaft der KI-Anwendungen findet.
Verdiene eine Top-KI-Zertifizierung
Fazit
Die Veröffentlichung der Llama 3.1-Familie, insbesondere des 405B-Modells, stellt einen bemerkenswerten Beitrag zum Bereich der großen Open-Source-Sprachmodelle dar.
Auch wenn seine Leistung nicht durchgängig alle geschlossenen Modelle übertrifft, bieten seine Fähigkeiten und Metas Engagement für Transparenz und Zusammenarbeit einen neuen Weg für die KI-Entwicklung.
Die Verfügbarkeit verschiedener Modellgrößen und gemeinsamer Erweiterungen erweitert das Anwendungspotenzial für Forscher, Entwickler und Organisationen.
Durch den offenen Austausch dieser Technologie fördert Meta ein kollaboratives Umfeld, das den Fortschritt in diesem Bereich beschleunigen und fortschrittliche KI zugänglicher machen könnte.
Wie sich Llama 3.1 auf die Zukunft der KI auswirkt, bleibt abzuwarten, aber seine Veröffentlichung unterstreicht die wachsende Bedeutung von Open-Source-Initiativen bei der Suche nach verantwortungsvollen und nützlichen KI-Technologien.
FAQs
Ist Llama 3.1 405B besser als GPT-4o und GPT-4?
Llama 3.1 405B kann mit GPT-4 und GPT-4o mithalten und übertrifft sie bei bestimmten Benchmarks wie Reasoning-Aufgaben und Codegenerierung. Menschliche Bewertungen deuten jedoch darauf hin, dass es in der Gesamtleistung leicht hinter GPT-4o zurückbleibt.
Ist Llama 3.1 405B besser als Claude 3.5 Sonnet?
Llama 3.1 405B und Claude 3.5 Sonnet zeigen in vielen Benchmarks und menschlichen Bewertungen eine vergleichbare Leistung, wobei jedes Modell in verschiedenen Bereichen seine Stärken hat.
Ist Llama 3.1 405B besser als Gemini?
Direkte Vergleiche zwischen Llama 3.1 405B und Gemini sind nur begrenzt möglich, da sie nicht ausgiebig gegeneinander getestet wurden. Die Leistung von Llama 3.1 405B in verschiedenen Benchmarks lässt jedoch vermuten, dass es mit Gemini konkurrieren kann.
Ist Llama 3.1 405B quelloffen?
Ja, Llama 3.1 405B wird unter Metas eigener Open Model License Agreement veröffentlicht, die sowohl die Forschung als auch die kommerzielle Nutzung erlaubt.
Wie viele verschiedene Größen gibt es in der Llama 3.1 Modellfamilie?
Die Llama 3.1 Familie besteht aus mehreren Modellen mit unterschiedlichen Größen, darunter das Spitzenmodell 405B, ein 70B Modell und ein 8B Modell.
Lerne KI mit diesen Kursen!
Lernpfad
Developing Large Language Models
Kurs
Generative AI for Business
Der Blog