Was ist Tokenisierung?

Durch die Tokenisierung wird der Text in kleinere Teile zerlegt, um die maschinelle Analyse zu erleichtern und den Maschinen zu helfen, die menschliche Sprache zu verstehen.

Aktualisiert 22. Nov. 2024 · 10 Min. lesen

KI-Upskilling für Einsteiger

Lerne die Grundlagen von KI und ChatGPT von Grund auf.

KI kostenlos lernen

Tokenisierung erklärt

Stell dir vor, du versuchst, einem Kind das Lesen beizubringen. Anstatt dich direkt in komplexe Absätze zu stürzen, solltest du sie zunächst an einzelne Buchstaben, dann an Silben und schließlich an ganze Wörter heranführen. In ähnlicher Weise zerlegt die Tokenisierung große Textmengen in verdauliche und verständliche Einheiten für Maschinen.

Das Hauptziel der Tokenisierung ist es, Text in einer Weise darzustellen, die für Maschinen sinnvoll ist, ohne dass der Kontext verloren geht. Durch die Umwandlung von Text in Token können Algorithmen leichter Muster erkennen. Diese Mustererkennung ist entscheidend, denn sie ermöglicht es Maschinen, menschliche Eingaben zu verstehen und darauf zu reagieren. Wenn eine Maschine zum Beispiel auf das Wort "laufen" stößt, sieht sie es nicht als einzelne Einheit, sondern als eine Kombination von Token, die sie analysieren und daraus eine Bedeutung ableiten kann.

Um die Mechanik zu vertiefen, betrachte den Satz "Chatbots sind hilfreich". Wenn wir diesen Satz nach Wörtern tokenisieren, verwandelt er sich in ein Array aus einzelnen Wörtern:

["Chatbots", "are", "helpful"].

Dies ist ein einfacher Ansatz, bei dem die Grenzen der Token in der Regel durch Leerzeichen festgelegt werden. Wenn wir jedoch nach Zeichen tokenisieren würden, würde der Satz in ein Fragment zerfallen:

["C", "h", "a", "t", "b", "o", "t", "s", " ", "a", "r", "e", " ", "h", "e", "l", "p", "f", "u", "l"].

Diese Aufschlüsselung auf Zeichenebene ist granularer und kann für bestimmte Sprachen oder spezifische NLP-Aufgaben besonders nützlich sein.

Im Grunde genommen ist die Tokenisierung so etwas wie das Sezieren eines Satzes, um seine Anatomie zu verstehen. So wie Ärzte einzelne Zellen untersuchen, um ein Organ zu verstehen, nutzen NLP-Praktiker/innen die Tokenisierung, um die Struktur und Bedeutung eines Textes zu analysieren und zu verstehen.

Während sich unsere Diskussion auf die Tokenisierung im Kontext der Sprachverarbeitung konzentriert, wird der Begriff "Tokenisierung" auch im Bereich der Sicherheit und des Datenschutzes verwendet, insbesondere bei Datenschutzverfahren wie der Tokenisierung von Kreditkarten. In solchen Szenarien werden sensible Datenelemente durch nicht-sensible Äquivalente, sogenannte Token, ersetzt. Diese Unterscheidung ist wichtig, um eine Verwechslung zwischen den beiden Kontexten zu vermeiden.

Arten der Tokenisierung

Tokenisierungsmethoden variieren je nach Granularität der Textaufschlüsselung und den spezifischen Anforderungen der jeweiligen Aufgabe. Diese Methoden reichen von der Zerlegung des Textes in einzelne Wörter bis hin zur Aufteilung in Zeichen oder noch kleinere Einheiten. Hier ist ein genauerer Blick auf die verschiedenen Arten:

Wort-Tokenisierung. Bei dieser Methode wird der Text in einzelne Wörter zerlegt. Das ist die gängigste Methode und ist besonders effektiv für Sprachen mit klaren Wortgrenzen wie Englisch.
Zeichen-Tokenisierung. Hier wird der Text in einzelne Zeichen zerlegt. Diese Methode ist vorteilhaft für Sprachen, in denen es keine klaren Wortgrenzen gibt, oder für Aufgaben, die eine granulare Analyse erfordern, wie z. B. die Rechtschreibkorrektur.
Teilwort-Tokenisierung. Bei dieser Methode, die ein Gleichgewicht zwischen Wort- und Zeichen-Tokenisierung herstellt, wird der Text in Einheiten unterteilt, die größer als ein einzelnes Zeichen, aber kleiner als ein ganzes Wort sein können. Zum Beispiel könnte "Chatbots" in "Chat" und "Bots" unterteilt werden. Dieser Ansatz ist besonders nützlich für Sprachen, die ihre Bedeutung durch die Kombination kleinerer Einheiten bilden, oder für den Umgang mit Wörtern außerhalb des Wortschatzes in NLP-Aufgaben.

Hier ist eine Tabelle, in der die Unterschiede erklärt werden:

Typ	Beschreibung	Anwendungsfälle
Tokenisierung von Wörtern	Bricht den Text in einzelne Wörter auf.	Wirksam für Sprachen mit klaren Wortgrenzen wie Englisch.
Tokenisierung von Zeichen	Unterteilt den Text in einzelne Zeichen.	Nützlich für Sprachen ohne klare Wortgrenzen oder Aufgaben, die eine detaillierte Analyse erfordern.
Tokenisierung von Unterwörtern	Unterteilt den Text in Einheiten, die größer als Zeichen, aber kleiner als Wörter sind.	Nützlich für Sprachen mit komplexer Morphologie oder für den Umgang mit Wörtern, die nicht im Wortschatz enthalten sind.

Tokenisierung Anwendungsfälle

Die Tokenisierung ist das Rückgrat für eine Vielzahl von Anwendungen im digitalen Bereich und ermöglicht es Maschinen, große Mengen an Textdaten zu verarbeiten und zu verstehen. Durch die Zerlegung des Textes in überschaubare Teile ermöglicht die Tokenisierung eine effizientere und genauere Datenanalyse. Hier sind einige prominente Anwendungsfälle, zusammen mit realen Anwendungen:

Suchmaschinen

Wenn du eine Suchanfrage in eine Suchmaschine wie Google eingibst, verwendet sie Tokenisierung, um deine Eingabe zu zerlegen. Diese Aufschlüsselung hilft der Suchmaschine, Milliarden von Dokumenten zu durchsuchen, um dir die relevantesten Ergebnisse zu präsentieren.

Maschinelle Übersetzung

Tools wie Google Translate nutzen die Tokenisierung, um Sätze in der Ausgangssprache zu segmentieren. Nach der Tokenisierung können diese Segmente übersetzt und dann in der Zielsprache rekonstruiert werden, wobei sichergestellt wird, dass die Übersetzung den ursprünglichen Kontext beibehält.

Spracherkennung

Sprachgesteuerte Assistenten wie Siri oder Alexa verlassen sich stark auf die Tokenisierung. Wenn du eine Frage oder einen Befehl stellst, werden deine gesprochenen Worte zunächst in Text umgewandelt. Dieser Text wird dann in Token umgewandelt, damit das System deine Anfrage verarbeiten und bearbeiten kann.

Stimmungsanalyse in Rezensionen

Die Tokenisierung spielt eine entscheidende Rolle bei der Gewinnung von Erkenntnissen aus nutzergenerierten Inhalten, wie z. B. Produktbewertungen oder Social-Media-Beiträgen. Ein Stimmungsanalysesystem für E-Commerce-Plattformen könnte zum Beispiel Nutzerbewertungen mit Token versehen, um festzustellen, ob die Kunden positive, neutrale oder negative Gefühle zum Ausdruck bringen. Zum Beispiel:

Die Rezension: "This product is amazing, but the delivery was late."
Nach der Tokenisierung: ["This", "product", "is", "amazing", ",", "but", "the", "delivery", "was", "late", "."]

Die Tokens "amazing" und "late" können dann vom Sentiment-Modell verarbeitet werden, um gemischte Sentiment-Labels zuzuweisen, die Unternehmen verwertbare Erkenntnisse liefern.

Chatbots und virtuelle Assistenten

Die Tokenisierung ermöglicht es Chatbots, Benutzereingaben zu verstehen und effektiv darauf zu reagieren. Ein Chatbot für den Kundenservice könnte zum Beispiel die Anfrage tokenisieren:

"I need to reset my password but can't find the link."

Das wird als Token dargestellt: ["I", "need", "to", "reset", "my", "password", "but", "can't", "find", "the", "link"].

Diese Aufschlüsselung hilft dem Chatbot, die Absicht des Nutzers zu erkennen ("Passwort zurücksetzen") und entsprechend zu reagieren, indem er z. B. einen Link oder Anweisungen bereitstellt.

Herausforderungen bei der Tokenisierung

Die Feinheiten der menschlichen Sprache mit ihren Nuancen und Zweideutigkeiten stellen die Tokenisierung vor besondere Herausforderungen. Im Folgenden werden einige dieser Hindernisse und die jüngsten Fortschritte, die sie überwinden, näher beleuchtet:

Zweideutigkeit

Sprache ist von Natur aus zweideutig. Denke an den Satz "Flugzeuge zu fliegen kann gefährlich sein". Je nachdem, wie man es umschreibt und interpretiert, könnte es bedeuten, dass das Steuern von Flugzeugen riskant ist oder dass Flugzeuge im Flug eine Gefahr darstellen. Solche Zweideutigkeiten können zu sehr unterschiedlichen Auslegungen führen.

Sprachen ohne klare Grenzen

In einigen Sprachen wie Chinesisch, Japanisch oder Thailändisch gibt es keine klaren Leerzeichen zwischen den Wörtern, was die Tokenisierung erschwert. Die Bestimmung, wo ein Wort endet und ein anderes beginnt, ist in diesen Sprachen eine große Herausforderung.

Um dieses Problem zu lösen, haben die Fortschritte bei mehrsprachigen Tokenisierungsmodellen große Fortschritte gemacht. Zum Beispiel:

XLM-R (Cross-lingual Language Model - RoBERTa) nutzt die Tokenisierung von Teilwörtern und ein umfangreiches Vortraining, um über 100 Sprachen effektiv zu behandeln, auch solche ohne klare Wortgrenzen.
mBERT (Multilingual BERT) nutzt die WordPiece-Tokenisierung und hat sich in einer Vielzahl von Sprachen bewährt, da es selbst in Sprachen mit geringen Ressourcen syntaktische und semantische Strukturen hervorragend versteht.

Diese Modelle sorgen nicht nur für eine effektive Tokenisierung von Text, sondern nutzen auch gemeinsame Unterwortvokabulare in verschiedenen Sprachen, um die Tokenisierung von Schriften zu verbessern, die normalerweise schwieriger zu verarbeiten sind.

Umgang mit Sonderzeichen

Texte enthalten oft mehr als nur Worte. E-Mail-Adressen, URLs oder spezielle Symbole können schwierig zu tokenisieren sein. Soll zum Beispiel"john.doe@email.com" als einzelnes Token behandelt werden oder am Punkt oder dem "@"-Symbol getrennt werden? Moderne Tokenisierungsmodelle enthalten jetzt Regeln und gelernte Muster, um eine einheitliche Behandlung solcher Fälle zu gewährleisten.

Tokenisierung implementieren

Die Landschaft der natürlichen Sprachverarbeitung bietet viele Tools, die jeweils auf bestimmte Bedürfnisse und Komplexitäten zugeschnitten sind. Hier findest du einen Leitfaden zu einigen der bekanntesten Tools und Methoden für die Tokenisierung:

NLTK (Natural Language Toolkit). NLTK, ein fester Bestandteil der NLP-Community, ist eine umfassende Python-Bibliothek, die eine Vielzahl von linguistischen Anforderungen erfüllt. Es bietet sowohl Wort- als auch Satz-Tokenisierungsfunktionen, was es zu einer vielseitigen Wahl für Anfänger und erfahrene Praktiker gleichermaßen macht.
Spacy. Eine moderne und effiziente Alternative zu NLTK ist Spacy, eine weitere Python-basierte NLP-Bibliothek. Es ist schnell und unterstützt mehrere Sprachen, was es zu einem Favoriten für umfangreiche Anwendungen macht.
BERT Tokenizer. Dieser Tokenizer, der aus dem vortrainierten BERT-Modell hervorgeht, zeichnet sich durch eine kontextbezogene Tokenisierung aus. Es kann sehr gut mit den Nuancen und Mehrdeutigkeiten von Sprache umgehen, was es zu einer ersten Wahl für fortgeschrittene NLP-Projekte macht (siehe dieses Tutorial über NLP mit BERT).
Fortgeschrittene Techniken.

Byte-Pair Encoding (BPE). BPE ist eine adaptive Tokenisierungsmethode, die auf den häufigsten Bytepaaren in einem Text basiert. Es ist besonders effektiv für Sprachen, die ihre Bedeutung durch die Kombination kleinerer Einheiten bilden.
SentencePiece. Ein unbeaufsichtigter Text-Tokenizer und Detokenizer hauptsächlich für Neuronale Netzwerk-basierte Textgenerierungsaufgaben. Es verarbeitet mehrere Sprachen mit einem einzigen Modell und kann Text in Teilwörter zerlegen, was es vielseitig für verschiedene NLP-Aufgaben einsetzbar macht.

Hugging Face Transformers

Die Hugging Face Transformers-Bibliothek ist eines der beliebtesten Tools für NLP-Aufgaben und lässt sich nahtlos in PyTorch integrieren, wodurch sie sich sowohl für die Forschung als auch für die Produktion eignet. Diese Bibliothek enthält fortschrittliche Tokenizer, die für die Arbeit mit modernen Transformatorenmodellen wie BERT, GPT und RoBERTa entwickelt wurden. Die wichtigsten Merkmale sind:

Schnelle Tokenizer: Diese Tokenizer wurden mit Rust entwickelt und bieten erhebliche Geschwindigkeitsverbesserungen, die eine schnellere Vorverarbeitung großer Datensätze ermöglichen.
Unterstützung für Subword-Tokenisierung: Die Bibliothek unterstützt Byte-Pair-Encoding (BPE), WordPiece und Unigram-Tokenization und sorgt so für einen effizienten Umgang mit Wörtern außerhalb des Vokabulars und komplexen Sprachen.
Eingebaute vortrainierte Tokenizer: Jedes Modell in der Hugging Face Transformers-Bibliothek wird mit einem entsprechenden vortrainierten Tokenizer geliefert, um Kompatibilität und Benutzerfreundlichkeit zu gewährleisten. Der BERT-Tokenizer zerlegt zum Beispiel Text in Teilwörter und ist damit in der Lage, mit sprachlichen Nuancen umzugehen.

Die Wahl deines Tools sollte sich an den spezifischen Anforderungen deines Projekts orientieren. Für diejenigen, die ihre ersten Schritte in NLP machen, bieten NLTK oder Spacy vielleicht eine einfachere Lernkurve. Für Projekte, die ein tieferes Verständnis von Kontext und Nuancen erfordern, sind die Hugging Face Transformers und der BERT Tokenizer jedoch eine gute Wahl.

Wie ich Tokenisierung für ein Bewertungsklassifizierungsprojekt verwendet habe

Meine ersten Erfahrungen mit der Text-Tokenisierung habe ich vor drei Jahren bei der Arbeit an einem Portfolio-Projekt gesammelt. Das Projekt umfasste einen Datensatz mit Benutzerrezensionen und -bewertungen, den ich zur Entwicklung eines Deep-Learning-Modells zur Textklassifizierung verwendete. Ich habe `word_tokenize` aus NLTK verwendet, um den Text zu bereinigen und `Tokenizer` aus Keras, um ihn vorzuverarbeiten.

Sehen wir uns an, wie ich Tokenizer in dem Projekt verwendet habe:

Bei der Arbeit mit NLP-Daten werden in der Regel Tokenizer verwendet, um den Textdatensatz zu verarbeiten und zu bereinigen. Ziel ist es, Stoppwörter, Interpunktion und andere irrelevante Informationen aus dem Text zu entfernen. Tokenizer verwandeln den Text in eine Liste von Wörtern, die mit einer Textbereinigungsfunktion bereinigt werden können.
Danach habe ich die Keras Tokenizer-Methode verwendet, um den Text in ein Array für die Analyse umzuwandeln und die Token für das Deep Learning-Modell vorzubereiten. In diesem Fall habe ich das bidirektionale LSTM-Modell verwendet, das die günstigsten Ergebnisse lieferte.
Als Nächstes habe ich die Token mit der Funktion "Texte_zu_Sequenzen" in eine Sequenz umgewandelt.
Bevor ich die Zahlenfolge an das Modell weitergegeben habe, musste ich Füllmaterial hinzufügen, damit die Zahlenfolge die gleiche Länge hat.
Schließlich teilte ich den Datensatz in einen Trainings- und einen Testdatensatz auf, trainierte das Modell auf dem Trainingsdatensatz und bewertete es auf dem Testdatensatz.

Der Tokenizer hat viele Vorteile im Bereich der natürlichen Sprachverarbeitung, wo er zur Bereinigung, Verarbeitung und Analyse von Textdaten eingesetzt wird. Die Konzentration auf die Textverarbeitung kann die Leistung des Modells verbessern.

Ich empfehle, den Kurs Einführung in die natürliche Sprachverarbeitung in Python zu besuchen, um mehr über die Vorverarbeitungstechniken zu erfahren und tief in die Welt der Tokenizer einzutauchen.

Willst du mehr über KI und maschinelles Lernen erfahren? Schau dir diese Ressourcen an:

Verdiene eine Top-KI-Zertifizierung

Zeige, dass du KI effektiv und verantwortungsbewusst einsetzen kannst.

Lass dich zertifizieren, stell dich ein

Was ist der Unterschied zwischen Wort- und Zeichen-Tokenisierung?

Warum ist Tokenisierung im NLP wichtig?

Kann ich mehrere Tokenisierungsmethoden für denselben Text verwenden?

Was sind die gängigsten Tools zur Tokenisierung im NLP?

Wie funktioniert die Tokenisierung bei Sprachen wie Chinesisch oder Japanisch, die keine Leerzeichen haben?

Wie hilft die Tokenisierung Suchmaschinen dabei, relevante Ergebnisse zu liefern?

Author

Abid Ali Awan

Als zertifizierter Data Scientist ist es meine Leidenschaft, modernste Technologien zu nutzen, um innovative Machine Learning-Anwendungen zu entwickeln. Mit meinem fundierten Hintergrund in den Bereichen Spracherkennung, Datenanalyse und Reporting, MLOps, KI und NLP habe ich meine Fähigkeiten bei der Entwicklung intelligenter Systeme verfeinert, die wirklich etwas bewirken können. Neben meinem technischen Fachwissen bin ich auch ein geschickter Kommunikator mit dem Talent, komplexe Konzepte in eine klare und prägnante Sprache zu fassen. Das hat dazu geführt, dass ich ein gefragter Blogger zum Thema Datenwissenschaft geworden bin und meine Erkenntnisse und Erfahrungen mit einer wachsenden Gemeinschaft von Datenexperten teile. Zurzeit konzentriere ich mich auf die Erstellung und Bearbeitung von Inhalten und arbeite mit großen Sprachmodellen, um aussagekräftige und ansprechende Inhalte zu entwickeln, die sowohl Unternehmen als auch Privatpersonen helfen, das Beste aus ihren Daten zu machen.

Themen

Künstliche Intelligenz

Maschinelles Lernen

Verwandt

Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!

Nisha Arya Ahmed

15 Min.

Mehr anzeigen Mehr anzeigen

KI-Upskilling für Einsteiger

Tokenisierung erklärt

Arten der Tokenisierung

Tokenisierung Anwendungsfälle

Suchmaschinen

Maschinelle Übersetzung

Spracherkennung

Stimmungsanalyse in Rezensionen

Chatbots und virtuelle Assistenten

Herausforderungen bei der Tokenisierung

Zweideutigkeit

Sprachen ohne klare Grenzen

Umgang mit Sonderzeichen

Tokenisierung implementieren

Hugging Face Transformers

Wie ich Tokenisierung für ein Bewertungsklassifizierungsprojekt verwendet habe

Verdiene eine Top-KI-Zertifizierung

FAQs

Kann ich mehrere Tokenisierungsmethoden für denselben Text verwenden?

Was sind die gängigsten Tools zur Tokenisierung im NLP?

Wie funktioniert die Tokenisierung bei Sprachen wie Chinesisch oder Japanisch, die keine Leerzeichen haben?

Wie hilft die Tokenisierung Suchmaschinen dabei, relevante Ergebnisse zu liefern?

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus