Direkt zum Inhalt

Kollaboratives Filtern: Dein Leitfaden für klügere Empfehlungen

Entdecke, wie kollaboratives Filtern Empfehlungssysteme im E-Commerce, Streaming und mehr unterstützt. Lerne ihre Arten, Vorteile, Herausforderungen und die Implementierung in Python kennen.
Aktualisierte 24. März 2025  · 10 Min. Lesezeit

In diesem Artikel erfährst du, was kollaboratives Filtern ist, wie es funktioniert, wie es in Python implementiert wird, welche Vorteile es hat, welche Herausforderungen es gibt und welche neuen Entwicklungen es gibt.

Bei meiner Arbeit mit Empfehlungssystemen habe ich festgestellt, dass kollaboratives Filtern besonders nützlich ist, um skalierbare und personalisierte Nutzererfahrungen zu schaffen. In diesem Artikel werde ich Einblicke und Techniken vorstellen, die ich für nützlich halte.

Was ist Collaborative Filtering?

Collaborative Filtering ist eine grundlegende Technik hinter modernen Empfehlungssystemen, die personalisierte Erlebnisse im E-Commerce, bei Streaming-Diensten und auf Social-Media-Plattformen ermöglicht, um das Nutzererlebnis durch personalisierte Empfehlungen zu verbessern.

Im Kern funktioniert es nach dem Prinzip, dass Nutzer/innen, die in der Vergangenheit ähnliche Vorlieben gezeigt haben, auch in Zukunft ähnliche Interessen haben werden. Ähnlich verhält es sich mit Artikeln, die von ähnlichen Nutzern bevorzugt werden. Mit anderen Worten:Kollaboratives Filtern beruht auf den Interaktionen der Nutzer/innen mit den Artikeln, um Empfehlungen zu generieren.

Wo Collaborative Filtering eingesetzt wird

Collaborative Filtering wird in vielen Bereichen eingesetzt, um das Nutzererlebnis zu personalisieren.

Im E-Commerce setzen Plattformen wie Amazon darauf, um Produkte auf der Grundlage der Kaufhistorie und des Surfverhaltens vorzuschlagen. Streaming-Dienste wie Netflix und Spotify empfehlen Inhalte, indem sie die Seh- oder Hörgewohnheiten ähnlicher Nutzer/innen analysieren. Auf Social-Media-Plattformen wie Facebook und TikTok ermöglicht sie Freundschaftsvorschläge und auf individuelle Interessen zugeschnittene Inhalte. Im Bildungsbereich nutzen Online-Lernplattformen wie Coursera und Udemy diese Technologie, um Kurse auf der Grundlage des Engagements und der Abschlussmuster der Lernenden zu empfehlen. Auch im Gesundheitswesen wird Collaborative Filtering eingesetzt, um personalisierte Behandlungsempfehlungen zu geben, indem Patientendaten mit ähnlichen historischen Fällen verglichen werden.

Collaborative Filtering vs. Inhaltsbasiertes Filtern

Es ist hilfreich, kollaboratives Filtern und inhaltsbasiertes Filtern zu vergleichen und zu sehen, wie die beiden in hybriden Systemen integriert werden können.

Die kollaborative Filterung empfiehlt Artikel, indem sie Muster im Nutzerverhalten erkennt, z. B. Bewertungen, Käufe oder Klicks. Es stützt sich ausschließlich auf vergangene Interaktionen und Ähnlichkeiten zwischen den Nutzern, um Vorhersagen zu treffen. Die inhaltsbasierte Filterung konzentriert sich mehr auf die Merkmale der Artikel selbst, wie z. B. Genres, Produktbeschreibungen oder Schlüsselwörter, um ähnliche Artikel zu empfehlen, die einem Nutzer zuvor gefallen haben.

Hybride Systeme bringen diese beiden Aspekte zusammen. Hybride Systeme sind dafür bekannt, dass sie die Genauigkeit verbessern, denn durch die Kombination von Verhaltensdaten mit Artikelattributen können sie Einschränkungen wie das Kaltstartproblem umgehen, bei dem neue Nutzer oder Artikel wenig bis gar keine historischen Daten haben.

Wie kollaboratives Filtern funktioniert

Beim kollaborativen Filtern werden Muster im Nutzerverhalten erkannt, um ähnliche Nutzer oder Artikel zu gruppieren und Empfehlungen zu erstellen.

Ein klassisches Beispiel

Wenn du zum Beispiel häufig Actionfilme auf Netflix streamst, kann das kollaborative Filtern andere Nutzer/innen mit ähnlichen Sehgewohnheiten identifizieren und dir Filme empfehlen, die diesen Nutzer/innen gefallen haben, die du aber noch nicht gesehen hast. Dieser Prozess spiegelt die Art und Weise wider, wie Freunde Inhalte auf der Grundlage gemeinsamer Interessen empfehlen: Sie nutzen die kollektiven Vorlieben der Nutzer und nicht die Eigenschaften der Artikel.

Eine einfache Tabelle, die das benutzerbasierte kollaborative Filtern zeigt. In der Tabelle haben zwei Benutzer (Benutzer A und Benutzer B) vier Filme bewertet. Benutzer A und Benutzer B haben ähnliche Bewertungen für Film 1 und Film 3 abgegeben. Da Nutzer B den Film 2 mit einer 4 bewertet hat, Nutzer A ihn aber noch nicht gesehen hat, empfiehlt das System Nutzer A den Film 2. Die Tabelle hebt ähnliche Bewertungen in blau und den empfohlenen Film in grün hervor

Zum Beispiel in der Tabelle oben:

  • Nutzer A und Nutzer B haben Film 1 und Film 3 ähnlich bewertet, was bedeutet, dass sie einen ähnlichen Geschmack haben.
  • Da Benutzer B Film 2 gesehen und gemocht hat (Bewertung: 4), aber Nutzer A hat ihn noch nicht gesehen, empfiehlt das System Nutzer A Film 2 - genauso wie Netflix Filme vorschlägt, die von Nutzern mit ähnlichen Sehgewohnheiten gesehen werden.

Dies spiegelt die Art und Weise wider, wie Freunde Inhalte auf der Grundlage gemeinsamer Interessen empfehlen, indem sie die Vorlieben ähnlicher Nutzer/innen nutzen, anstatt das Genre, den Regisseur oder andere Merkmale des Films zu analysieren.

Der Algorithmus zur kollaborativen Filterung

Algorithmen des kollaborativen Filterns erkennen und nutzen Muster in den Interaktionen zwischen Nutzern und Artikeln, um genaue Vorhersagen zu treffen. Schauen wir uns genauer an, wie diese Algorithmen technisch funktionieren.

Benutzer-Punkt-Matrix

Das System organisiert die Nutzerinteraktionen (Bewertungen, Klicks, Käufe) in einer Matrix. Die Matrix ist aufgrund der begrenzten Anzahl von Interaktionen oft spärlich. In der Regel ist diese Matrix aufgrund begrenzter Interaktionen spärlich - viele Nutzerinnen und Nutzer beschäftigen sich nur mit einem kleinen Teil der verfügbaren Artikel. Die effektive Verwaltung und Interpretation dieser spärlichen Daten ist der Schlüssel zu genauen Empfehlungen. "Ähnlichkeitsindex" ist ein Begriff, den ich sehe.

Ähnlichkeitsmaße

Ähnlichkeitsmaße helfen dabei zu quantifizieren, wie ähnlich sich Nutzer oder Gegenstände sind. Häufig verwendete Methoden sind:

  1. Kosinusähnlichkeit: Misst den Kosinus des Winkels zwischen zwei Vektoren in einem mehrdimensionalen Raum. Die Cosinus-Ähnlichkeit ist besonders nützlich für spärliche Daten, da sie Beziehungen auf der Grundlage von Interaktionsmustern und nicht von absoluten Werten erfasst. 
  2. Pearson-Korrelation: Misst die lineare Korrelation zwischen Nutzer- oder Objektbewertungen. Es ist erwähnenswert, dass diese Kennzahl in der Regel verwendet wird, wenn die Bewertungsmuster der Nutzer/innen um den Mittelwert bereinigt werden, da sie alle Verzerrungen beseitigt, die entstehen können, wenn verschiedene Nutzer/innen unterschiedliche Bewertungsgrundlagen haben. 

Arten der kollaborativen Filterung

Die Techniken des kollaborativen Filterns lassen sich grob in speicherbasierte und modellbasierte Ansätze unterteilen. Beide haben ihre Stärken, und wenn du beide verstehst, bekommst du einen Einblick, wie moderne Empfehlungssysteme aufgebaut sind.

Speicherbasierte Ansätze 

Bei diesen Ansätzen werden die Ähnlichkeiten direkt aus den Interaktionen zwischen Nutzer und Artikel berechnet:

  • Benutzerbasierte Filterung: Identifiziert Nutzer mit ähnlichem Verhalten und empfiehlt Artikel, die ihnen gefallen haben.
  • Item-basierte Filterung: Empfiehlt Artikel auf der Grundlage der Ähnlichkeit mit den Artikeln, die der/die Nutzer/in zuvor gemocht hat. Diese Methode ist besser skalierbar, da die Gegenstände in der Regel stabilere Interaktionsmuster haben als die Nutzer.

Modellbasierte Ansätze 

Diese Methoden nutzen maschinelles Lernen, um die Genauigkeit der Empfehlungen zu verbessern:

  • Matrixfaktorisierung: Reduziert die Dimensionalität der User-Item-Matrix, um versteckte Muster aufzudecken (z. B. Singular Value Decomposition).
  • Neuronale Netze: Erfassen komplexer Muster im Nutzerverhalten für präzisere Empfehlungen (z. B. Neural Collaborative Filtering). 

Sowohl speicher- als auch modellbasierte Methoden ergänzen sich, und viele moderne Systeme integrieren sie in hybriden Ansätzen, um ihre kombinierten Stärken zu nutzen.

Kollaborative Filterung in Python

Um besser zu verstehen, wie kollaboratives Filtern funktioniert, wollen wir ein itembasiertes Empfehlungssystem mit Python implementieren. In diesem Beispiel wird eine Matrix aus Benutzern und Artikeln erstellt, die Ähnlichkeit der Artikel mit Hilfe der Cosinus-Ähnlichkeit berechnet und Empfehlungen auf der Grundlage des Benutzerverhaltens erstellt.

import pandas as pd
from sklearn.metrics.pairwise import cosine_similarity
# Sample user-item interaction data
collab_filtered_data = {
	'User': ['Alice', 'Alice', 'Bob', 'Bob', 'Carol', 'Carol', 'Dave', 'Dave'],
	'Item': ['Item1', 'Item2', 'Item1', 'Item3', 'Item2', 'Item3', 'Item1', 'Item2'],
	'Rating': [5, 3, 4, 2, 4, 5, 2, 5]
}

collab_f_df = pd.DataFrame(collab_filtered_data)

# Create user-item matrix
user_item_matrix = collab_f_df.pivot_table(index='User', columns='Item', values='Rating', fill_value=0)

# Compute item similarity using cosine similarity
item_similarity = cosine_similarity(user_item_matrix.T)
item_similarity_df = pd.DataFrame(item_similarity, index=user_item_matrix.columns, columns=user_item_matrix.columns)

# Recommend items similar to 'Item1'
def recommend_similar_items(item, similarity_df, top_n=3):
	return similarity_df[item].sort_values(ascending=False)[1:top_n+1]

# Example recommendation
similar_items = recommend_similar_items('Item1', item_similarity_df)
print("Items similar to Item1:", similar_items)
Items similar to Item1: Item
Item2    0.527046
Item3    0.221455
Name: Item1, dtype: float64

Vorteile und Herausforderungen des kollaborativen Filterns

Einige der Vorteile sind:

  • Personalisierung: Ermöglicht personalisierte Empfehlungen, ohne dass Metadaten zum Artikel benötigt werden. 
  • Serendipitous Empfehlungen: Identifiziert versteckte Muster, die über die direkte Ähnlichkeit der Gegenstände hinausgehen.
  • Domain Independence: Die kollaborative Filterung hängt nicht von detaillierten Metadaten ab, was sie für verschiedene Branchen anpassbar macht

Einige der Herausforderungen sind:

  • Kalt Start Problem: Schwierigkeiten bei der Empfehlung von Artikeln für neue Nutzer mit begrenzten Daten 
  • Daten Sparsamkeit: Große User-Item-Matrizen enthalten oft viele fehlende Werte 
  • Skalierbarkeit Themen: Die Leistung kann abnehmen, wenn die Anzahl der Nutzer und Gegenstände steigt.

Jüngste Entwicklungen und Innovationen

In den letzten Jahren hat sich das kollaborative Filtern dank neuer KI-Technologien und hybrider Ansätze deutlich weiterentwickelt. Im Folgenden werden einige der wichtigsten Innovationen vorgestellt, die die Zukunft der Empfehlungssysteme prägen.

Hybride Empfehlungssysteme

Hybride Empfehlungssysteme kombinieren kollaboratives Filtern und inhaltsbasiertes Filtern, um die Genauigkeit zu erhöhen und die Grenzen jedes einzelnen Ansatzes zu überwinden. Durch die Verknüpfung von Nutzerinteraktionsmustern mit Artikelattributen bieten diese Systeme robustere Empfehlungen und bewältigen gängige Probleme wie Kaltstartprobleme und spärliche Daten.

Deep Learning für Empfehlungen

Die Fortschritte im Deep Learning haben das kollaborative Filtern deutlich verbessert, da die Modelle komplexe, nicht-lineare Beziehungen in den Interaktionen zwischen Nutzer und Artikel erfassen können. Techniken wie Neural Collaborative Filtering und Autoencoder-basierte Methoden nutzen neuronale Netze, um komplexe Verhaltensmuster aufzudecken, was zu genaueren und personalisierten Empfehlungen führt.

Kontextabhängige Filterung

Die kontextbezogene kollaborative Filterung geht über die traditionelle Interaktion zwischen Nutzer und Artikel hinaus, indem sie kontextbezogene Informationen wie Tageszeit, Standort, Gerätetyp oder Aktivitätsstatus des Nutzers in den Empfehlungsprozess einbezieht. Das Ergebnis sind Empfehlungen, die nicht nur personalisiert, sondern auch für den unmittelbaren Kontext des Nutzers relevant sind, was das Nutzererlebnis und das Engagement weiter verbessert.

Verstärkungslernen

Reinforcement Learning optimiert die Empfehlungen dynamisch auf der Grundlage von Nutzerinteraktionen und Feedback in Echtzeit. Indem sie kontinuierlich aus den Antworten der Nutzer/innen lernen und sich anpassen, verbessern auf Reinforcement Learning basierende Empfehlungssysteme die Personalisierung und das Engagement.

Abschließende Überlegungen zur kollaborativen Filterung

Die kollaborative Filterung bleibt ein Eckpfeiler moderner Empfehlungssysteme. Auch wenn es Herausforderungen wie Kaltstart und spärliche Daten gibt, verbessern die Fortschritte bei hybriden Modellen und maschinellem Lernen die Effektivität weiter. Mit der Weiterentwicklung von Empfehlungssystemen wird das kollaborative Filtern in allen Branchen ein wichtiger Treiber für personalisierte digitale Erlebnisse bleiben. Als nächsten Schritt solltest du unseren Kurs Building Recommendation Engines in Python besuchen, um zu lernen, wie man mit Sparsamkeit umgeht und wie man mit SVD und anderen interessanten Dingen Empfehlungen erstellt.


Arun Prem Sanker's photo
Author
Arun Prem Sanker
LinkedIn

Arun hat 12 Jahre Erfahrung als Datenwissenschaftler, mit Spezialisierung auf die Analyse von Produktdaten. Bei Stripe konzentriert sich seine Arbeit auf die Förderung des Produktwachstums durch Experimente, prädiktive Modellierung mit ML und fortschrittliche Analytik. Zuvor war Arun ein Data Scientist bei Amazon und ein Decision Scientist bei Mu Sigma. Arun hat einen MS in Analytics von Georgia Tech und einen Bachelor vom NIT Calicut.

FAQs

Was ist kollaboratives Filtern in Empfehlungssystemen?

Die kollaborative Filterung ist eine Technik, die die Präferenzen der Nutzer/innen auf der Grundlage früherer Interaktionen und Ähnlichkeiten zwischen Nutzer/innen oder Gegenständen vorhersagt und häufig in Empfehlungssystemen eingesetzt wird.

Wie unterscheidet sich das kollaborative Filtern vom inhaltsbasierten Filtern?

Die kollaborative Filterung beruht auf Nutzerinteraktionen, während die inhaltsbasierte Filterung Artikel auf der Grundlage von Artikelattributen wie Schlüsselwörtern, Genre oder Beschreibung empfiehlt.

Was sind die größten Herausforderungen beim kollaborativen Filtern?

Zu den Herausforderungen gehören das Problem des Kaltstarts (fehlende Daten für neue Nutzer/innen/Einträge), die geringe Datenmenge (wenige Interaktionen pro Nutzer/in/Eintrag) und Skalierbarkeitsprobleme bei großen Datensätzen.

Was ist der Unterschied zwischen benutzerbasiertem und objektbasiertem Collaborative Filtering?

Die benutzerbasierte Filterung findet ähnliche Nutzer und empfiehlt Artikel, die ihnen gefallen haben, während die artikelbasierte Filterung Artikel empfiehlt, die denen ähneln, mit denen sich ein Nutzer bereits beschäftigt hat.

Wie kann ich kollaboratives Filtern in Python implementieren?

Du kannst es mit Bibliotheken wie Pandas und Scikit-learn implementieren, indem du eine Matrix aus Nutzer/innen und Artikeln erstellst, Ähnlichkeiten berechnest (z. B. Cosinus-Ähnlichkeit) und anhand der Ähnlichkeitswerte Empfehlungen generierst.

Was hat das kollaborative Filtern mit Empfehlungssystemen zu tun?

Kollaboratives Filtern ist eine grundlegende Technik in modernen Empfehlungssystemen und bildet das Rückgrat vieler personalisierter Online-Erlebnisse. Diese Systeme sagen auf der Grundlage früherer Interaktionen voraus, was einem Nutzer gefallen könnte, indem sie Ähnlichkeiten zwischen Nutzern oder Gegenständen nutzen. Durch die Nutzung kollektiver Nutzererkenntnisse ermöglicht das kollaborative Filtern eine Personalisierung, die das Engagement und die Kundenbindung verbessert.

Themen

Lernen mit DataCamp

Kurs

Understanding Data Science

2 Std.
758.5K
An introduction to data science with no coding involved.
Siehe DetailsRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Der Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

15 Min.

Der Blog

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interviewfragen, zusammen mit Fragen, die auf realen Situationen basieren.
Zoumana Keita 's photo

Zoumana Keita

15 Min.

Der Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

4 Min.

Der Blog

Top 30 Generative KI Interview Fragen und Antworten für 2024

Dieser Blog bietet eine umfassende Sammlung von Fragen und Antworten zu generativen KI-Interviews, die von grundlegenden Konzepten bis hin zu fortgeschrittenen Themen reichen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Der Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

8 Min.

Mehr anzeigenMehr anzeigen