Was ist Fraud Analytics? Techniken, Arbeitsabläufe und Werkzeuge

Erfahre mehr über Betrugsanalysetechniken, Arbeitsabläufe und Tools, die Unternehmen dabei helfen, betrügerische Aktivitäten in Echtzeit und branchenübergreifend aufzudecken und zu verhindern.

Aktualisiert 13. Okt. 2024 · 15 Min. lesen

Ein gesundes Wirtschaftssystem beruht auf dem Vertrauen zwischen Käufern und Verkäufern von Waren und Dienstleistungen. Wenn dieses Vertrauen gebrochen ist, steigen die Kosten für die Geschäftsabwicklung. Unehrliche Akteure führen betrügerische Transaktionen durch, um Unternehmen zu betrügen. Es gibt auch ausgeklügelte Gruppen von Betrügern, die es auf bestimmte Branchen abgesehen haben.

In diesem Artikel gehen wir auf verschiedene Arten von Betrug ein, die durch Analysen aufgedeckt werden, und auf die Techniken, die zur Aufdeckung von Betrug verwendet werden. Wir behandeln auch typische Arbeitsabläufe bei der Betrugsaufdeckung und die Software-Tools, die üblicherweise für die Betrugsanalyse verwendet werden.

Was ist Fraud Analytics?

Betrugsanalyse bezieht sich auf statistische und maschinelle Lernverfahren, um potenziell betrügerische Transaktionen zu identifizieren und zu kennzeichnen, meist in Echtzeit.

Die Aufdeckung von betrügerischen Aktivitäten ist eine Herausforderung, denn:

Betrüger nutzen verschiedene Techniken, um ihre Transaktionen als legitim zu tarnen. Der Verkäufer braucht also technische und statistische Hilfsmittel, um potenziell betrügerische Transaktionen zu erkennen.
Betrügerische Transaktionen machen nur einen kleinen Prozentsatz der gesamten Transaktionen aus. Daher ist ein automatisierter Ansatz notwendig, um potenziell unehrliche Transaktionen zu erkennen.

Unternehmen müssen Betrugsaufdeckungstools verwenden, die diese Funktionen beinhalten. Diese Tools zeigen Transaktionen an, die mit hoher Wahrscheinlichkeit betrügerisch sind. Menschliche Ermittler untersuchen dann manuell die markierten Transaktionen und treffen die endgültige Entscheidung.

Die Aufdeckung von potenziellem Betrug besteht darin, Verhaltensweisen zu entdecken, die:

Übereinstimmungen mit bekannten betrügerischen Aktivitäten.
Weicht deutlich vom Normalbereich ab.

Befähige dein Team mit Datenanalyse-Expertise

Ermögliche datengesteuerte Entscheidungen mit DataCamp for Business. Umfassende Kurse, Aufgaben und Leistungsnachweise, die auf dein Team von 2 oder mehr Personen zugeschnitten sind.

Fordere noch heute eine Demo an!

Häufige Arten von Betrug, die durch Analysen aufgedeckt werden

In diesem Abschnitt gehen wir auf die großen Kategorien betrügerischer Transaktionen ein, erörtern gängige Betrugsbeispiele innerhalb jeder Kategorie und zeigen, wie man Analysetools einsetzt, um sie aufzudecken und zu verhindern.

Finanzieller Betrug

Finanzbetrug ist vielleicht die bekannteste und am weitesten verbreitete Form des Betrugs. Die Opfer sind in der Regel Finanzinstitute und deren Kunden. Bei den Tätern handelt es sich meist um Betrüger, die sich als Kunden oder Vertreter von Finanzinstituten ausgeben.

Kreditkartenbetrug ist die unbefugte Verwendung einer Karte, um Waren zu kaufen oder Geld an einem Geldautomaten abzuheben. In den meisten Fällen wird dies mit gestohlenen Kartendaten gemacht. Betrugsanalysen können dabei helfen, Kartenbetrug aufzudecken, indem sie nach häufigen Mustern suchen, wie z. B.:

Plötzliche Ausschläge in der Häufigkeit und im Volumen der Transaktionen.
Aufeinanderfolgende Transaktionen an mehreren Standorten.

Identitätsdiebstahl liegt vor, wenn die persönlichen Daten einer Person (z. B. Bankkontonummern, staatliche Ausweisnummern, E-Mail-Passwörter usw.) gestohlen werden. Diese Informationen können dazu verwendet werden, sich als die betreffende Person auszugeben, um Kredite aufzunehmen, Überziehungskredite zu eröffnen und andere große Finanztransaktionen zu tätigen. Die Betrugsanalyse hilft in solchen Situationen, indem sie verdächtiges Verhalten wie z.B.:

Mehrere Konten in kurzer Zeit eröffnen.
Abweichung vom bekannten Verhalten der Person in der Vergangenheit.

Zahlungsbetrug ist der Einsatz betrügerischer Mittel, um eine Person oder ein Unternehmen zu überzeugen, eine Zahlung für etwas zu leisten, das sie nicht kaufen. Es beinhaltet:

Versenden von gefälschten Rechnungen an Unternehmen.
Versenden von gefälschten Multifaktor-Authentifizierungsnachrichten zur Bestätigung einer ausstehenden Zahlung.
Sich als Bankangestellte ausgeben, um vertrauliche Kontodaten zu erhalten.

Analysen können bei Zahlungsbetrug helfen, indem sie Transaktionen überwachen und markieren, die:

erheblich vom üblichen Verhalten und der Zahlungsaktivität des Kontos abweichen.
Sie stammen von verdächtigen IP-Adressen und Geräte-IDs.

Versicherungsbetrug

Der Versicherungsbetrug besteht darin, hohe Auszahlungen für geringfügige Vorfälle zu fordern und geringe Prämien für riskante Policen zu zahlen. Das Opfer ist in der Regel die Versicherungsgesellschaft, während die Täter vorgeben, Kunden oder Versicherungsagenten zu sein.

Bei betrügerischen Ansprüchen geht es um Unfälle, die nie passiert sind. Um solche Ansprüche zu erkennen, gibt es Analysetools:

Überprüfe gemeldete Vorfälle, wie Naturkatastrophen oder Verkehrsunfälle, mit anderen Quellen, um den Wahrheitsgehalt der Meldung zu verifizieren.
Analysiere die Muster in den Forderungen, die von bestimmten Personen oder an bestimmten Orten gestellt werden.

Überhöhte Schadenersatzforderungen übertreiben den entstandenen Schaden und die geforderte Versicherungsleistung bei kleineren Vorfällen. Betrugsanalysetools können dabei helfen, überhöhte Forderungen einzudämmen:

Schätzung typischer Schadensbeträge für verschiedene Unfalltypen auf der Grundlage historischer Daten.
Abgleich des gemeldeten Unfalls mit typischen Schadenssummen für diese Art von Unfall.

Versicherungssachverständige überprüfen potenziell überhöhte Ansprüche manuell.

Bei der Prämienhinterziehung werden der Versicherungsgesellschaft falsche Angaben gemacht, um das Risikoprofil künstlich zu verringern und niedrigere Prämien für eine bestimmte Police zu zahlen. Betrugsanalysetools können dabei helfen:

Überprüfe die im Antrag gemachten Angaben anhand anderer Quellen.
Erkenne häufige Muster, die bei der Prämienumgehung verwendet werden. Wenn zum Beispiel ein Fahrzeugmodell, das üblicherweise für gewerbliche Aktivitäten genutzt wird, für die private Nutzung versichert ist, wird es von den Analysetools für weitere Untersuchungen markiert.

Gefälschte Policen sind gefälschte Policen, die von Betrügern erstellt und verkauft werden, die sich als Versicherungsagenten ausgeben. Der Kunde erfährt es, wenn er eine Reklamation einreichen will. Betrugsanalysesoftware erkennt gefälschte Policen durch:

Abgleich der im System gespeicherten Policenangaben mit den Angaben des Kunden.

Versicherungsunternehmen sind auch der Gesellschaft gegenüber verpflichtet, Muster von gefälschten Policen, die in ihrem Namen ausgestellt wurden, zu erkennen. Die Vorlage dieser Analysen bei den Strafverfolgungsbehörden hilft dabei, gefälschte Policen aufzudecken.

Betrug im Gesundheitswesen

Betrug im Gesundheitswesen kann in jedem Bereich des Gesundheitssystems vorkommen, auch bei den öffentlichen Krankenversicherungen. Das Opfer ist der Zahler, der aus einer oder mehreren Gruppen bestehen kann:

Der Patient
Der Arbeitgeber des Patienten im Rahmen einer Zuzahlungsregelung
Die Regierung in öffentlich finanzierten Gesundheitssystemen
Die Versicherungsgesellschaft

Die Schuldigen sind oft Gesundheitsdienstleister oder Patienten. Betrug im Gesundheitswesen wird in der Regel durch falsche Abrechnungen begangen, z. B. durch die Abrechnung von nicht erbrachten Leistungen und Upcoding.

Abrechnung von nicht erbrachten Leistungen bezeichnet die Abrechnung von Leistungen (wie Tests und Behandlungen), die nicht am Patienten durchgeführt wurden, mit den Kostenträgern. Um diese Art von Betrug aufzudecken, können Analysetools:

Nutze die Mustererkennung, um Rechnungen mit Beträgen und Positionen zu vergleichen, die von Branchenkollegen für ähnliche Beschwerden in Rechnung gestellt werden.
Vergleiche die abgerechneten Leistungen mit den Leistungsprotokollen des Gesundheitsdienstleisters und den Behandlungsunterlagen des Patienten.
Identifiziere Anbieter mit ungewöhnlich hohen Rechnungsbeträgen und nimm ihre Anträge genau unter die Lupe.

Upcoding bezeichnet das Fehlverhalten, eine teurere Leistungskategorie abzurechnen als erbracht wurde. Betrugsanalysetools verwenden verschiedene Methoden, um Upcoding zu erkennen, z. B:

Statistische Analyse zum Vergleich des Verhältnisses von Routinetests und teuren Tests (oder Behandlungen) mit den Branchenstandards. Zum Beispiel ist ein Anbieter, der hauptsächlich erweiterte und nur wenige regelmäßige Kontrolluntersuchungen abrechnet, verdächtig.
Der Vergleich der Rechnungen mit den Patienten- und Krankenhausunterlagen enthält in der Regel Details zu dem durchgeführten Verfahren oder Test.
Vergleich der abgerechneten Beträge mit den historischen Daten des Anbieters, um plötzliche Erhöhungen in bestimmten upcodierten Kategorien festzustellen.

Betrug im E-Commerce und im Einzelhandel

Viele E-Commerce-Verkäufer/innen sind kleine und mittlere Unternehmen, die nicht unbedingt technikaffin sind. Es liegt also in der Verantwortung der E-Commerce-Plattformen, betrügerische Aktivitäten zu erkennen und zu unterbinden. Betrug im E-Commerce und im Einzelhandel kann in verschiedenen Formen auftreten:

Kontoübernahmen beziehen sich darauf, dass ein/e Nutzer/in die Kontrolle über sein/ihr Konto an Betrüger/innen verliert, die dieses missbrauchen, indem sie unberechtigte Einkäufe tätigen. Dies geschieht meist aufgrund von Benutzerfehlern oder Unachtsamkeit in Bezug auf Sicherheitsaspekte wie Passwörter und Phishing-Betrug.

E-Commerce-Plattformen können Kontoübernahmen mit Techniken wie diesen erkennen:

Verhaltensanalyse, um Abweichungen vom typischen Verhalten zu überprüfen, z. B. Login-Zeiten, Kaufkategorien, Browserverlauf usw.
Anomale Aktivitäten (z. B. mehrere fehlgeschlagene Anmeldeversuche) in Verbindung mit Änderungen der Kontoeinstellungen (wie E-Mail-IDs und Lieferadressen).

Gefälschte Rücksendungen treten auf, wenn böswillige Akteure Artikel zurücksenden, die sich vom gekauften Artikel unterscheiden, z. B. wenn sie einen teuren Artikel bestellen und eine Fälschung zurückschicken. Dazu gehört auch die Rückgabe gebrauchter Produkte, die nicht weiterverkauft werden können. Zum Schutz vor gefälschten Rücksendungen kann die Betrugsanalyse:

Analysiere das Rückgabeverhalten, um Käufer zu identifizieren, die häufig Artikel zurückgeben.
Vergleiche den Originalkauf, um zu überprüfen, ob der zurückgegebene Artikel mit dem gekauften identisch ist.
Vergewissere dich, dass der zurückgegebene Artikel in unbenutztem Zustand ist.

Betrügerische Einkäufe beinhalten nicht autorisierte Transaktionen mit gestohlenen oder gefälschten Zahlungsinformationen und kompromittierten Konten. Sie können sowohl für Verkäufer als auch für ahnungslose Käufer zu Verlusten führen. Betrugsanalysen können dabei helfen, potenziell betrügerische Einkäufe zu erkennen, indem sie Transaktionen überwachen, um Muster wie diese zu identifizieren:

Häufige Anmeldungen von mehreren Konten werden über dieselbe IP-Adresse vorgenommen.
Verschiedene Kreditkartennummern in schneller Folge ausprobieren.
Ungewöhnlich große Einkäufe, wenn man die Geschichte des Kontos betrachtet.

Beim Rückbuchungsbetrug wird die Rückbuchungsrichtlinie der Kreditkarte missbraucht, um Rückerstattungen für rechtmäßige Einkäufe zu fordern. Betrugsanalysen können helfen, sich vor Rückbuchungsbetrug zu schützen, indem sie eingesetzt werden:

Mustererkennung zur Identifizierung von Nutzern, die häufig Rückbuchungen vornehmen.
Maschinelles Lernen, um verdächtiges Verhalten zu erkennen, wie z.B. mehrere Käufe in schneller Folge, insbesondere bei neuen Konten und kürzlich aktualisierten Zahlungsdaten.

Techniken der Betrugsanalyse

Betrugsanalysetools verwenden eine gemeinsame Palette von Techniken, indem sie an unterschiedliche Kontexte, Datensätze und Verhaltensweisen von Betrügern in diesem Bereich angepasst werden.

Alle Methoden zur Betrugsanalyse haben zwei Hauptziele:

Betrug aufdecken und verhindern
Erleichtere echte Kunden

Erkennung von Anomalien

Betrüger zeigen oft ein deutlich anderes Verhalten als legitime Kunden. Die Anomalieerkennung hilft dabei, ungewöhnliche Verhaltensweisen zu erkennen, die auf potenziell betrügerische Aktivitäten hindeuten. Sie umfasst eine Reihe von Methoden:

Die statistische Ausreißererkennung hilft dabei, Datenpunkte zu identifizieren, die sich deutlich vom Rest der Verteilung unterscheiden. Verdächtiges Verhalten wird oft durch Ausreißer in verschiedenen Kennzahlen angezeigt, wie z. B.:
- Die Häufigkeit der Transaktionen pro Stunde.
- Die Anzahl der Postleitzahlen, bei denen eine Karte an einem Tag durchgestrichen wird.
Isolationswälder bestehen aus mehreren Isolationsbäumen. Jeder Isolationsbaum funktioniert wie folgt:
- Wähle zufällig ein Attribut der Daten aus und verteile die Datenpunkte zufällig nach dem Wert dieses Attributs.
- Wähle für jede Partition ein anderes zufälliges Attribut und unterteile sie weiter.
- Dieser Prozess wird iterativ fortgesetzt, bis jeder Datenpunkt in eine Partition mit nur diesem Punkt isoliert ist.
- Es ist zu beobachten, dass anomale Punkte mit Extremwerten in weniger Iterationen isoliert (in einzelne Partitionen) werden als normale Datenpunkte.
Lokaler Ausreißerfaktor ist eine Methode zur Identifizierung von anomalem Verhalten durch die Berechnung der Dichte von Punkten in verschiedenen Bereichen der Verteilung.
- Wenn ein Datensatz zum Kundenverhalten grafisch dargestellt wird, bildet er dichte Cluster, die jeweils einer Kundengruppe entsprechen.
- Jeder Datenpunkt (Kunde) in einem Cluster weist ein ähnliches, aber nicht identisches Verhalten auf. Es wird oft beobachtet, dass betrügerische Daten ebenfalls einen Cluster bilden, der von den Clustern der normalen Kunden getrennt ist.

Schau dir den Kurs "Anomaly Detection in Python " an, um diese Technik besser zu verstehen.

Illustration der Anomalieerkennung. Bildquelle: KI verstehen

Überwachtes maschinelles Lernen

Überwachtes maschinelles Lernen ist eine bewährte Methode zur Aufdeckung von Anomalien. Menschen kennzeichnen Datensätze auf der Grundlage bekannter Fälle von betrügerischem Verhalten in der Vergangenheit. Die Algorithmen des maschinellen Lernens werden dann auf markierten Datensätzen trainiert, um die Wahrscheinlichkeit einer neuen Transaktion als betrügerisch einzustufen.

Logistische Regression Die logistische Regression sagt die Wahrscheinlichkeit voraus, dass ein Datenpunkt zu einer von zwei Gruppen gehört, z. B. zu einer echten und einer potenziell betrügerischen.

Jeder Punkt im Trainingsdatensatz wird entweder als betrügerisch oder als echt gekennzeichnet.
Während des Trainings lernt das Modell Muster in den Merkmalen, die auf betrügerische Transaktionen hinweisen.
Wenn neue Daten vorliegen, kann das Modell vorhersagen, wie wahrscheinlich es ist, dass der Datenpunkt betrügerisch ist.

Entscheidungsbäume teilen den Datensatz rekursiv in Teilmengen auf. Jeder Knotenpunkt teilt die Datenpunkte nach den Werten eines bestimmten Attributs (z. B. Transaktionshäufigkeit oder monatliches Transaktionsvolumen) in zwei Zweige auf.

Nach einer Reihe solcher Teilungen endet jeder Zweig in zwei Blattknoten - betrügerisch und echt.
Während des Trainings lernt das Modell die Regeln für jeden Knoten, um den Datensatz aufzuteilen.
Das Modell klassifiziert jede neue Transaktion nach diesen Regeln und sagt voraus, ob sie wahrscheinlich betrügerisch oder echt ist.

Zufallswälder bestehen aus mehreren Entscheidungsbäumen. Ein Entscheidungsbaum wendet eine Reihe von if...else Bedingungen an, um zu entscheiden, ob eine Transaktion betrügerisch ist. Diese if... else-Bedingungen basieren auf den Merkmalen des Datensatzes .

Jeder Baum in einem Random Forest wird unabhängig voneinander trainiert, um eine zufällige Untergruppe von Merkmalen zu verwenden, um betrügerische Transaktionen vorherzusagen.
Die Vorhersage des Waldes basiert auf der Aggregation der Ergebnisse aller einzelnen Bäume.
Dieser Ansatz vermeidet das Problem der Überanpassung, das bei Entscheidungsbäumen häufig auftritt, indem Teilmengen der Merkmalsmenge berücksichtigt werden.

Animierte Illustration der Funktionsweise von Entscheidungsbäumen. Bildquelle: Überwachtes maschinelles Lernen

Schau dir den Kurs Supervised Machine Learning in Python an, um mehr über diese Techniken zu erfahren.

Unüberwachtes maschinelles Lernen

Überwachte Algorithmen des maschinellen Lernens, die Vorhersagen auf der Grundlage früheren Verhaltens treffen, werden immer weniger effektiv, wenn Betrüger neue Methoden anwenden.

Unüberwachtes maschinelles Lernen ist hilfreich bei der Vorhersage unbekannter Muster in den Daten. Ein weiterer Vorteil der unüberwachten Methoden ist, dass du keine personellen Ressourcen aufwenden musst, um große Datensätze zu beschriften. Der Algorithmus erkennt selbständig Muster.

K-Mittel-Clustering gruppiert den gesamten Transaktionsdatensatz in verschiedene Cluster, die auf den Werten der Datenpunkte und den verschiedenen Attributen basieren.

Die Datenpunkte in den einzelnen Clustern haben ähnliche Eigenschaften, wie z.B. die Transaktionshäufigkeit. Es wird beobachtet, dass betrügerische Transaktionen in keine der anderen Hauptgruppen fallen.
Optisch sind sie meist weit von den anderen Clustern entfernt. Durch die Analyse dieser Ausreißer-Cluster können potenziell betrügerische Transaktionen identifiziert werden.

Beim Density-based Spatial Clustering of Applications with Noise (DBSCAN) geht es darum, Transaktionsdatensätze in einem Merkmalsraum darzustellen. In dieser Darstellung werden die Datenpunkte in Regionen mit hoher und niedriger Dichte aufgeteilt.

Regionen mit höherer Dichte werden als Cluster bezeichnet, und spärliche Regionen werden als Ausreißer betrachtet.
Datenpunkte, die in spärliche Regionen fallen, werden als potenziell betrügerisch gekennzeichnet. Diese werden dann auf weitere Hinweise auf verdächtige Aktivitäten analysiert.

So funktioniert Clustering. Bildquelle: Clustering beim maschinellen Lernen

Schau dir den Artikel Unüberwachtes Lernen in Python an, um mehr über die genannten Techniken zu erfahren.

Netzwerkanalyse

Herkömmliche Methoden der Betrugserkennung durch Musterabgleich für verdächtiges Verhalten sind für einzelne Konten wirksam. Allerdings agieren Betrüger oft als Gruppen von Einzelpersonen, die eine Reihe von Geräten, E-Mail-Konten und physischen Adressen nutzen, was es schwierig macht, verdächtiges Verhalten zu verfolgen, wenn ein Konto isoliert betrachtet wird.

Betrugsringe sind Gruppen von Einzelpersonen, die koordinierte Angriffe durchführen. Zum Beispiel könnten Ringmitglieder zehn verschiedene Geräte und IP-Adressen verwenden, um zehn aufeinanderfolgende Transaktionen durchzuführen. Die Netzwerkanalyse kann Beziehungen zwischen verschiedenen Entitäten aufdecken, um Entity Relationship Maps zu erstellen und Betrugsringe zu identifizieren.
Entity-Relationship-Maps sind graphenähnliche Strukturen, bei denen die Knoten Entitäten und die Kanten ihre Beziehungen darstellen. Entitäten können Personen, Konten, E-Mail-IDs, Geräte-IDs, IP-Adressen, physische Adressen und mehr sein. Beziehungen zwischen Entitäten bezeichnen Gemeinsamkeiten oder ähnliches Verhalten, wie z. B.:
- Verschiedene IP-Adressen, die die gleichen gestohlenen Zahlungsdaten verwenden.
- Verschiedene Konten, die betrügerische Bestellungen an dieselbe physische Adresse schicken.

Im Kurs Einführung in die Netzwerkanalyse mit Python erfährst du mehr über diese Techniken.

Text Mining und natürliche Sprachverarbeitung (NLP)

Viele Formen des Betrugs, wie falsche Versicherungsansprüche, gefälschte Kundenrezensionen, Phishing-E-Mails und Ähnliches, basieren auf Textblöcken. Die Analyse ihres Textinhalts führt oft zu Hinweisen, um echte Kundenaktivitäten von Betrugsversuchen zu unterscheiden.

Natürliche Sprachverarbeitung (NLP) besteht aus Techniken wie Sentimentanalyse und Named Entity Recognition (NER). NLP wird in Anwendungen wie:
- Betrügerische Versicherungsansprüche enthalten oft Ungereimtheiten in der Anspruchsbeschreibung. NLP kann widersprüchliche Aussagen und ungewöhnliche Sprache identifizieren, während NER auf Beziehungen zwischen Orten, Daten und Personen hinweisen kann.
- Gefälschte Kundenrezensionen werden oft von verschiedenen Konten für dasselbe Produkt oder von demselben Konto für verschiedene Produkte eingereicht. Diese Bewertungen enthalten in der Regel ähnliche Formulierungen, die mit Hilfe von Stimmungsanalysen und Tonfallerkennung identifiziert werden können.
- Phishing-E-Mails und andere Hacking-Versuche, die auf Social Engineering basieren, folgen oft ähnlichen Sprachmustern, die darauf abzielen, dem Empfänger sensible Informationen zu entlocken. Standard-NLP-Methoden sind nützlich, um solche Muster zu erkennen und den Empfänger zu warnen.
Text-Mining-Algorithmen verarbeiten große Mengen unstrukturierter Texte wie E-Mails, Reklamationen und Rezensionen, um verdächtige Sprachmuster und spezifische Terminologien zu erkennen, die für betrügerische Aktivitäten typisch sind.
- Die Grundannahme hinter Text Mining ist, dass die meisten betrügerischen Aktivitäten in eine begrenzte Anzahl von Kategorien fallen und von einer kleinen Gruppe von Personen ausgeführt werden. Daher ist die Identifizierung von Gemeinsamkeiten durch die Suche nach Mustern im Textinhalt eine praktikable Methode, um mögliche Betrugsversuche zu erkennen.

Schau dir den Skill Track Natural Language Processing in Python an, um ein tieferes Verständnis für das Thema zu bekommen.

Illustration des Textmining-Workflows. Bildquelle: Text Mining mit Bag-of-Words in R

Workflow zur Aufdeckung von Betrug

In diesem Abschnitt geben wir einen Überblick über die praktischen Grundsätze der Implementierung von Betrugserkennungsworkflows.

Datenerhebung

Alle Algorithmen zur Betrugserkennung basieren auf der Analyse und Identifizierung von Mustern, die in großen Datensätzen beobachtet werden. Daher sind hochwertige, relevante und kuratierte Datensätze wie Transaktionsprotokolle und Kundenprofile für das Training dieser Algorithmen entscheidend.

Transaktionsprotokolle werden verwendet, um historische Transaktionen zu analysieren und Muster anhand von Details wie Beträgen, Volumen, Häufigkeit, IP-Adressen, Zeitstempeln und mehr zu erkennen.
Kundendatenbanken enthalten Adressen, Zahlungsdetails, Surf- und Kaufhistorien, abgegebene Bewertungen, Rücksendungen und mehr.
Datenquellen von Dritten sind nützlich, um Beobachtungen aus internen Datensätzen zu bestätigen und die Datenqualität zu verbessern.

Vorverarbeitung der Daten

Nach dem Sammeln von Daten ist der nächste logische Schritt, sie zum Trainieren von Betrugserkennungsmodellen zu verwenden. Rohdaten sind in der Regel nicht für das Training von Modellen geeignet. Daher ist es notwendig, die Daten zu bereinigen und zu normalisieren, bevor sie als Trainingsdatensatz verwendet werden. Die Datenvorverarbeitung umfasst zusammen mit dem Feature Engineering diese Schritte.

Die Datenbereinigung befasst sich mit fehlenden Werten, falsch formatierten Werten (z. B. Zahlen, die als Text formatiert wurden), doppelten Datensätzen, falschen Werten und mehr. Das Belassen solcher Werte im Datensatz führt zu einem schlecht trainierten Modell. Daher ist die Datenbereinigung der erste Schritt, um einen brauchbaren Datensatz zu erhalten.
Bei der Datennormalisierung werden numerische Werte auf einer einheitlichen Skala ausgedrückt. Es kann auch bedeuten, dass buchstabenbasierte Ränge in numerische Werte übersetzt werden. Das ist besonders wichtig, wenn Datenquellen zu einem größeren Datensatz kombiniert werden.
Feature Engineering wandelt die verfügbaren Informationen in nützlichere Formen um.

Modellschulung und -bewertung

Die Algorithmen zur Betrugsanalyse basieren im Kern auf maschinellen Lernverfahren. Historische Daten sind die Grundlage für das Training von Algorithmen für maschinelles Lernen. Nach dem Sammeln und Bereinigen der Daten ist der nächste Schritt das Trainieren der Modelle. Während des Trainings lernt das Modell, vorauszusagen, welche Transaktionen oder Nutzerprofile mit größerer Wahrscheinlichkeit betrügerisch sind.

Es ist nicht nur wichtig, potenziell betrügerisches Verhalten zu erkennen, sondern auch, normale Nutzer nicht zu behindern. Ein False Positive ist, wenn das Modell eine echte Transaktion als betrügerisch einstuft. Die Minimierung von Fehlalarmen ist wichtig, um ein gutes Kundenerlebnis zu gewährleisten. Um dies zu gewährleisten, wird das trainierte Modell anhand verschiedener Metriken bewertet.

Betrugserkennung in Echtzeit

Nachdem du einen Betrug begangen hast, wird es immer schwieriger, die gestohlenen Gelder oder Waren vom Betrüger zurückzubekommen. Ziel ist es also, Betrug in Echtzeit zu erkennen und zu verhindern, bevor die Transaktion ausgeführt wird. Die Integration von Betrugsanalysen in die Transaktionsverarbeitung ermöglicht eine Aufdeckung in Echtzeit. Es gibt zwei Möglichkeiten, dies zu tun:

Streaming von Daten aus der Transaktionspipeline an ein Echtzeit-Betrugsanalysesystem: Event-Streaming-Tools wie Apache Kafka ermöglichendie Übertragung von Echtzeit-Transaktionsdaten in Betrugsanalysesysteme. Die Echtzeit-Betrugsanalyseplattform markiert verdächtige Transaktionen, die von Menschen überprüft werden müssen. Die Pipeline zur Transaktionsverarbeitung erhält außerdem eine Bestätigung vom Betrugsanalysesystem, bevor die Transaktion abgeschlossen wird.
Anwendung von Betrugsanalysen innerhalb der Transaktionsverarbeitungspipeline: Dies wird mit Tools wie Apache Flink gemacht. Flink bietet die Möglichkeit, Datenströme in Echtzeit zu verarbeiten, was im Kontext der Betrugsanalyse als Echtzeit-Verarbeitung von Transaktionsdaten bezeichnet wird. Es kann auch mit maschinellen Lernmodellen integriert werden.

Berichterstattung und Überwachung

Beteiligte wie die Unternehmensleitung, Datenwissenschaftler, Compliance-Beauftragte, Betrugsanalysten und Sicherheitsteams überwachen die Ergebnisse der laufenden Betrugsaufdeckung. Tools wie Dashboards, Echtzeitwarnungen und automatische Berichte erleichtern die Überwachung und Kontrolle.

Dashboards stellen wichtige Kennzahlen visuell dar, z. B. die Anzahl der betrügerischen Transaktionen, die Erfolgs- und Misserfolgsquote der Betrugsanalysetools, die entstandenen finanziellen Verluste und mehr. Dashboards machen es einfach, wichtige Informationen hervorzuheben, ohne in detaillierte Berichte einzutauchen.
Wenn die Software betrügerische Aktivitäten vermutet, sendet sie in Echtzeit Warnungen, um die für die Transaktionsüberwachung zuständigen Personen zu informieren. Alle algorithmischen Vorhersagen haben ein gewisses Maß an Vertrauen - in vielen Fällen ist das menschliche Urteilsvermögen für die Entscheidungsfindung unerlässlich. Außerdem sind in manchen Fällen Abhilfemaßnahmen notwendig, um weiteren Schaden zu verhindern, wie z.B. die Sperrung von Transaktionen mit einer Karte, die als gestohlen gilt. Aktualisierungen in Echtzeit beschleunigen solche Prozesse.
Automatisierte Berichte fassen regelmäßig Informationen über die Aktivitäten der Betrugsanalysetools zusammen. Sie erleichtern es, ihre Leistung zu überwachen und bei Bedarf einzugreifen.
Kundenbenachrichtigungen informieren Kunden, wenn auf ihren Konten betrügerische Aktivitäten vermutet werden. Manchmal erkennt die Analysesoftware legitime Kundenaktivitäten fälschlicherweise als potenziell betrügerisch. Es ist notwendig, vor der Bearbeitung solcher Transaktionen eine manuelle Bestätigung vom Kunden einzuholen. In anderen Fällen ist es wichtig, dem Kunden mitzuteilen, dass sein Konto aufgrund verdächtiger Aktivitäten gesperrt wurde und dass er es wieder aktivieren muss.

Werde ein ML-Wissenschaftler

Bilde dich in Python weiter, um ein/e Wissenschaftler/in für maschinelles Lernen zu werden.

Kostenloses Lernen beginnen

Tools und Plattformen für die Betrugsanalyse

In Anbetracht der Bedeutung und der weit verbreiteten Anwendungen der Betrugsanalyse werden viele Softwareprogramme in diesem Bereich eingesetzt. Dazu gehören sowohl Open-Source-Tools als auch proprietäre Systeme. In diesem Abschnitt geben wir einen Überblick über die gängigsten Tools und Plattformen, die in der Betrugsanalyse eingesetzt werden.

Python, SQL, and R

Kundendaten und Transaktionsprotokolle werden normalerweise in relationalen Datenspeichern gespeichert.

SQL ist ein leistungsstarkes und flexibles Werkzeug, um relevante Datensätze zu extrahieren. Sie ermöglicht es Entwicklern, Abfragen zu schreiben und zu optimieren, um Datensätze abzurufen, die verschiedene Kriterien erfüllen. Diese Datensätze werden analysiert, um Trends und Muster zu entdecken, die auf potenziell betrügerische Aktivitäten hinweisen.
Python ist aufgrund seines großen Ökosystems an Bibliotheken und seiner großen Entwicklergemeinschaft oft das bevorzugte Werkzeug, um verschiedene Analysealgorithmen zu entwickeln und zu testen. Generell wird Python auch für viele finanzbasierte Anwendungen verwendet.
Die statistische Analyse ist der Kern vieler Methoden zur Aufdeckung von Betrug. Daher ist R mit seiner großen Bibliothek an statistischen Funktionen ideal für verschiedene Arten von Ad-hoc-Datenanalysen zur Aufdeckung von Betrug.

Python, SQL und R geben Entwicklern also das perfekte Werkzeug in die Hand, um ihre eigenen Betrugsanalysesysteme zu entwickeln. Diese Tools haben jedoch Schwierigkeiten, große Datenmengen effizient zu verarbeiten. Für die Implementierung von Analysesystemen wird oft andere spezialisierte Software wie Apache Spark (siehe unten) verwendet.

Außerdem sind Tools, die auf Python und SQL basieren, für nicht-technische Zielgruppen wie Betrugsanalysten und Compliance-Beauftragte möglicherweise nicht geeignet. Es ist üblich, integrierte Lösungen zu liefern, die mit Tools von Drittanbietern wie SAS erstellt wurden (siehe unten).

Apache Spark

Viele Betrugsanalyseverfahren basieren auf Algorithmen des maschinellen Lernens, die auf Transaktionsprotokollen und Kundendatensätzen trainiert werden. Um Muster in Echtzeit zu erkennen, müssen große Mengen an Daten verarbeitet werden. Kreditkartenabwickler bearbeiten zum Beispiel Millionen von Transaktionen pro Tag. Um einen Betrugsring aufzudecken, muss das Analysesystem die Transaktionsdaten vieler Tage effizient verarbeiten.

Apache Spark ist eine Open-Source-Datenverarbeitungsmaschine, die horizontal über Cluster skaliert. Dank seiner In-Memory-Computing-Fähigkeit kann es große Datenmengen verarbeiten, ohne auf eine Stapelverarbeitung zurückgreifen zu müssen.

Es akzeptiert Eingabedaten aus verschiedenen Datenquellen, wie Cassandra und Amazon S3. Außerdem bietet es APIs in vielen Sprachen, darunter Python und Java. Daher ist sie besonders für Big Data-Anwendungen wie Betrugsanalysen geeignet.

Schau dir den Kurs Einführung in PySpark an, um diese leistungsstarke Datenverarbeitungssprache noch heute zu lernen.

Tableau und Power BI

Die Betrugsanalyse umfasst große Datensätze und komplexe Analysen. Visualisierungen machen es für Menschen einfacher und schneller, diese Informationen zu verstehen. Tableau und Power BI sind Datenvisualisierungstools, die mit verschiedenen Datenquellen verbunden werden können. Sie werden sowohl für Berichts- als auch für Analyseaufgaben verwendet.

Diese Tools erstellen interaktive Dashboards, um wichtige Kennzahlen wie Trends, Erfolgs- und Misserfolgsquoten, Verlustbeträge und Transaktionsvolumen zu melden. Die Visualisierungen können diese Informationen auch nach verschiedenen Arten von Betrug und geografischen Regionen kategorisieren.
Zusätzlich zu den Berichten erleichtern Power BI und Tableau auch die Betrugsanalyse, indem sie Informationen über potenzielle Betrugsringe, Netzwerkanalysen und verschiedene Wahrscheinlichkeiten visuell darstellen.
Mit diesen Tools können Analysten auch verschiedene Filter, Erkennungskriterien und Vertrauensstufen visuell kontrollieren. Das hilft dabei, schnell zu entscheiden, ob eine Transaktion echt oder betrügerisch ist.

Diese Tools sind als Allzweck-Visualisierungstools mit speziellen Modulen und Benutzeroberflächen für die Betrugsanalyse konzipiert. Du kannst noch heute damit beginnen, PowerBI zu lernen, indem du den PowerBI Fundamentals Skill Track befolgst.

SAS Fraud Management

SAS ist eine statistische Software-Suite, die vom SAS Institute entwickelt wurde. Das Institut stellt auch domänenspezifische Pakete für verschiedene Anwendungen her, darunter Betrugsanalysen.

SAS Fraud Management nutzt statistische Verfahren und maschinelle Lernalgorithmen, um Betrug vorherzusagen und zu verhindern. Diese Algorithmen werden produktiv gemacht, damit auch Personen wie Betrugsanalysten und Compliance-Beauftragte, die keinen Hintergrund in maschinellem Lernen haben, ML und statistische Methoden zur Betrugserkennung nutzen können.

H2O.ai

H2O.ai bietet einen automatisierten, cloudbasierten Service für maschinelles Lernen. Die Software von H2O.ai zeigt potenziell betrügerische Aktivitäten an, bewertet die Wahrscheinlichkeit von Betrug und vergibt einen Grundcode, der angibt, warum der Algorithmus Betrug vermutet.

Diese Richtlinien helfen menschlichen Ermittlern, die Transaktion zu überprüfen. In vielen Fällen helfen sie auch dabei, echten Transaktionen grünes Licht zu geben, um ihre Bearbeitung zu beschleunigen.

IBM Safer Payments

IBM Safer Payments ist ein Betrugserkennungssystem, das speziell auf die Zahlungsverkehrsbranche ausgerichtet ist.

Da es eine NoSQL-In-Memory-Datenbank verwendet, kann es Zahlungen in Echtzeit überwachen. Es verhindert Betrug in bargeldlosen Zahlungssystemen, wie z.B. bei Kreditkartenzahlungen, indem es Transaktionsströme in Echtzeit analysiert und potenziell betrügerische Transaktionen blockiert, bevor sie ausgeführt werden.

Fazit

Dieser Artikel gibt einen Überblick über die verschiedenen Arten von Betrug und die Rolle der Betrugsanalyse bei der Aufdeckung und Verhinderung von Betrug. Es wurden Techniken erörtert, die üblicherweise verwendet werden, um Fälle von potenziellem Betrug aufzudecken, sowie der Arbeitsablauf bei der Betrugserkennung. Schließlich werden in dem Artikel einige Softwareanwendungen vorgestellt, die in diesem Bereich häufig verwendet werden.

Um zu lernen, wie man mit Python Betrugserkennungssysteme erstellt, besuche den Kurs Betrugserkennung in Python. Um eine breit angelegte Einführung in Python für Finanzanwendungen zu erhalten, belege den Kurs Einführung in Python für Finanzen. Um mehr über die Statistikfunktionen in R zu erfahren, die für die Betrugsaufdeckung verwendet werden, besuche den Kurs Betrugsaufdeckung in R.

Lass dich in Data Science zertifizieren

Überprüfe deine professionellen Fähigkeiten als Data Scientist.

Meine Datenkarriere vorantreiben

Kann die Betrugsanalyse Betrug vollständig verhindern?

Wie gehen Unternehmen mit gekennzeichneten Transaktionen in Echtzeit um?

Welche Daten sind für eine effektive Betrugsaufdeckung entscheidend?

Wie entwickeln sich unüberwachte maschinelle Lernmodelle mit neuen Betrugsmustern weiter?

Wie schaffen Betrugserkennungssysteme ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit?

Themen

Datenanalyse

Maschinelles Lernen

Lerne mehr über Analytik und maschinelles Lernen mit diesen Kursen!

Kurs

Betrugserkennung mit Python

4 Std.

22K

In diesem Kurs bekommst du praxisnah vermittelt, wie du mit Python Betrug erkennst.

Details anzeigen

Kurs starten

Kurs

Machine Learning verstehen

2 Std.

293.2K

In diesem Kurs lernst du das spannende Themenfeld des maschinellen Lernens kennen – und du benötigst dafür gar keine Programmierkenntnisse.

Details anzeigen

Kurs starten

Kurs

Anomalieerkennung mit Python

4 Std.

7.2K

Entdecke in diesem vierstündigen Kurs Anomalien in deiner Datenanalyse und erweitere dein Python-Statistik-Toolkit.

Details anzeigen

Kurs starten

Verwandt

Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.

Nathaniel Taylor-Leach

4 Min.

Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!

Nisha Arya Ahmed

15 Min.

Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.

Nathaniel Taylor-Leach

Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.

Nathaniel Taylor-Leach

8 Min.

Mehr anzeigen Mehr anzeigen

Was ist Fraud Analytics?

Befähige dein Team mit Datenanalyse-Expertise

Häufige Arten von Betrug, die durch Analysen aufgedeckt werden

Finanzieller Betrug

Versicherungsbetrug

Betrug im Gesundheitswesen

Betrug im E-Commerce und im Einzelhandel

Techniken der Betrugsanalyse

Erkennung von Anomalien

Überwachtes maschinelles Lernen

Unüberwachtes maschinelles Lernen

Netzwerkanalyse

Text Mining und natürliche Sprachverarbeitung (NLP)

Workflow zur Aufdeckung von Betrug

Datenerhebung

Vorverarbeitung der Daten

Modellschulung und -bewertung

Betrugserkennung in Echtzeit

Berichterstattung und Überwachung

Werde ein ML-Wissenschaftler

Tools und Plattformen für die Betrugsanalyse

Python, SQL, and R

Apache Spark

Tableau und Power BI

SAS Fraud Management

H2O.ai

IBM Safer Payments

Fazit

Lass dich in Data Science zertifizieren

FAQs

Welche Daten sind für eine effektive Betrugsaufdeckung entscheidend?

Wie entwickeln sich unüberwachte maschinelle Lernmodelle mit neuen Betrugsmustern weiter?

Wie schaffen Betrugserkennungssysteme ein Gleichgewicht zwischen Geschwindigkeit und Genauigkeit?

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Q2 2023 DataCamp Donates Digest

2022-2023 DataCamp Classrooms Jahresbericht

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Betrugserkennung mit Python

Machine Learning verstehen

Anomalieerkennung mit Python

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Q2 2023 DataCamp Donates Digest

2022-2023 DataCamp Classrooms Jahresbericht

Betrugserkennung mit Python