Direkt zum Inhalt

Winsorisierter Mittelwert: Ein robuster Ansatz zur Behandlung von Ausreißern

Ein winsorisierter Mittelwert reduziert den Einfluss von Ausreißern, indem er die Extremwerte auf bestimmte Perzentile begrenzt und so die Gesamtstruktur des Datensatzes bewahrt. Lies weiter, um zu erfahren, wie du mit Python den winsorisierten Mittelwert berechnest, um praktische Erfahrungen zu sammeln.
Aktualisierte 1. Okt. 2024  · 7 Min. Lesezeit

Ausreißer können deine Erkenntnisse oft in die Irre führen und eine eigentlich sinnvolle Analyse in eine irreführende Schlussfolgerung verwandeln. Unvollkommene und verrauschte Daten sind in der realen Welt zu erwarten, und die Winsorisierung ist eine praktische Lösung, um die Auswirkungen von Ausreißern zu reduzieren, ohne Daten zu verwerfen.

In diesem Artikel erfährst du, wie das winsorisierte Mittel funktioniert, welche praktischen Anwendungen es gibt und wie du es mit Python berechnen kannst. Wir werden auch seine Vor- und Nachteile verstehen, ihn mit anderen nützlichen Maßen wie dem getrimmten Mittelwert vergleichen und andere statistische Winsorisierungsmaße untersuchen.

Was ist ein Winsorized Mean?

Ein winsorisierter Mittelwert ist ein statistisches Maß, das die Auswirkungen von Ausreißern reduziert, indem extreme Werte durch weniger extreme Perzentile ersetzt werden, anstatt sie vollständig zu entfernen. Im Gegensatz zum arithmetischen Mittel, das alle Datenpunkte gleichermaßen berücksichtigt, begrenzt der winsorisierte Mittelwert den Einfluss von Extremwerten, die das Gesamtergebnis verzerren können.

Bei der Winsorisierung werden Werte, die über einer bestimmten Perzentilschwelle liegen, gekappt oder ersetzt. Bei einer 5%-Winsorisierung werden beispielsweise die niedrigsten 5% der Datenpunkte durch den Wert am 5. Perzentil und die höchsten 5% durch den Wert am 95. Perzentil ersetzt. Diese Methode trägt dazu bei, die Gesamtstruktur des Datensatzes beizubehalten und gleichzeitig die Auswirkungen von Ausreißern zu reduzieren, was sie zu einer robusten Alternative zum Standardmittelwert in Datensätzen mit Extremwerten macht.

Praktische Anwendungen des winsorisierten Mittelwerts

Die Relevanz des winsorisierten Mittelwerts in der statistischen Analyse wird besonders in Bereichen deutlich, in denen die Daten zu schiefen Verteilungen neigen. Hier sind einige Schlüsselbereiche, in denen sich der winsorisierte Mittelwert als hilfreich erweist:

  • Finanz- und Investitionsanalyse: Finanzdaten enthalten oft Extremwerte, wie z.B. Marktabstürze oder außergewöhnliche Gewinne, die die Durchschnittswerte verzerren und Trends verschleiern können. Analysten können stabilere Leistungskennzahlen erstellen, die das typische Marktverhalten besser widerspiegeln, indem sie Renditen oder Vermögenspreise winsorisieren.
  • Wirtschaftsdaten: In makroökonomischen Studien werden Indikatoren wie die Einkommens- oder Vermögensverteilung häufig durch eine kleine Anzahl extrem hoher oder niedriger Werte verzerrt. Winsorisierte Mittelwerte können ein ausgewogeneres Bild der wirtschaftlichen Bedingungen vermitteln, indem sie den Einfluss dieser extremen Beobachtungen begrenzen.
  • Umfrage und sozialwissenschaftliche Forschung: Umfragen können Daten mit extremen Antworten liefern, wie z.B. übermäßig hohe oder niedrige Bewertungen. In solchen Fällen liefert der winsorisierte Mittelwert ein genaueres Maß für die zentrale Tendenz und stellt sicher, dass extreme Antworten die Gesamtanalyse nicht unverhältnismäßig stark beeinflussen.
  • Medizinische und biologische Forschung: Medizinische Daten, wie z. B. die Ergebnisse von Patienten oder Tests, können manchmal extreme Werte aufweisen, die auf seltene Erkrankungen oder Ausreißer zurückzuführen sind. Die Winsorisierung dieser Daten kann den Forschern helfen, ein genaueres Bild der durchschnittlichen Ergebnisse zu erhalten, ohne potenziell wertvolle Datenpunkte komplett zu entfernen.

In jeder dieser Anwendungen ist der winsorisierte Mittelwert eine robuste Alternative zum Standardmittelwert, die es den Analysten ermöglicht, Erkenntnisse zu gewinnen, die weniger von Ausreißern beeinflusst werden, während wichtige Datenmuster erhalten bleiben.

So berechnest du den Winsorized Mean in Python

Bei der Berechnung des winsorisierten Mittelwerts in Python werden die Extremwerte (Ausreißer) durch Werte auf bestimmten Perzentilen ersetzt. Bevor wir beginnen, eine kurze Zusammenfassung der Schritte, die wir befolgen werden:

  • Importiere die benötigten Bibliotheken und Datensätze.

  • Winsorize den Datensatz mit scipy.winsorize().

  • Berechne den Mittelwert mit numpy.mean().

Lass uns anhand eines Beispiels in die Details eintauchen. 

Importiere die benötigten Bibliotheken und Datensätze

Zuerst importieren wir die Bibliotheken, die für die Berechnung des Mittelwerts benötigt werden.

import numpy as np
from scipy.stats.mstats import winsorize

Als Nächstes laden wir den Datensatz, der aus einer CSV-Datei oder einer anderen Datenquelle stammen kann. Um das Beispiel zu vereinfachen, erstellen wir einen Beispieldatensatz mit numpy.

data = np.array([10, 12, 14, 15, 16, 18, 20, 22, 24, 25, 30, 35, 40, 45, 50, 60, 70, 80, 82, 85, 90, 200])

Die 200 könnte nach einer ersten Analyse als Ausreißer in diesem Datensatz betrachtet werden.

Winsorize den Datensatz 

Mit der Funktion winsorize() aus der Bibliothek scipy kannst du den Prozentsatz der Daten angeben, der aus den unteren und oberen Schwänzen gewonnen werden soll. Der Code dafür lautet wie folgt:

# Winsorize 5% from both the lower and upper tails
winsorized_data = winsorize(data, limits=[0.05, 0.05])

Im obigen Code ersetzt der Parameter limits=[0.05, 0.05], der der Funktion winsorize() zugeführt wird, die kleinsten 5 % und die größten 5 % der Werte durch die Werte am 5. bzw. am 95. Perzentil. Jetzt können wir die Winsorized-Daten, die wir erstellt haben, überprüfen.

print("Original data: ", data)
print("Winsorized data: ", winsorized_data)

Die Ausgabe wird zeigen, dass die Ausreißer ersetzt wurden:

Original data: [ 10 12 14 15 16 18 20 22 24 25 30 35 40 45 50 60 70 80 82 90 200]
Winsorized data: [ 12 12 14 15 16 18 20 22 24 25 30 35 40 45 50 60 70 80 82 90 90]

Hier wurde der Maximalwert 200 durch 90 ersetzt; ebenso wurden die Extremwerte vom unteren Ende, 10, durch 12 ersetzt.

Berechne den Mittelwert 

Zum Schluss berechnen wir den Mittelwert der winsorisierten Daten:

winsorized_mean = np.mean(winsorized_data)
print("Winsorized mean: ", winsorized_mean)

Die Ausgabe sieht folgendermaßen aus:

Winsorized mean: 42.5

Der winsorisierte Mittelwert hat den Einfluss der extrem hohen Werte im Vergleich zu einem regulären Mittelwert reduziert. Zum Vergleich können wir den ursprünglichen Mittelwert wie folgt berechnen:

original_mean = np.mean(data)
print("Original mean: ", original_mean)

Die Ausgabe sieht folgendermaßen aus:

Original mean: 47.40909090909091

Die Ausreißer beeinflussen den ursprünglichen Mittelwert auf 47.40 stark, sodass er deutlich höher ausfällt. Nach der Winsorisierung der Extremwerte ist der winsorisierte Mittelwert auf 42.5 viel niedriger und der Einfluss der Extremwerte ist geringer.

Winsorized Mean vs. Winsorized Mean Getrimmter Mittelwert: Die wichtigsten Unterschiede

Der winsorisierte Mittelwert und der getrimmte Mittelwert sind beides statistische Methoden, die verwendet werden, um die Auswirkungen von Ausreißern auf den Mittelwert zu reduzieren, aber sie unterscheiden sich darin, wie sie mit Extremwerten umgehen:

  • Der winsorisierte Mittelwert ersetzt die Extremwerte (Ausreißer) an beiden Enden der Daten durch die nächstgelegenen Werte innerhalb des Datensatzes. Es verwirft die Daten nicht, sondern passt die extremsten Werte an, um ihre Auswirkungen zu verringern.
  • Beim getrimmten Mittelwert werden der niedrigste und der höchste Prozentsatz der Datenpunkte entfernt (getrimmt). Bei dieser Methode wird ein Teil der Daten an beiden Enden verworfen. Bei einem auf 5% getrimmten Mittelwert werden die kleinsten 5% und die größten 5% der Datenpunkte von der Mittelwertberechnung ausgeschlossen.

Der winsorisierte Mittelwert wird bevorzugt, wenn du die Datenstruktur beibehalten (d. h. den Stichprobenumfang beibehalten), aber dennoch die Auswirkungen von Extremwerten reduzieren willst. Der getrimmte Mittelwert wird bevorzugt, wenn der Datensatz eindeutige Ausreißer enthält, die du vollständig entfernen möchtest, und wenn eine kleinere Stichprobengröße nach dem Trimmen akzeptabel ist.

Vergleich von getrimmtem Mittelwert und winsorisiertem Mittelwert in Python

Schauen wir uns an, wie sich beide Methoden auf den Datensatz auswirken und vergleichen wir ihre Ergebnisse.

from scipy.stats import trim_mean

# Calculate the Trimmed mean by removing 5% from both tails
trimmed_mean = trim_mean(data, proportiontocut=0.05)

# Print the results
print("Original mean: ", np.mean(data))
print("Winsorized mean (5%): ", winsorized_mean)
print("Trimmed mean (5%): ", trimmed_mean)

Die Ausgabe sieht folgendermaßen aus:

Original mean: 47.40909090909091
Winsorized mean (5%): 42.5
Trimmed mean (5%): 41.65

Der ursprüngliche Mittelwert war 47.4, der stark von Ausreißern beeinflusst wurde. Der winsorisierte Mittelwert, 42.5, wurde berechnet, wobei Ausreißer durch weniger extreme Werte ersetzt wurden. Der getrimmte Mittelwert, wenn die Ausreißer vollständig entfernt wurden, ist 41.65.

Wissen, wann man welche Methode anwenden sollte

Verwende den winsorisierten Mittelwert, wenn du alle Datenpunkte behalten, aber die Auswirkungen der Extremwerte reduzieren willst. Dies ist eine gute Heuristik, denn der winsorisierte Mittelwert ist nützlich, wenn du glaubst, dass die Ausreißer echt sind, aber ihren Einfluss minimieren willst.

Verwende den getrimmten Mittelwert, wenn du Ausreißer ganz aus dem Datensatz entfernen willst. Der getrimmte Mittelwert ist besonders nützlich, wenn du vermutest, dass die Ausreißer fehlerhaft oder nicht repräsentativ für die Datenverteilung sind.

Zusammenfassung der wichtigsten Unterschiede

Die zusammengefassten Unterschiede können wie folgt aufgelistet werden:

Wichtige Unterschiede zwischen dem winsorisierten Mittelwert und dem getrimmten MittelwertWichtige Unterschiede zwischen dem winsorisierten Mittelwert und dem getrimmten Mittelwert. Bild vom Autor.

Winsorized und getrimmte Mittelwerte helfen beim Umgang mit Ausreißern, aber die Wahl hängt davon ab, ob du Extremwerte aus dem Datensatz behalten oder verwerfen willst.

Vor- und Nachteile des gewogenen Mittelwerts

Das Winsorisierungsverfahren ist zwar ein robuster Ansatz für den Umgang mit Ausreißern, aber die Änderung von Extremwerten könnte Bedenken hinsichtlich der Datenmanipulation aufwerfen. Hier sind einige Vor- und Nachteile der Technik:

Vorteile

  • Robuster als der Standardmittelwert in Gegenwart von Ausreißern: Der winsorisierte Mittelwert reduziert die Auswirkungen von Extremwerten (Ausreißern) und bietet eine stabilere und zuverlässigere zentrale Tendenz in Datensätzen, in denen Ausreißer das Ergebnis verzerren können.
  • Behält die Gesamtstruktur des Datensatzes bei, indem alle Datenpunkte beibehalten werden: Im Gegensatz zum getrimmten Mittelwert, bei dem Extremwerte verworfen werden, werden sie beim winsorisierten Mittelwert durch weniger extreme Werte ersetzt, wobei der Stichprobenumfang und die Gesamtstruktur des Datensatzes erhalten bleiben.
  • Besser geeignet für kleine Datensätze: Bei Datensätzen, bei denen das Entfernen von Datenpunkten (wie beim Trimmen) zu einer nicht repräsentativen oder unvollständigen Stichprobe führen würde, bleiben bei der Winsorisierung alle Werte erhalten, sodass der Datensatz verwendbar bleibt.

Beeinträchtigungen

  • Kann zu Verzerrungen führen, wenn die zugrunde liegende Datenverteilung asymmetrisch ist: Die Winsorisierung von Daten auf der Grundlage fester Perzentile (z. B. 5% von beiden Enden) kann zu Verzerrungen führen, wenn der Datensatz nicht symmetrisch verteilt ist. Wenn die Daten schief sind, kann die Winsorisierung die zentrale Tendenz verzerren, anstatt sie genau wiederzugeben.
  • Erfordert eine sorgfältige Auswahl des Winsorisierungsprozentsatzes: Der Prozentsatz der Daten, der winsorisiert werden soll (d. h. der Anteil der Extremwerte, der verändert werden soll), wird oft willkürlich gewählt. Die Wahl eines ungeeigneten Prozentsatzes kann entweder die Auswirkungen von Ausreißern nicht ausreichend abmildern oder zu viele Werte verändern, wodurch die Repräsentativität des Datensatzes verringert wird.
  • Die Überbewertung von Daten kann wichtige Muster verschleiern: Wenn du zu viele Datenpunkte änderst, können aussagekräftige Muster oder Trends in den Daten verdeckt werden. In manchen Fällen stellen Extremwerte gültige und wichtige Informationen dar (z. B. bei Finanzdaten, wo Ausreißer seltene, aber wichtige Ereignisse anzeigen können), und ihre Ersetzung kann zu irreführenden Schlussfolgerungen führen.

Deshalb ist es wichtig, die Vor- und Nachteile der Technik abzuwägen, bevor wir sie in unsere Datenanalyseprojekte einbeziehen.

Andere Winsorized Statistical Concepts

Da die Winsorisierung eine statistische Technik ist, die auf ein Maß angewendet wird, kann sie auf andere übliche statistische Maße ausgedehnt werden. Sehen wir uns einige andere Maßnahmen an, auf die die Winsorisierung angewendet werden kann:

  • Winsorisierte Stichprobenabweichung: Die winsorisierte Version der Standardabweichung misst die Streuung eines winsorisierten Datensatzes, indem sie die Extremwerte ersetzt. Berechnet als Quadratwurzel der Winsorized-Varianz.
  • Winsorisierte Varianz: Das winsorisierte Gegenstück der Varianz misst, wie stark die Datenpunkte vom winsorisierten Mittelwert abweichen, um den Einfluss von Ausreißern zu verringern. Sie wird als durchschnittliche quadratische Abweichung vom winsorisierten Mittelwert in einem winsorisierten Datensatz berechnet.
  • Winsorized range: Die Differenz zwischen den Maximal- und Minimalwerten im winsorisierten Datensatz, die aufgrund der Ersetzung von Ausreißern kleiner ist als der ursprüngliche Bereich.
  • Winsorized Skewness: Misst die Asymmetrie der Verteilung eines winsorisierten Datensatzes und gibt an, ob die Verteilung nach der Winsorisierung nach links oder rechts schief ist. Sie hilft dabei, die Schiefe in Datensätzen zu erkennen, in denen Extremwerte die Standardberechnung der Schiefe verzerren können.
  • Winsorisierte Korrelation: Eine winsorisierte Version der Pearson-Korrelation bewertet die lineare Beziehung zwischen zwei Variablen und reduziert gleichzeitig die Auswirkungen von Ausreißern in beiden Datensätzen.

Jedes dieser winsorisierten Maße hilft dabei, den Einfluss von Ausreißern auf die Analyse zu reduzieren, wenn du mit nicht normalen Daten oder Datensätzen mit Extremwerten arbeitest.

Fazit

In diesem Tutorium wurde ein statistisches Maß zur Behandlung von Ausreißern vorgestellt: der winsorisierte Mittelwert. Wir lernten das Konzept der Winsorisierung, seine praktischen Anwendungen und eine praktische Umsetzung an einem Beispieldatensatz kennen. Außerdem wurden der getrimmte Mittelwert, seine Implementierung und der Unterschied zum winsorisierten Mittelwert behandelt. Außerdem wurden die Vor- und Nachteile sowie andere statistische Konzepte auf der Grundlage der Winsorisierung untersucht. 

Wie wir gesehen haben, gleicht der winsorisierte Mittelwert das Verwerfen und Behalten von Ausreißern aus und ermöglicht so zuverlässigere Ergebnisse in schiefen Datensätzen. Wir ermutigen dich, diese Technik in deinen Datenanalyseprojekten einzusetzen und mit verschiedenen Winsorisierungsstufen zu experimentieren, um herauszufinden, was für bestimmte Datensätze am besten funktioniert.

In unserem Kurs Intermediate Predictive Analytics in Python erfährst du mehr über den Umgang mit Ausreißern in Datensätzen mit Python, einschließlich Winsorisierung. Du kannst auch unseren Karrierepfad "Machine Learning Scientist with Python" erkunden, der eine großartige Möglichkeit ist, um zu üben, indem du ein paar echte Modelle erstellst.

Werde ein ML-Wissenschaftler

Beherrsche Python, um ein Wissenschaftler für maschinelles Lernen zu werden
Kostenloses Lernen beginnen

Arunn Thevapalan's photo
Author
Arunn Thevapalan
LinkedIn
Twitter

Als Senior Data Scientist konzipiere, entwickle und implementiere ich umfangreiche Machine-Learning-Lösungen, um Unternehmen dabei zu helfen, bessere datengestützte Entscheidungen zu treffen. Als Data-Science-Autorin teile ich Erfahrungen, Karrieretipps und ausführliche praktische Anleitungen.

Häufig gestellte Fragen

Was ist eine Winsorized Bedeutung?

Ein winsorisierter Mittelwert ist ein robustes statistisches Maß, das die Auswirkungen von Ausreißern reduziert, indem es die Extremwerte durch weniger extreme Perzentile ersetzt.

Wann sollte ich den winsorisierten Mittelwert gegenüber dem Standardmittelwert verwenden?

Der winsorisierte Mittelwert wird am besten verwendet, wenn dein Datensatz Ausreißer enthält, die den Durchschnitt verzerren könnten.

Wie unterscheidet sich der winsorisierte Mittelwert vom getrimmten Mittelwert?

Beim winsorisierten Mittelwert werden Ausreißer durch die Werte an bestimmten Perzentilen ersetzt, während beim getrimmten Mittelwert Ausreißer ganz weggelassen werden.

Was sind die Vorteile der Verwendung des winsorisierten Mittelwerts?

Der winsorisierte Mittelwert ist bei Ausreißern robuster als der Standardmittelwert, behält die Struktur des Datensatzes bei, indem er alle Datenpunkte beibehält, und ist besser für kleine Datensätze geeignet. Sie bietet einen ausgewogenen Ansatz, um den Einfluss von Extremwerten zu reduzieren, ohne wichtige Daten zu vernachlässigen.

Was sind neben dem Mittelwert noch andere winsorisierte statistische Maße?

Die Winsorisierung kann auf verschiedene statistische Maße angewendet werden, darunter die winsorisierte Stichprobenabweichung, die winsorisierte Varianz, die winsorisierte Spanne, die winsorisierte Schiefe und die winsorisierte Korrelation. Diese Maßnahmen helfen dabei, den Einfluss von Ausreißern in verschiedenen Aspekten der Datenanalyse zu reduzieren.

Themen

Lernen mit DataCamp

Kurs

Introduction to Statistics in Python

4 hr
116.7K
Grow your statistical skills and learn how to collect, analyze, and draw accurate conclusions from data using Python.
Siehe DetailsRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Der Blog

Die 32 besten AWS-Interview-Fragen und Antworten für 2024

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interview-Fragen, zusammen mit Fragen, die auf realen Situationen basieren. Es deckt alle Bereiche ab und sorgt so für eine abgerundete Vorbereitungsstrategie.
Zoumana Keita 's photo

Zoumana Keita

30 Min.

Mehr anzeigenMehr anzeigen