Variationskoeffizient

Aus besserwiki.de

Der Variationskoeffizient (auch: Abweichungskoeffizient) ist eine statistische Kenngröße in der deskriptiven Statistik und der mathematischen Statistik. Im Gegensatz zur Varianz ist er ein relatives Streuungsmaß, das heißt, er hängt nicht von der Maßeinheit der statistischen Variable bzw. Zufallsvariablen ab. Er ist nur sinnvoll für Messreihen mit ausschließlich positiven (oder ausschließlich negativen) Werten oder Messreihenvergleichen.

Die Motivation für diesen Kennwert ist, dass eine statistische Variable mit großem Mittelwert bzw. eine Zufallsvariable mit großem Erwartungswert im Allgemeinen eine größere Varianz aufweist als eine mit einem kleinen Mittel- bzw. Erwartungswert. Da die Varianz und die daraus abgeleitete Standardabweichung nicht normiert sind, kann ohne Kenntnis des Mittelwerts nicht beurteilt werden, ob eine Varianz groß oder klein ist. So schwanken beispielsweise die Preise für ein Pfund Salz, das im Durchschnitt wohl etwa 50 Cent kostet, im Cent-Bereich, während Preise für ein Auto, das im Mittel beispielsweise 20.000 Euro kostet, im 1000-Euro-Bereich variieren.

Der Variationskoeffizient ist eine Normierung der Varianz: Ist die Standardabweichung größer als der Mittelwert bzw. der Erwartungswert, so ist der Variationskoeffizient größer 1.

Der Quartilsdispersionskoeffizient ist eine robuste Version des Variationskoeffizienten.

In der Wahrscheinlichkeitstheorie und Statistik ist der Variationskoeffizient (CV), auch bekannt als relative Standardabweichung (RSD), ein standardisiertes Maß für die Streuung einer Wahrscheinlichkeitsverteilung oder Häufigkeitsverteilung. Er wird häufig als Prozentsatz ausgedrückt und ist definiert als das Verhältnis der Standardabweichung zum Mittelwert (oder dessen absoluter Wert, ). Der CV oder RSD wird in der analytischen Chemie häufig verwendet, um die Präzision und Wiederholbarkeit eines Assays auszudrücken. Er wird auch häufig in Bereichen wie Technik oder Physik verwendet, wenn Qualitätssicherungsstudien und ANOVA-Messungen durchgeführt werden. Darüber hinaus wird der CV von Wirtschaftswissenschaftlern und Investoren in Wirtschaftsmodellen verwendet.

Definition

Der Variationskoeffizient (VK) ist definiert als das Verhältnis der Standardabweichung zum Mittelwert ,

Er zeigt das Ausmaß der Variabilität im Verhältnis zum Mittelwert der Grundgesamtheit an. Der Variationskoeffizient sollte nur für Daten berechnet werden, die auf Skalen gemessen werden, die einen aussagekräftigen Nullpunkt haben (Verhältnisskala) und somit einen relativen Vergleich zweier Messungen ermöglichen (d. h. Division einer Messung durch die andere). Für Daten auf einer Intervallskala hat der Variationskoeffizient möglicherweise keine Bedeutung. So sind beispielsweise die meisten Temperaturskalen (z. B. Celsius, Fahrenheit usw.) Intervallskalen mit willkürlichen Nullen, so dass der berechnete Variationskoeffizient je nach verwendeter Skala unterschiedlich ausfallen würde. Andererseits hat die Kelvin-Temperatur eine sinnvolle Nullstelle, nämlich die völlige Abwesenheit von Wärmeenergie, und ist somit eine Verhältnisskala. Im Klartext bedeutet dies, dass 20 Kelvin doppelt so heiß sind wie 10 Kelvin, aber nur in dieser Skala mit einem echten absoluten Nullpunkt. Während eine Standardabweichung (SD) in Kelvin, Celsius oder Fahrenheit gemessen werden kann, gilt der berechnete Wert nur für diese Skala. Nur die Kelvinskala kann zur Berechnung eines gültigen Variabilitätskoeffizienten verwendet werden.

Messungen, die lognormal verteilt sind, weisen einen stationären CV auf; im Gegensatz dazu variiert der SD in Abhängigkeit vom Erwartungswert der Messungen.

Eine robustere Möglichkeit ist der Quartilsstreuungskoeffizient, die Hälfte des Interquartilsbereichs geteilt durch den Mittelwert der Quartile (das mittlere Scharnier), .

In den meisten Fällen wird ein CV für eine einzelne unabhängige Variable (z. B. ein einzelnes Fabrikprodukt) mit zahlreichen, wiederholten Messungen einer abhängigen Variable (z. B. Fehler im Produktionsprozess) berechnet. Daten, die linear oder sogar logarithmisch nichtlinear sind und einen kontinuierlichen Bereich für die unabhängige Variable mit spärlichen Messungen über jeden Wert (z. B. Streudiagramm) enthalten, können jedoch für eine einzelne CV-Berechnung unter Verwendung eines Maximum-Likelihood-Schätzansatzes geeignet sein.

Beispiele

Ein Datensatz von [100, 100, 100] hat konstante Werte. Die Standardabweichung ist 0 und der Durchschnitt ist 100, was den Variationskoeffizienten wie folgt ergibt

0 / 100 = 0

Ein Datensatz von [90, 100, 110] weist eine größere Variabilität auf. Die Standardabweichung der Grundgesamtheit beträgt 8,165 und der Durchschnitt 100, so dass sich der Variationskoeffizient wie folgt ergibt

8.165 / 100 = 0.08165

Ein Datensatz von [1, 5, 6, 8, 10, 40, 65, 88] weist eine noch größere Variabilität auf. Seine Standardabweichung beträgt 32,9 und sein Mittelwert 27,9, woraus sich ein Variationskoeffizient von

32.9 / 27.9 = 1.18

Schätzung

Wenn nur eine Stichprobe von Daten aus einer Grundgesamtheit zur Verfügung steht, kann der CV der Grundgesamtheit anhand des Verhältnisses der Standardabweichung der Stichprobe zum Stichprobenmittelwert :

Wenn dieser Schätzer jedoch auf eine kleine oder mittelgroße Stichprobe angewandt wird, ist er tendenziell zu niedrig: Er ist ein verzerrter Schätzer. Für normalverteilte Daten ist ein unverzerrter Schätzer für eine Stichprobe des Umfangs n:

Lognormalverteilte Daten

Bei vielen Anwendungen kann davon ausgegangen werden, dass die Daten lognormal verteilt sind (was durch das Vorhandensein einer Schiefe in den Stichprobendaten belegt wird). In solchen Fällen wird eine genauere Schätzung, die von den Eigenschaften der Log-Normalverteilung abgeleitet ist, wie folgt definiert:

wobei die Stichprobenstandardabweichung der Daten nach einer natürlichen Logarithmentransformation ist. (Falls Messungen mit einer anderen logarithmischen Basis b aufgezeichnet wurden, wird ihre Standardabweichung in die Basis e umgerechnet, indem umgerechnet, und die Formel für bleibt gleich.) Diese Schätzung wird manchmal als "geometrischer CV" (GCV) bezeichnet, um sie von der obigen einfachen Schätzung zu unterscheiden. Der "geometrische Variationskoeffizient" wurde jedoch auch von Kirkwood definiert als:

Dieser Begriff sollte analog zum Variationskoeffizienten sein, um die multiplikative Variation in lognormalen Daten zu beschreiben, aber diese Definition des GCV hat keine theoretische Grundlage für eine Schätzung von selbst.

Für viele praktische Zwecke (wie die Bestimmung des Stichprobenumfangs und die Berechnung von Konfidenzintervallen) ist es der im Zusammenhang mit lognormalverteilten Daten am nützlichsten ist. Erforderlichenfalls kann dieser aus einer Schätzung von oder GCV abgeleitet werden, indem die entsprechende Formel umgedreht wird.

Vergleich zur Standardabweichung

Vorteile

Der Variationskoeffizient ist nützlich, weil die Standardabweichung von Daten immer im Zusammenhang mit dem Mittelwert der Daten verstanden werden muss. Im Gegensatz dazu ist der tatsächliche Wert des Variationskoeffizienten unabhängig von der Einheit, in der die Messung vorgenommen wurde, also eine dimensionslose Zahl. Für den Vergleich zwischen Datensätzen mit unterschiedlichen Einheiten oder stark unterschiedlichen Mittelwerten sollte man den Variationskoeffizienten anstelle der Standardabweichung verwenden.

Nachteile

  • Wenn der Mittelwert nahe bei Null liegt, nähert sich der Variationskoeffizient der Unendlichkeit und reagiert daher empfindlich auf kleine Änderungen des Mittelwerts. Dies ist häufig der Fall, wenn die Werte nicht von einer Verhältnisskala stammen.
  • Im Gegensatz zur Standardabweichung kann der Variationskoeffizient nicht direkt zur Erstellung von Konfidenzintervallen für den Mittelwert verwendet werden.
  • Der Lebenslauf ist kein idealer Index für die Messsicherheit, wenn die Anzahl der Wiederholungen zwischen den Proben variiert, da der Lebenslauf nicht von der Anzahl der Wiederholungen abhängt, während die Sicherheit des Mittelwerts mit zunehmender Anzahl der Wiederholungen zunimmt. In diesem Fall ist der Standardfehler in Prozent besser geeignet.

Anwendungen

Der Variationskoeffizient ist auch in angewandten Wahrscheinlichkeitsbereichen wie der Erneuerungstheorie, der Warteschlangentheorie und der Zuverlässigkeitstheorie verbreitet. In diesen Bereichen ist die Exponentialverteilung oft wichtiger als die Normalverteilung. Die Standardabweichung einer Exponentialverteilung ist gleich ihrem Mittelwert, so dass ihr Variationskoeffizient gleich 1 ist. Verteilungen mit einem Variationskoeffizienten < 1 (z. B. die Erlang-Verteilung) gelten als variantenarm, während Verteilungen mit einem Variationskoeffizienten > 1 (z. B. die Hyper-Exponentialverteilung) als variantenreich gelten. Einige Formeln in diesen Bereichen werden mit dem quadrierten Variationskoeffizienten ausgedrückt, der oft mit SCV abgekürzt wird. In der Modellierung ist eine Variante des CV der CV(RMSD). Im Wesentlichen ersetzt der CV(RMSD) den Begriff der Standardabweichung durch die mittlere quadratische Abweichung (Root Mean Square Deviation, RMSD). Während viele natürliche Prozesse in der Tat eine Korrelation zwischen dem Durchschnittswert und der Schwankungsbreite um diesen herum aufweisen, müssen genaue Sensorgeräte so konstruiert sein, dass der Variationskoeffizient nahe bei Null liegt, d. h. einen konstanten absoluten Fehler über ihren Arbeitsbereich ergibt.

In der Versicherungsmathematik wird der CV als unitisiertes Risiko bezeichnet.

In der industriellen Feststoffverarbeitung ist der CV besonders wichtig, um den Grad der Homogenität einer Pulvermischung zu messen. Vergleicht man den berechneten CV mit einer Spezifikation, so lässt sich feststellen, ob ein ausreichender Mischungsgrad erreicht wurde.

Labormessungen von Intra-Assay- und Inter-Assay-CVs

CV-Messungen werden häufig als Qualitätskontrollen für quantitative Labortests verwendet. Während man annehmen könnte, dass Intra-Assay- und Inter-Assay-CVs durch einfache Mittelung von CV-Werten über CV-Werte für mehrere Proben innerhalb eines Assays oder durch Mittelung mehrerer Inter-Assay-CV-Schätzungen berechnet werden, wurde darauf hingewiesen, dass diese Praktiken nicht korrekt sind und dass ein komplexerer Berechnungsprozess erforderlich ist. Es wurde auch festgestellt, dass CV-Werte kein idealer Index für die Sicherheit einer Messung sind, wenn die Anzahl der Wiederholungen zwischen den Proben variiert - in diesem Fall wird der Standardfehler in Prozent als besser vorgeschlagen. Wenn Messungen keinen natürlichen Nullpunkt haben, ist der CV kein gültiges Maß und es werden alternative Maße wie der Intraklassen-Korrelationskoeffizient empfohlen.

Als Maß für die wirtschaftliche Ungleichheit

Der Variationskoeffizient erfüllt die Anforderungen an ein Maß für die wirtschaftliche Ungleichheit. Wenn x (mit den Einträgen xi) eine Liste der Werte eines ökonomischen Indikators (z. B. Vermögen) ist, wobei xi das Vermögen des Akteurs i ist, dann sind die folgenden Anforderungen erfüllt:

  • Anonymität: cv ist unabhängig von der Reihenfolge der Liste x. Dies ergibt sich aus der Tatsache, dass die Varianz und der Mittelwert unabhängig von der Reihenfolge von x sind.
  • Skaleninvarianz: cv(x) = cvx), wobei α eine reelle Zahl ist.
  • Populationsunabhängigkeit - Wenn {x,x} die an sich selbst angehängte Liste x ist, dann ist cv({x,x}) = cv(x). Dies ergibt sich aus der Tatsache, dass sowohl die Varianz als auch der Mittelwert diesem Prinzip gehorchen.
  • Pigou-Dalton-Transferprinzip: Wenn Reichtum von einem reicheren Agenten i auf einen ärmeren Agenten j übertragen wird (d. h. xi > xj), ohne dass sich ihr Rang ändert, dann sinkt cv und umgekehrt.

cv nimmt seinen Minimalwert von Null an, wenn völlige Gleichheit herrscht (alle xi sind gleich). Sein größter Nachteil ist, dass er nicht von oben her begrenzt ist, so dass er nicht auf einen festen Bereich normiert werden kann (wie z. B. der Gini-Koeffizient, der zwischen 0 und 1 liegen muss). Er ist jedoch mathematisch besser handhabbar als der Gini-Koeffizient.

Als Maß für die Standardisierung von archäologischen Artefakten

Archäologen verwenden häufig CV-Werte, um den Grad der Standardisierung von antiken Artefakten zu vergleichen. Die Variation der CV-Werte wurde als Hinweis auf unterschiedliche kulturelle Übertragungskontexte bei der Übernahme neuer Technologien interpretiert. Variationskoeffizienten wurden auch verwendet, um die Standardisierung von Keramik im Zusammenhang mit Veränderungen in der sozialen Organisation zu untersuchen. Archäologen verwenden auch verschiedene Methoden zum Vergleich von CV-Werten, z. B. den Test auf Gleichheit der CVs mit dem modifizierten Signed-Likelihood-Ratio (MSLR).

Beispiele für Fehlanwendungen

Der Vergleich von Variationskoeffizienten zwischen Parametern unter Verwendung relativer Einheiten kann zu Unterschieden führen, die möglicherweise nicht real sind. Wenn wir dieselbe Reihe von Temperaturen in Celsius und Fahrenheit vergleichen (beides relative Einheiten, wobei Kelvin und Rankine-Skala die zugehörigen absoluten Werte sind): Celsius: [0, 10, 20, 30, 40]

Fahrenheit: [32, 50, 68, 86, 104]

Die Standardabweichungen der Stichproben betragen 15,81 bzw. 28,46. Der CV des ersten Satzes beträgt 15,81/20 = 79 %. Für den zweiten Satz (mit denselben Temperaturen) beträgt er 28,46/68 = 42 %.

Wenn es sich bei den Datensätzen beispielsweise um Temperaturmesswerte von zwei verschiedenen Sensoren handelt (einem Celsius-Sensor und einem Fahrenheit-Sensor) und Sie wissen wollen, welcher Sensor besser ist, indem Sie den mit der geringsten Varianz auswählen, dann werden Sie irregeführt, wenn Sie den CV verwenden. Das Problem dabei ist, dass Sie durch einen relativen Wert und nicht durch einen absoluten dividiert haben.

Vergleichen Sie denselben Datensatz, jetzt in absoluten Einheiten: Kelvin: [273,15, 283,15, 293,15, 303,15, 313,15]

Rankine: [491.67, 509.67, 527.67, 545.67, 563.67]

Die Standardabweichungen der Stichprobe betragen immer noch 15,81 bzw. 28,46, da die Standardabweichung nicht durch einen konstanten Offset beeinflusst wird. Die Variationskoeffizienten sind jetzt jedoch beide gleich 5,39 %.

Mathematisch gesehen ist der Variationskoeffizient nicht vollständig linear. Das heißt, für eine Zufallsvariable ist der Variationskoeffizient von gleich dem Variationskoeffizienten von nur dann, wenn . Im obigen Beispiel kann Celsius nur durch eine lineare Transformation der Form mit umgerechnet werden, während Kelvin durch eine Transformation der Form .

Verteilung

Unter der Voraussetzung, dass negative und kleine positive Werte des Stichprobenmittelwerts mit vernachlässigbarer Häufigkeit auftreten, ist die Wahrscheinlichkeitsverteilung des Variationskoeffizienten für eine Stichprobe der Größe von i.i.d. normalen Zufallsvariablen wurde von Hendricks und Robey wie folgt dargestellt

wobei das Symbol anzeigt, dass die Summierung nur über gerade Werte von d.h., wenn ungerade ist, summiert man über die geraden Werte von und wenn gerade ist, summiere nur über ungerade Werte von .

Dies ist z. B. bei der Konstruktion von Hypothesentests oder Konfidenzintervallen nützlich. Statistische Schlussfolgerungen für den Variationskoeffizienten bei normalverteilten Daten basieren häufig auf der McKay'schen Chi-Quadrat-Approximation für den Variationskoeffizienten

Alternative

Nach Liu (2012), Lehmann (1986). "auch die Stichprobenverteilung des Variationskoeffizienten abgeleitet, um eine exakte Methode für die Konstruktion eines Konfidenzintervalls für den Variationskoeffizienten zu erhalten"; sie basiert auf einer nicht-zentralen t-Verteilung.

Ähnliche Verhältnisse

Standardisierte Momente sind ähnliche Verhältnisse, wobei ist das k-te Moment um den Mittelwert, die ebenfalls dimensionslos und skaleninvariant sind. Das Verhältnis von Varianz zu Mittelwert, ist ein weiteres ähnliches Verhältnis, das jedoch nicht dimensionslos und somit nicht skaleninvariant ist. Für weitere Verhältnisse siehe Normalisierung (Statistik).

In der Signalverarbeitung, insbesondere der Bildverarbeitung, wird das reziproke Verhältnis (oder sein Quadrat) als Signal-Rausch-Verhältnis im Allgemeinen und als Signal-Rausch-Verhältnis (Bildverarbeitung) im Besonderen bezeichnet.

Andere verwandte Verhältnisse sind:

  • Wirkungsgrad,
  • Standardisiertes Moment,
  • Varianz-Mittelwert-Verhältnis (oder relative Varianz),
  • Fano-Faktor, (gefensterte VMR)

Variationskoeffizient für eine Zufallsvariable

Definition

Der Variationskoeffizient für eine Zufallsvariable mit Erwartungswert ist definiert als die relative Standardabweichung, das heißt die Standardabweichung dividiert durch den Erwartungswert der Zufallsvariablen, in Formeln

.

Der Variationskoeffizient wird häufig in Prozent angegeben.

Beispiel

Die reelle Zufallsvariable sei standardnormalverteilt, das heißt, Erwartungswert und Standardabweichung von haben den Wert 0 bzw. 1. Der Variationskoeffizient kann für diese Zufallsvariable gar nicht definiert werden (Division durch Null). Die verschobene Zufallsvariable hat ebenso die Standardabweichung 1, aber den Erwartungswert 1000. Hier errechnet sich ein Variationskoeffizient von .

Quadrierter Variationskoeffizient für eine Zufallsvariable

Die Varianz der Zufallsgröße wird als quadrierter Variationskoeffizient bzw. bezeichnet. Er hängt wie der Variationskoeffizient nicht von der Dimension ab, in der die Größe gemessen wird.

Empirische Variationskoeffizienten

Liegt an Stelle der Verteilung der Zufallsvariablen eine konkrete Messreihe von Werten vor, so bildet man analog den empirischen Variationskoeffizienten als Quotienten aus empirischer Standardabweichung und arithmetischem Mittel :

.

Gilt , so kann ein normierter Variationskoeffizient definiert werden als

,

für den gilt .

Wird die empirische Standardabweichung stattdessen nicht aus der korrigierten Stichprobenvarianz berechnet (also statt verwendet), dann ist statt im Nenner von der Wert zu verwenden.

Empirischer Quartilsdispersionskoeffizient

Der Quartilsdispersionskoeffizient ist eine robuste Version des Variationskoeffizienten

,

also der Interquartilsabstand dividiert durch den Median.