Computers

So führen Sie einen Normalitätstest in Excel durch: Chi-Quadrat-Anpassungsgüte

Autor: Peter Berry
Erstelldatum: 18 Juli 2021
Aktualisierungsdatum: 11 Kann 2024
Anonim
So führen Sie einen Normalitätstest in Excel durch: Chi-Quadrat-Anpassungsgüte - Computers
So führen Sie einen Normalitätstest in Excel durch: Chi-Quadrat-Anpassungsgüte - Computers

Inhalt

Ich habe zahlreichen Vermarktern und Business-Studenten geholfen, zu verstehen, wie man Unternehmensstatistiken verwendet, um reale Probleme zu lösen.

So führen Sie den einfachsten und robustesten Normalitätstest von Excel durch

Dieser Artikel zeigt Ihnen Schritt für Schritt und einfach zu befolgende Anweisungen, wie Sie den Chi-Quadrat-Anpassungstest in Excel durchführen. Jedes Mal, wenn Sie einen Test und eine Regression, eine Korrelation oder eine ANOVA ausführen, sollten Sie sicherstellen, dass Sie mit normalverteilten Daten arbeiten. Andernfalls ist Ihre Analyse wahrscheinlich nicht gültig. Der einfachste und robusteste Excel-Test für Normalität ist der Chi-Quadrat-Anpassungstest. Hier erfahren Sie, wie es geht.

Was ist der Chi-Quadrat-Anpassungstest?

Um zu überprüfen, ob Sie mit normalverteilten Daten arbeiten, besteht der schnelle und schmutzige Excel-Test einfach darin, die Daten in ein Excel-Histogramm zu werfen und die Form des Diagramms zu betrachten. Wenn es noch eine Frage gibt, ist der nächste (und einfachste) Normalitätstest der Chi-Quadrat-Anpassungstest.


Dieser Test ist weniger bekannt als einige andere Normalitätstests wie der Kolmogorov-Smirnov-Test, der Anderson-Darling-Test oder der Shapiro-Wilk-Test. Der Chi-Quadrat-Anpassungstest ist jedoch viel weniger kompliziert, genauso robust und in Excel (bei weitem) viel einfacher zu implementieren als jeder der bekannteren Normalitätstests. Lassen Sie uns ein Beispiel durchgehen.

Die Anfangsdaten

Der erste Schritt des Normalitätstests besteht darin, die Daten in einem Excel-Histogramm grafisch darzustellen. Hier sind die ersten Daten, die wir auf Normalität testen:

Das Histogramm

Das aus den Anfangsdaten erstellte Excel-Histogramm lautet wie folgt:

Das obige Histogramm ähnelt etwas einer Normalverteilung, aber wir sollten trotzdem einen robusteren Test anwenden, um sicherzugehen. Der Chi-Quadrat-Anpassungstest in Excel ist sowohl robust als auch einfach durchzuführen, zu verstehen und anderen zu erklären. Hier erfahren Sie, wie Sie diesen Test mit den oben genannten Daten durchführen.


Anwenden der beschreibenden Statistikfunktion

Der erste Schritt des Chi-Quadrat-Anpassungstests in Excel besteht darin, die Excel-Funktion "Descriptive Statistics" auf die Beispieldaten anzuwenden.

Wir müssen den Mittelwert, die Standardabweichung und die Stichprobengröße der Daten kennen, die wir auf Normalität testen möchten. Verwenden Sie das Excel-Tool Descriptive Statistics, um diese Informationen abzurufen. In Excel 2003 finden Sie dieses Tool unter Tools / Datenanalyse / Beschreibende Statistik.

Wie der Chi-Quadrat-Anpassungstest funktioniert

Nachdem wir den Stichprobenmittelwert, die Standardabweichung und die Stichprobengröße ermittelt haben, können wir den Chi-Quadrat-Anpassungstest für die Daten in Excel durchführen.

Dies ist ein Hypothesentest. Die getesteten Null- und Alternativhypothesen sind:


  • H0 = Die Daten folgen der Normalverteilung.
  • H1 = Die Daten folgen nicht der Normalverteilung.

Schnelle Testzusammenfassung

Wir unterteilen die beobachteten Stichproben in Gruppen, die dieselben Grenzen haben wie die Fächer, die bei der Erstellung des Histogramms in Excel festgelegt wurden. In diesem Fall fielen die beobachteten Proben in die folgenden Behälter:

  • 3 bis 4 - 1 Probe hatte einen Wert in diesem Bereich
  • 4 bis 5 - 1 Probe hatte einen Wert in diesem Bereich
  • 5 bis 6 - 2 Proben hatten einen Wert in diesem Bereich
  • 6 bis 7 - 4 Proben hatten einen Wert in diesem Bereich
  • 7 bis 8 - 6 Proben hatten einen Wert in diesem Bereich
  • 8 bis 9 - 7 Proben hatten einen Wert in diesem Bereich
  • 9 bis 10 - 7 Proben hatten einen Wert in diesem Bereich
  • 10 bis 11 - 4 Proben hatten einen Wert in diesem Bereich
  • 11 bis 12 - 4 Proben hatten einen Wert in diesem Bereich
  • 12 bis 13 - 3 Proben hatten einen Wert in diesem Bereich
  • 13 bis 14 - 1 Probe hatte einen Wert in diesem Bereich

Die obigen Abbildungen zeigen die beobachtete Anzahl von Proben in jedem Behälterbereich. Wir müssen nun berechnen, wie viele Proben wir in jedem Behälter erwarten würden, wenn die Probe normal mit dem gleichen Mittelwert und der gleichen Standardabweichung wie die entnommene Probe verteilt wäre (Mittelwert = 8,634 und Standardabweichung = 2,5454).

Die erwartete Anzahl von Proben in jedem Behälter wird nach der folgenden Formel berechnet:

(Bereich der Normalkurve, begrenzt durch die oberen und unteren Grenzen des Behälters) x (Gesamtzahl der entnommenen Proben)

Wenn zum Beispiel nur 2 Bins vorhanden wären, die sich zum Mittelwert treffen, hätte die entsprechende Normalkurve 2 Regionen mit einer Grenze zum Mittelwert der Normalkurve. Jeder der beiden Bereiche der Normalkurve würde 50% der Fläche unter der gesamten Normalkurve enthalten. Wir würden daher erwarten, dass 50% der Gesamtzahl der entnommenen Proben in jeden Behälter fallen. Wenn zum Beispiel 42 Proben entnommen würden, würden wir erwarten, dass 21 Proben in jedem Behälter auftreten, wenn die Proben normal verteilt wären.

Angesichts der Bin-Bereiche, die wir für das Excel-Histogramm festgelegt haben, und der Anzahl der beobachteten Proben in jedem Bin müssen wir nun die Anzahl der Proben berechnen, die wir in jedem Bin erwarten würden. Wir gehen davon aus, dass die Proben normalerweise mit dem gleichen Mittelwert und der gleichen Standardabweichung verteilt sind, die von der tatsächlichen Probe gemessen wurden. Unter diesen Voraussetzungen verwenden wir die oben beschriebene Methode, um zu berechnen, wie viele Stichproben in jedem Bin zu erwarten sind.

So berechnen Sie die Chi-Quadrat-Statistik

Sobald wir die beobachtete und erwartete Anzahl von Proben in jedem Behälter kennen, berechnen wir die Chi-Quadrat-Statistik.

Aus den Daten wird mit dieser Formel eine Chi-Quadrat-Statistik erstellt:

Chi-Quadrat-Statistik = Σ [[(Erwartete Anzahl - Beobachtete Anzahl) ^ 2] / (Erwartete Anzahl)]

Ein p-Wert wird in Excel aus dieser Excel-Formel berechnet:

p Wert = CHIDIST (Chi-Quadrat-Statistik, Freiheitsgrade)

Wir nehmen alle Proben und teilen sie in Gruppen auf. Diese Gruppen werden als Behälter bezeichnet. Wir werden die gleichen Fächer verwenden, die beim Erstellen des Histogramms in Excel verwendet wurden. Die Behälter sind wie folgt:

Die Größe des p-Werts bestimmt, ob wir davon ausgehen, dass die Stichproben normal verteilt sind oder nicht.

Die Entscheidungsregel

Wenn der resultierende p-Wert kleiner als das Signifikanzniveau ist, lehnen wir die Nullhypothese ab und geben an, dass wir nicht innerhalb des erforderlichen Sicherheitsgrades angeben können, dass die Daten normal verteilt sind. Mit anderen Worten, wenn wir mit 95% iger Sicherheit angeben möchten, dass die Daten durch die Normalverteilung beschrieben werden können, beträgt der Signifikanzgrad 5%. Der Signifikanzgrad = 1 - Erforderlicher Sicherheitsgrad. Wenn der resultierende p-Wert größer als 0,05 ist, können wir mit mindestens 95% iger Sicherheit angeben, dass die Daten normal verteilt sind.

Aufbrechen der normalen Kurve in Regionen

Der Chi-Quadrat-Anpassungstest erfordert, dass die Normalverteilung in Abschnitte unterteilt wird. In jedem Abschnitt zählen wir, wie viele auftreten. Dies ist unsere Beobachtungsnummer für jeden Abschnitt. Die Excel-Histogramm-Funktion hat dies bereits für uns erledigt. Hier ist noch einmal die Ausgabe des Excel-Histogramms:

Bei der Erstellung des Excel-Histogramms aus den Daten mussten wir angeben, in wie viele "Bins" die Stichproben unterteilt werden sollen. Excel zählte die Anzahl der beobachteten Proben in jedem Behälter und zeichnete die Ergebnisse im obigen Histogramm auf.

Da Excel bereits gezählt hat, wie viele beobachtete Proben sich in jedem Behälter befinden, werden wir die Behälter auch als Abschnitte für den Chi-Quadrat-Anpassungstest verwenden. Wir wissen, wie viele tatsächliche Proben in jedem Behälter beobachtet wurden. Wir müssen jetzt berechnen, wie viele Proben in jedem Bin erwartet worden wären.

Berechnung der erwarteten Anzahl von Proben in jedem Behälter

Die Größe jedes Behälters bestimmt, wie viele Proben in diesem Behälter erwartet worden wären. Jeder Behälter repräsentiert einen Prozentsatz der Gesamtfläche unter der Verteilungskurve, die wir bewerten. Dieser Prozentsatz der Gesamtfläche, der einem Behälter zugeordnet ist, repräsentiert die Wahrscheinlichkeit, dass jede beobachtete Probe aus diesem Behälter gezogen wird.

Hier ist ein einfaches Beispiel, das hoffentlich den obigen Absatz verdeutlichen wird. Wenn wir einen Datensatz auf Normalität auswerten würden, würden wir versuchen festzustellen, ob die Daten zur Normalkurve passen. Wir müssen bestimmen, in welche Bereiche die Datenbereiche unterteilt werden. Die einfachste Behälteranordnung wäre, alle Daten in nur zwei Behältern auf jeder Seite des Mittelwerts der Probe zu platzieren. Wenn die Daten normal verteilt wären, würden wir erwarten, dass die Hälfte der Proben in jedem Bin auftritt.

Mit anderen Worten, wenn die Behälter entlang der x-Achse relativ zum Mittelwert der Probe platziert würden, so dass jeder Behälter direkt unter 50% einer normalen Kurve mit demselben Mittelwert liegen würde, würden wir erwarten, dass jeweils 50% der Proben auftreten Behälter. Wenn insgesamt 60 Proben entnommen würden, würden wir erwarten, dass 30 Proben in jedem Behälter auftreten.

Die erwartete Anzahl von Proben für einen einzelnen Behälter = Exp.

Exp. = (Fläche unter der normalen Kurve über dem oberen Rand des Behälters) x (Gesamtzahl der Proben)

Berechnung der CDF

Mit der Cumulative Distribution Function (CDF) können wir die normale Kurvenfläche über jedem Bin ermitteln. Die CDF an einem beliebigen Punkt auf der x-Achse ist die Gesamtfläche unter der Kurve links von diesem Punkt. Wir können den Prozentsatz der Fläche in der Normalkurve für jeden Behälter erhalten, indem wir die CDF am x-Wert der unteren Grenze des Behälters von der CDF am x-Wert der oberen Grenze des Behälters subtrahieren.

Die Normalverteilung, die wir versuchen, Daten anzupassen, hat als zwei und einzige Parameter den Mittelwert und die Standardabweichung der Stichprobe.

Die CDF dieser Normalverteilung an jedem Punkt der x-Achse kann durch die folgende Excel-Formel bestimmt werden:

CDF = NORMDIST (x-Wert, Stichprobenmittelwert, Stichprobenstandardabweichung, WAHR)

Diese Formel berechnet erneut die CDF bei diesem x-Wert, der die Fläche unter der Normalkurve links vom x-Wert ist. Diese normale Kurve hat als Parameter den Mittelwert und die Standardabweichung der Probe.

CDF Galerie

Berechnungsfläche in Behältern

Oben sind diese Berechnungen aufgeführt, die in Excel unter Verwendung der Histogramm-Bin-Bereiche und eines Stichprobenmittelwerts von 8,643 und einer Standardabweichung von 2,5454 durchgeführt wurden.

Berechnung der erwarteten Anzahl von Proben in jedem Behälter

Wir können jetzt die erwartete Anzahl von Proben in jedem Behälter nach der folgenden Formel berechnen:

Exp. Anzahl der Proben in jedem Behälter =

(Prozentsatz der Kurvenfläche in diesem Bin) x Gesamtzahl der Proben

Diese Berechnung für jeden Behälter wird in der ersten Spalte unten abgeschlossen. Für diese Übung wurden insgesamt 42 Proben entnommen.

Berechnung der Chi-Quadrat-Statistik

Das Endergebnis der obigen Excel-Berechnungen ist die letzte Spalte von (Exp. - Obs.) ^ 2 / Exp. für jeden Behälter. Diese Zahlen werden dann wie folgt summiert, um die gesamte Chi-Quadrat-Statistik für die Probendaten zu erhalten. In diesem Fall beträgt die Chi-Quadrat-Statistik der Beispieldaten 4,653.

Freiheitsgrade berechnen

Für den Chi-Quadrat-Anpassungsgütetest muss die Anzahl der Freiheitsgrade für den jeweiligen Test berechnet werden. Die Formel hierfür lautet wie folgt:

Freiheitsgrade = df = (Anzahl der gefüllten Behälter) - 1 - (Anzahl der aus der Stichprobe berechneten Parameter)

Die Anzahl der gefüllten Behälter = 12

Wir haben den Mittelwert und die Standardabweichung von der Stichprobe berechnet. Dies sind 2 Parameter.

df = 12 - 1 - 2 = 9

Wir können nun den p-Wert aus der Chi-Quadrat-Statistik und den Freiheitsgraden berechnen, wie direkt oben gezeigt.

Die grafische Interpretation des p-Werts

Die grafische Interpretation des p-Werts ist unten dargestellt. Der p-Wert repräsentiert den Prozentsatz der Fläche (in rot) rechts von X = 4,653 unter einer Chi-Quadrat-Verteilung mit 9 Freiheitsgraden. Wenn der p-Wert (.8634) größer als der Signifikanzgrad (0.05) ist, lehnen wir die Nullhypothese nicht ab.

In diesem Fall geben wir an, dass wir die Nullhypothese nicht ablehnen und keine ausreichenden Beweise dafür haben, dass die Daten nicht normal verteilt sind.

Dieser Artikel ist genau und nach bestem Wissen des Autors. Der Inhalt dient nur zu Informations- oder Unterhaltungszwecken und ersetzt nicht die persönliche Beratung oder professionelle Beratung in geschäftlichen, finanziellen, rechtlichen oder technischen Angelegenheiten.

Ihre Meinungen, Fragen und Kommentare sind für uns sehr wichtig. Wir freuen uns darauf, von Ihnen zu hören!

Nik am 26. April 2019:

Ich bin mir nicht sicher, wie Sie auf die unteren und oberen Bin-Bereiche gekommen sind. Für mich wäre es sinnvoller, wenn der niedrigste Bin-Bereich bei einer großen negativen Zahl beginnen würde und die oberste Bin-Nummer mit einer großen positiven Zahl enden würde (z. B. -10 ^ (- 7) und 10 ^ 7). Dann würden die tatsächlichen Behälternummern verwendet, um die Zwischenbehälterbereiche zu konstruieren. Zum Beispiel würde BR_1 [-10 ^ (- 7), 3] lesen, BR_2 würde [3, 4] lesen und so weiter, bis die letzte Zeile BR_13 [14, 10 ^ 7] liest. Warum ist das nicht der Fall? Es scheint mir, dass die vorgeschriebene Methode den normalen Bereich, den jeder Behälter enthalten sollte, leicht verzerrt.

Frische Publikationen.

Interessante Beiträge

So beheben Sie ein schwaches Signal von Ihrem WLAN-Router
Internet

So beheben Sie ein schwaches Signal von Ihrem WLAN-Router

Ich war chon immer daran intere iert, die be ten Möglichkeiten zu finden, um meinen Computer zu be chleunigen.Die mei ten Hau halte haben nur einen einzigen Breitbandan chlu . E gibt jedoch norma...
Tipps zur Auswahl sprechender Anrufer-ID-Telefone oder Add-On-Einheiten
Misc

Tipps zur Auswahl sprechender Anrufer-ID-Telefone oder Add-On-Einheiten

Ich for che und chreibe eit über 13 Jahren über Unterhaltung elektronik.Die Anrufer-ID-Funktion eignet ich hervorragend zum Überprüfen Ihrer Telefonanrufe und zum Reduzieren der An...