Ihre Datenanalyse Lösung

Histogramme und Verteilungsanpassungen in Excel

20/10/2017

In diesem Tutorium erstellen wir ein Histogramm und verwenden das XLSTAT-Tool Anpassen eines Wahrscheinlichkeitsgesetzes, um zu testen, ob eine Stichprobe einer negativen Binomialverteilung folgt in Excel. Diese Verteilung wird oft verwendet, um das Phänomen der Aggregation/Dispersion von Bakterien in Wasserumgebungen zu repräsentieren.

Daten zum Erstellen eines Histogramms und Anpassen eines Wahrscheinlichkeitsgesetzes

Eine Excel-Mappe mit den Daten und den Ergebnissen, die in diesem Tutoriel behandelt werden, kann hier heruntergeladen werden. Die Daten entsprechen einem Experiment, bei dem 200 Wasserstichproben von verschiedenen Flüssen auf Medien mit Nahrung kultiviert wurden um festzustellen, ob Präsenz oder Abwesenheit einer Kontaminierung mit E. Kolibakterien vorliegen. Die Anzahl der Kolonien wurde nach 72 Stunden Inkubationszeit gezählt. In den Bakt-Daten Spalten finden Sie die Anzahl in den 200 Stichproben.

Zunächst mittels XLSTAT Tools zur Erstellung von Histogrammen und dann mittels des Tools Anpassung einer Verteilung wird überprüft, ob die Stichprobe (im statistischen Sinne) einer negativen Binomialverteilung folgt oder nicht. Im allgemeinen stellt eine negative Binomialverteilung die Aggregations- oder Dispersionsphänomene von Bakterien in Wasserumgebung gut dar.

Einrichten des Dialogfensters zum Erstellen eines Histogramms

Nach Öffnen von XLSTAT, wählen Sie den Befehl XLSTAT / Beschreibung der Daten  / Histogramme oder klicken Sie auf den entsprechenden Button in der Toolbar „Beschreibung der Daten“ (siehe unten).

bardesc1.gif

Sobald Sie auf den Button geklickt haben, erscheint ein Dialogfenster. Wählen Sie die Daten auf dem Excel-Blatt aus. Die „Daten“ sind in der Spalte B. Aktivieren Sie die Option “Diskrete”, da die Zählungen diskrete Werte darstellen. Die Option „Beschriftung der Stichproben“ bleibt aktiviert, da die erste Zeile der Datenauswahl den Variablennamen enthält.

histo1.gif

Die Berechnungen beginnen, sobald Sie den Button "OK" geklickt haben. Anschließend werden die Ergebnisse angezeigt. Die erste Ergebnistabelle zeigt die absoluten und relativen Häufigkeiten an, die zur Erstellung des Histogramms dienten. Im Histogramm kann man erkennen, dass 0 der am häufigsten vorkommende Wert ist der über 20% der Daten darstellt. Dies bedeutet, dass in mehr als einer aus fünf Stichproben eine Bakterie gefunden wurde. Man kann ebenfalls feststellen, dass die Häufigkeit schnell abfällt. In einer Stichprobe wurden über 36 Kolonien gezählt.

histo2.gif

Da wir die Anpassung der Stichprobe gegenüber einer negativen Binomialverteilungsfunktion testen möchten, (der Chi-Quadrat-Test erfordert mindestens 5 Daten in einer Klasse) und weil eine gewisse Unsicherheit bei den Zählungen der Bakterien besteht, scheint es angebracht die Zählungen in größere Klassen einzuteilen. Aus diesem Grund haben wir eine Liste von Intervallgrenzen gebildet, die aus dieses Problem abstimmt sind: 0,1,2,3,4,5,10,15,20 und 40. Um zu überprüfen, of die Häufigkeiten der neuen Klassen jeweils über 5 liegen und gleichmäßig abfallen, erstellen wir ein neues Histogramm mit dem Tool „Diskretisierung“, dass das freie Bestimmen von Intervallgrenzen zwischen den Klassen ermöglicht.

Um dieses Tool zu aktivieren, wählen Sie den Befehl XLSTAT/Vorbereitung der Daten /Diskretisierung oder klicken Sie auf den entsprechenden Button in der Toolbar "Diskretisieren" (siehe unten).

bardisc1.gif

Once you've clicked on the button, the dialog box appears. Select the data on the Excel sheet. The "Data" are in the B column. We activate the "List of bounds" dialog box and then select the bounds on the Excel sheet. We then click on "Import", and then the bounds and the frequencies appear in the lower part of the dialog box. We have the opportunity to modify the bounds if necessary, but in our case the bounds and the frequencies look exactly as we expected (the lowest frequency is 6, which is compatible with the constraints of the Chi-square test).

histo3.gif

The computations begin once you have clicked on the "OK" button, and the new histogram appears.

histo4.gif

As we are satisfied by this result, we can now use the distribution fitting tool to test if the sample follows a negative binomial distribution.

Um das Tool zu aktivieren, wählen Sie den Befehl XLSTAT/Modellierung der Daten/Anpassung einer Verteilung oder klicken Sie auf den entsprechenden Button der Toolbar "Modellierung der Daten" (siehe unten).

bardfit1.gif

Sobald Sie auf den Button geklickt haben, erscheint ein Dialogfenster. Wählen Sie die Daten auf dem Excel-Blatt aus. Die „Daten“ sind in der Spalte B. Wir lassen XLSTAT die Parameter der negativen Binomialverteilungsfunktion "schätzen". XLSTAT bietet Ihnen zwei verschiedene Formulierungen der negativen Binomialverteilung an. Die in unserem Fall zutreffende ist die zweite. Wir aktivieren die Option für Kolmogorov-Smirnov und den Gütetest mittels Chi-Quadrat, die zum Überprüfen unserer Annahmen notwendig sind. Für den Chi-Quadratest importieren wir die Intervallgrenzen.

histo5.gif

The first result of interest for us is the value of the k and p parameters of the negative binomial distribution (fitted using the maximum likelihood method), and the estimates of the sample and theoretical mean and variance.

histo6.gif

Man bemerkt, dass die Mittelwerte und Varianzen sich nicht stark unterscheiden, was auf die kleine Größe der Stichprobe und der guten Anpassung zurückzuführen ist. Bemerkung: Der theoretische Mittelwert ist gegeben durch kp und die theoretische Varianz durch kp(p+1).

Der Test von Kolmogorov Smirnov erlaubt es zu überprüfen, ob die größte Differenz zwischen empirischem und theoretischem Wert der kumulierten Verteilungsfunktion über dem kritischen Wert liegt oder nicht. Aus den Ergebnis schließt man (p-value=0,129), dass bei einem Signifikanzniveau von 0,05 die Hypothese einer der negativen Biomialverteilung folgender Stichprobe mit den beiden Parametern k=0,839 und p=5,763 nicht zurückgewiesen werden kann. Dieser Test ist angepaßter als der Chi-Quadrattest im Fall von kontinuierlichen Verteilungsfunktion, was für die negative Binomialverteilung nicht zutrifft. Daher ist es sinnvoll, einen Chi-Quadrattest durchzuführen.

Der Chi-Quadrat Anpassungsgüte-Test erlaubt es, zu überprüfen, ob die Differenz des Chi-Quadrat-Abstands zwischen der empirischen und theoretischen Verteilungsfunktion oberhalb der kritischen Wertes ist oder nicht. Ein visueller Vergleich zwischen der beobachteten und der theoretischen Häufigkeit ist verfügbar in der nächsten Abbildung. Für die Klassen 1 und 4 scheint es eine leichte Differenz zu geben (man findet mehr Stichproben mit keinen Bakterien und es gibt weniger Stichproben, die in Klasse 6 fallen).

histo7.gif

Trotz dieser kleinen Differenz ist der für den Test berechnete p-value (0,360) grösser als das ausgewählte Signifikanzniveau (0,05). Daher bestätigt der Chi-Quadrattest den Eindruck, den wir nach Analyse der Ergebnisse des Kolmogorov Smirnov Tests hatten.

Als Schlussfolgerung kann man sagen, dass die Präsenz der betrachteten Bakterien im Fluß aus dem die Proben stammen, einer negativen Binomialverteilung (k=0,839, p=5,763), mit einem Mittelwert von 4,8 und einer Varianz von 32,7 folgen.

1c26995d494fb3061dd0ae8571ffc0a4@xlstat.desk-mail.com
https://cdn.desk.com/
false
desk
Laden
Sekunden her
eine Minute her
Minuten her
eine Stunde her
Stunden her
einen Tag her
Tage her
über
false
Ungültige Zeichen gefunden
/customer/portal/articles/autocomplete
9283