[Mathe] Zentraler Grenzwertsatz

    • w3cRaY
      w3cRaY
      Bronze
      Dabei seit: 12.06.2007 Beiträge: 5.274
      Hey,
      vielleicht kann mich hier ja der ein oder andere erleuchten.

      So wie ich den zentralen Grenzwertsatz jetzt verstanden hab, ist jede Zufallsgröße, so lange man nur oft genug misst und die Varianz nicht ins Unendliche wächst, normalverteilt.

      Nun habe ich schon desöfteren an Datensätzen festgestellt, dass diese, je mehr ich aus einer Gruppe hinzufüge, die Hypothese der Normalverteilung nicht mehr erfüllen, was ja komplett im Gegensatz zu obigem Satz steht.

      Beispiel: ich habe Gruppe 1 (20 Datensätze) und Gruppe 2 (20 Datensätze), welche aus der gleichen Grundgesamtheit kommen (zum Beispiel Personen eines gewissen Berufs, einer gewissen politischen Orientierung etc. pp). Jede einzelne wird nach gewissen Gesichtspunkten untersucht, sagen wir, ich habe 5 Merkmale.

      Für jede dieser 5 Merkmale kann ich jetzt, zum Beispiel unter dem Gesichtspunkt des Geschlechtes der in den jeweiligen Gruppen enthaltenen Datensätze, bestimmen, ob zum Beispiel das Einkommen der Gruppe 1 männlich normalverteilt ist. Sagen wir dies ist bei Gruppe 1 und Gruppe 2 der Fall (wie gesagt, beide sind sozusagen Stichproben aus der gleichen Grundgesamtheit, unauffällig, zufällig).

      Nun werf ich die beiden Gruppen zusammen und habe eine neue Stichprobe, die 40 Datensätze umfasst. Führe ich nun wieder Normalverteilungstests durch (nutze im Moment Shapiro-Wilk als Hypothesentest), stelle ich fest, dass die Eigenschaft der Normalverteilung für jedes Merkmal wesentlich seltener gegeben ist als für die Gruppen 1 und 2 getrennt.

      Prinzipiell ist mir das auch wesentlich verständlicher als wenn sie nun häufiger normalverteilt wären. Schließlich lässt sich die Gauß-Funktion leichter an wenige als an mehr Punkte fitten. Nun sagt der aber der Grenzwertsatz doch das genaue Gegenteil?

      Grüße
      RaY
  • 1 Antwort
    • SoWe
      SoWe
      Global
      Dabei seit: 10.01.2008 Beiträge: 2.397
      der zentrale grenzwertsatz hat einige voraussetzungen, so müssen varianz und erwartungswert existieren. ist das der fall?

      -------------------

      ausserdem gilt der grenzwertsatz, wie der name schon sagt, für den grenzprozess "anzahl zufallsvariablen gegen unendlich"
      40 ist nicht gerade unendlich

      --------------------

      nirgendwo steht, und das ist auch nicht so, dass hinzunehmen von einzelnen zufallsvariablen einen unbedingt näher zur normalverteilung bringt.

      --------------------

      auch verstehst du den grenzwertsatz eventuell falsch - er sagt aus, dass die verteilung der summe der identisch verteilten zufallsvariablen sich der normalverteilung annähert

      das heißt NICHT, dass die einzelnen zufallsvariablen auf einer glockenkurve liegen, beispiel:
      zufallsvariable, gegeben durch folgende tabelle oben das ergeignis, unten die WS

      -0,1 | 0 | 0,1 | 0,9 | 1 | 1,1
      0,1 | 0,3 |0,1 | 0,1 | 0,3 | 0,1


      wenn du das jetzt 500 mal simulierst und dir anschaust, was wie oft vorgekommen ist, dann ist das keineswegs eine glockenkurve, egal wie oft du diesen vorgang wiederholst


      wenn du nun allerdings 100 gesamtsimulationen von je 500 einzelsimulationen und aufsummieren der einzelsimulationen vornimmst, und dann die ergebnisse dieses vorgangs in eine grafik packst, dann wird das eher wie eine normalverteilung aussehen