14,99 €
Dieses Buch ermöglicht Ihnen auf leicht verständliche Weise den Einstieg in statistische Fragestellungen. In einer einheitlichen Darstellungsweise mit wiederkehrenden Abschnitten "So geht?s", "Darauf kommt es an", "Das steckt dahinter" führt es Sie dann zu fortgeschrittenen Themen wie stochastischen Prozessen oder Zeitreihen. Die Formeln und Rechenverfahren, die Sie beherrschen müssen, werden so vorgestellt, dass Sie sie sofort einsetzen können. Die Beispiele stammen aus unterschiedlichen Gebieten. So sehen Sie auch für Ihr Fach, wie die Methoden dort eingesetzt werden.
Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 428
Statistik für Ingenieure für Dummies
Wenn ein Versuch oft genug unabhängig durchgeführt wird, kommen die Häufigkeit jedes Ereignisses seiner Wahrscheinlichkeit und das arithmetische Mittel der Versuchsergebnisse seinem Erwartungswert beliebig nahe.
Wenn ein Versuch oft genug unabhängig durchgeführt wird, dann sind die Standardisierungen der Summe der Versuchsergebnisse und des Mittelwerts der Versuchsergebnisse N(0,1)-normalverteilt.
Normalverteilung beziehungsweise t-Verteilung
Testen einer WahrscheinlichkeitTesten eines ErwartungswertsAuswirkung zufälliger Abweichungen beim Einsetzen von Messergebnissen in Formeln
Gauß'sche Fehlerfortpflanzung: Anwenden, wenn mehrere Messungen vorliegen und wenn es keinen Zusammenhang zwischen den Abweichungen bei den einzelnen Messgrößen gibt.Lineare Fehlerfortpflanzung: Anwenden, wenn nur eine Messung vorliegt oder sich die Abweichungen der Messgrößen ungünstig überlagern können.Statistik für Ingenieure für Dummies
Bibliografische Informationder Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.
1. Auflage 2018
© 2018 WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim
All rights reserved including the right of reproduction in whole or in part in any form. This book published by arrangement with John Wiley and Sons, Inc.
Alle Rechte vorbehalten inklusive des Rechtes auf Reproduktion im Ganzen oder in Teilen und in jeglicher Form. Dieses Buch wird mit Genehmigung von John Wiley and Sons, Inc. publiziert.
Wiley, the Wiley logo, Für Dummies, the Dummies Man logo, and related trademarks and trade dress are trademarks or registered trademarks of John Wiley & Sons, Inc. and/or its affiliates, in the United States and other countries. Used by permission.
Wiley, die Bezeichnung »Für Dummies«, das Dummies-Mann-Logo und darauf bezogene Gestaltungen sind Marken oder eingetragene Marken von John Wiley & Sons, Inc., USA, Deutschland und in anderen Ländern.
Das vorliegende Werk wurde sorgfältig erarbeitet. Dennoch übernehmen Autoren und Verlag für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie eventuelle Druckfehler keine Haftung.
Coverfoto: empics/stock.adobe.comKorrektur: Petra Heubach-Erdmann
Print ISBN: 978-3-527-71556-5ePub ISBN: 978-3-527-81937-9
Cover
Titelseite
Impressum
Einführung
Über dieses Buch – oder: »… für Dummies« verpflichtet!
Wie man dieses Buch benutzt
Törichte Annahmen über die Leser
Wie dieses Buch aufgebaut ist
Die Symbole in diesem Buch
Wie es weitergeht
Teil I: Beschreibende Statistik
Kapitel 1: Klarmachen zum Datensammeln
Wer Sie interessiert: Die Beobachtungsmenge
Was Sie interessiert: Merkmale
Wen Sie tatsächlich befragen: Stichproben
Kapitel 2: Daten grafisch darstellen
Grafiken für zeitliche Entwicklungen und ihre Tücken
Häufigkeitsdarstellungen für diskrete quantitative Merkmale
Klasseneinteilungen (nicht nur) für stetige quantitative Merkmale
Tortendiagramme für diskrete qualitative Merkmale
Kapitel 3: Kennzahlen für den Durchschnitt herausarbeiten
Das arithmetische Mittel
Der Median
Varianz und Standardabweichung
Quantile
Weitere Durchschnittswerte: geometrisches Mittel und Modus
Kapitel 4: Zusammenhänge zwischen zwei Merkmalen untersuchen
Die Punktewolke für die gleichzeitige Untersuchung von zwei quantitativen Merkmalen
Die Regressionsgeraden einer Punktewolke
Bedingte Mittelwerte und Standardabweichungen
Der (empirische) Korrelationskoeffizient zweier quantitativer Merkmale
Teil II: Wahrscheinlichkeitsrechnung
Kapitel 5: Klassische Wahrscheinlichkeitsrechnung
Ereignisse und ihre Wahrscheinlichkeiten
Laplace-Versuche
Permutationen, Kombinationen und Variationen
Bedingte Wahrscheinlichkeiten
Unabhängigkeit
Erwartungswert
Kapitel 6: Zufallsvariablen und ihre Verteilungen
Zufallsvariablen
Erwartungswert, Varianz und Standardabweichung
Unabhängigkeit und Korrelation
Das Gesetz der großen Zahlen
Kapitel 7: Häufig verwendete Verteilungen
Geometrische Verteilung
Binomialverteilung
Poisson-Verteilung
Hypergeometrische Verteilung
Stetige Gleichverteilung
Exponentialverteilung
Kapitel 8: Die Normalverteilung
Die Eigenschaften der Standardnormalverteilung
Zugriff auf die Werte der Verteilung
Die allgemeine Normalverteilung
Der zentrale Grenzwertsatz
Als Auffangposition: Die
-Verteilung
Teil III: Beurteilende Statistik
Kapitel 9: Schätzen von Parametern
Konfidenzintervalle
Schätzen der Wahrscheinlichkeit eines Ereignisses aus der relativen Häufigkeit
Schätzen eines Erwartungswerts aus dem Mittelwert von Versuchsergebnissen
Schätzen der Varianz aus der empirischen Varianz von normalverteilten Versuchsergebnissen
Kapitel 10: Testen von Hypothesen
Eine Behauptung über eine Wahrscheinlichkeit überprüfen
Eine Behauptung über einen Erwartungswert überprüfen
Eine Behauptung über eine Wahrscheinlichkeitsverteilung überprüfen
Die Unabhängigkeit von zwei Zufallsvariablen überprüfen
Eine Behauptung über eine Varianz überprüfen
Teil IV: Auswertung von Messungen im Labor: Fehlerrechnung
Kapitel 11: Abweichungen
Vieles haben Sie im Griff, aber manches bleibt unergründlich: Systematische und zufällige Abweichungen
Dem wahren Messergebnis auf der Spur: Schätzen des Erwartungswerts einer Messreihe
Wiedersehen mit alten Bekannten schafft neue Einsichten: Normalverteilte Zufallsvariablen
Kapitel 12: Fehlerfortpflanzung
Jede Abweichung wirkt für sich: Gauß'sche Fehlerfortpflanzung
Wenn sich alles gegen Sie verbündet: Lineare Fehlerfortpflanzung
Kapitel 13: Vom Messwert zur Funktion: Die Methode der kleinsten Fehlerquadrate
So können Sie Datensätze bewerten: Summe der Fehlerquadrate
So berechnen Sie die Funktion, die am besten passt: Normalgleichungen
Im linearen Fall ist alles einfacher: Die Regressionsgerade
Teil V: Zeitliche Entwicklungen erfassen
Kapitel 14: Eine Theorie über die Zukunft
Ein Zufall nach dem anderen: Stochastische Prozesse
Die Vergangenheit ist vergangen: Markow-Ketten
Die Vergangenheit scheint noch etwas durch: Martingale
Kapitel 15: Beobachtungen deuten
Den Trend erkennen: Zeitreihenanalyse
Mögliche Verläufe durchspielen: Simulation
Erzeugung von Zufallszahlen
Teil VI: Der Top-Ten-Teil
Kapitel 16: Zehn erstaunliche Dinge aus der Statistik
Wie sich der Mensch den Zufall vorstellt: Die Himmelsscheibe von Nebra
Stets verloren, aber insgesamt gewonnen: Das Simpson-Paradox
Kleine Zahlen sind häufiger: Das Newcomb-Benford'sche Gesetz
Wer sich in Gefahr begibt, lebt gesünder? – Der »Healthy Worker«-Effekt
Ungleiche Häufigkeit trotz gleicher Wahrscheinlichkeit: Das Gesetz der kleinen Zahlen
Es gibt immer gute Nachrichten – Man muss sie nur suchen
Unfairness einfach austricksen: So klappt's mit dem Laplace-Versuch
Smartphone-Programmierer leben gefährlich (und Linkshänder auch)
Zum Picknick oder doch lieber unter Dach und Fach? – Die Sache mit der Regenwahrscheinlichkeit
»Gewöhnlich meint der Mensch, wenn er nur Zahlen sieht, es müsse sich dabei doch auch was denken lassen.«
Anhang
A: Tabelle von Quantilen der
t
-Verteilung und der Normalverteilung
B: Tabelle der Chi-Quadrat-Verteilung
C: Rechenregeln für Erwartungswerte und Varianzen
Rechenregeln für Erwartungswerte
Rechenregeln für Varianzen
Berechnung von Varianzen unter Verwendung von Erwartungswerten
D: Lösungen der Aufgaben
Stichwortverzeichnis
End User License Agreement
Kapitel 2
Tabelle 2.1: Antworten von 31 Zahnärzten auf die Frage: Wie viele Fortbildungsveranstaltungen zum Thema Kariesprophylaxe haben Sie in den letzten drei Jahren besucht?
Tabelle 2.2: Relative Häufigkeiten für die Angaben aus Tabelle 2.1
Tabelle 2.3: Fahrzeiten zum Arbeitsplatz
Kapitel 4
Tabelle 4.1: Umfrage unter zehn Personen unterschiedlichen Alters: Wie lange haben Sie gestern ferngesehen?
Kapitel 7
Tabelle 7.1: Unterschiede zwischen den Werten der hypergeometrischen Verteilung und ihrer Annäherung durch eine Binomialverteilung (Rundung auf zwei gültige Stellen)
Kapitel 8
Tabelle 8.1: Häufig erwähnte Wertebereiche für eine standardnormalverteilte Zufallsvariable
Kapitel 10
Tabelle 10.1: Häufigkeiten der Augensummen bei 50 Würfen von zwei Würfeln
Tabelle 10.2: Absolute Häufigkeiten für die Wertepaare der Merkmale »rauchen« und »erhöhter Blutdruck«
Kapitel 15
Tabelle 15.1: Kurse (in Euro) einer Aktie an 16 aufeinanderfolgenden Börsentagen.
Tabelle 15.2: Niederschlagsmenge über jeweils drei Monate (in Litern pro Quadratmeter)
Tabelle 15.3: Warteschlange an einer Supermarktkasse, eingetragen sind die Zeitbedarfe der wartenden Personen; in jeder Minute verringert sich der Zeitbedarf der an erster Stelle stehenden Person um 1; hat er die Null erreicht, verlässt die Person die Warteschlange; neue Personen schließen sich rechts an die Schlange an.
Tabelle 15.4: Gegenüber Tabelle 15.3 kommen jetzt im Durchschnitt pro Minute doppelt so viele Personen an der Kasse an.
Tabelle 15.5: Die Häufigkeiten, mit denen die Werte von 0 bis 12 unter 50 pseudozufällig erzeugten Zahlen auftreten
Kapitel 16
Tabelle 16.1: Wachstum eines Betrags von 100 Euro bei 5% Zinsen pro Jahr; angegeben sind Anfangs- und Endguthaben sowie jeweils die Jahre, zwischen denen die erste Ziffer des Betrags wechselt.
Tabelle 16.2: Häufigkeit der Anfangsziffern in den Kontoständen aus Tabelle 16.1
Tabelle 16.3: Wie Tabelle 16.1; jetzt sind aber die Jahre angegeben, zwischen denen die erste Ziffer bei der Angabe in dänischen Kronen wechselt.
Tabelle 16.4: Ergebnisse der zehn Ziehungen aus einem Säckchen mit zehn verschiedenen Münzen
A: Tabelle von Quantilen der
t
-Verteilung und der Normalverteilung
Tabelle A.1: Die linke Spalte gibt den Wert für n, also die Anzahl der Versuchsdurchführungen an. Der Tabelleneintrag wird für die Größe z in die Formel eingesetzt.
B: Tabelle der Chi-Quadrat-Verteilung
Tabelle B.1: Quantile der Chi-Quadrat-Verteilung; bei der in der linken Spalte angegebenen Anzahl von Freiheitsgraden bleibt der Wert der Zufallsvariablen mit der in der Kopfzeile angegebenen Wahrscheinlichkeit unter dem Tabellenwert.
Kapitel 2
Abbildung 2.1: Umsatzentwicklung im Jahresverlauf dargestellt mit abgeschnittener Y-Achse
Abbildung 2.2: Dieselbe Umsatzentwicklung wie in Abbildung 2.1, jetzt aber mit vollständiger Y-Achse
Abbildung 2.3: Dieselbe Umsatzentwicklung wie in Abbildung 2.2, aber ohne Verbindungslinien zwischen den Monatswerten
Abbildung 2.4: Der rechte Kreis hat einen doppelt so großen Durchmesser wie der linke, wird aber vom Gehirn aufgrund des Flächenvergleichs als viermal so groß wahrgenommen.
Abbildung 2.5: In den Jahren 2002 bis 2010 hat sich der Preis meiner Monatskarte (durchgezogene Linie) im Hamburger Verkehrsverbund ziemlich parallel zur hamburgischen Staatsverschuldung (gestrichelte Linie) entwickelt.
Abbildung 2.7: Stabdiagramm für die Daten aus Tabelle 2.1 (
)
Abbildung 2.8: Empirische Verteilungsfunktion für die Daten aus Tabelle 2.1. Die vollen Kreise zeigen an, dass der Endpunkt der Linie zur Funktion dazugehört. Ein Endpunkt mit einem leeren Kreis gehört nicht zur Funktion dazu.
Abbildung 2.9: Subtraktion von zwei Werten liefert die relative Häufigkeit für einen Bereich.
Abbildung 2.10: Histogramm der Fahrzeiten zum Arbeitsplatz aus Tabelle 2.3 (n=124)
Abbildung 2.11: Histogramm der Daten aus Tabelle 2.1 nach einer Klasseneinteilung der Anzahl der besuchten Veranstaltungen
Abbildung 2.12: Tortendiagramm für die Farben der geparkten Autos
Abbildung 2.13: Darstellung derselben Daten wie in Abbildung 2.12 in der Art eines Stabdiagramms (n=47)
Abbildung 2.14: Die Farbverteilung der Autos nach Klassenbildung
Kapitel 3
Abbildung 3.1: Der Ring ist genau bei dem arithmetischen Mittel der Zahlen befestigt worden, bei denen ein Gewicht angehängt wurde. Wenn die ganze Konstruktion an dem Ring angehoben wird, bleibt die Linie mit den Zahlen im Gleichgewicht.
Kapitel 4
Abbildung 4.1: Grafische Darstellung der Informationen über den Fernsehkonsum aus Tabelle 4.1; auf der waagerechten Achse ist das Alter in Jahren angegeben, auf der senkrechten Achse die Dauer des Fernsehens in Minuten.
Abbildung 4.2: Sechs Punkte und ihre beiden Regressionsgeraden
Abbildung 4.3: Für diese vier Punkte schneiden sich die beiden Regressionsgeraden unter einem rechten Winkel. Dies ist ein Indiz, dass die Merkmale, die auf der X- und auf der Y-Achse aufgetragen werden, nicht viel miteinander zu tun haben.
Abbildung 4.4: Punktewolke der Angaben zum Fernsehkonsum. Die Regressionsgeraden schneiden sich unter einem sehr kleinen Winkel. Ihr Schnittpunkt gibt das arithmetische Mittel der X-Koordinaten sowie das arithmetische Mittel der Y-Koordinaten an.
Kapitel 5
Abbildung 5.1: Häufigkeit der Augensummen 2 bis 12, wenn zwei Würfel 1000-mal geworfen wurden
Abbildung 5.2: Bei Berücksichtigung der einzelnen Summanden landen 15 Elementarereignisse im Bereich um 6% und 6 Elementarereignisse bei circa 3% (Nummerierung der Elementarereignisse wie im Text).
Abbildung 5.3: Erst die Berücksichtigung einer Reihenfolge bei den Ergebnissen der beiden Würfel liefert keine allzu offensichtliche Ungleichverteilung der einzelnen Elementarereignisse mehr (Nummerierung wie im Text).
Kapitel 6
Abbildung 6.1: Diese Verteilungsfunktion gibt die Wahrscheinlichkeit dafür an, dass beim Würfeln die Augenzahl nicht größer ist als der ausgewählte Punkt auf der X-Achse. (Die Markierung am linken Ende jeder Stufe zeigt an, dass die Funktion dort diesen Wert hat und nicht denjenigen der Stufe darunter.)
Abbildung 6.2: Dichtefunktion für die Wartezeit, wenn der Bus im Zehnminutentakt fährt
Abbildung 6.3: Verteilungsfunktion für die Wartezeit, wenn der Bus im Zehnminutentakt fährt: Sie können für jeden Wert
die Wahrscheinlichkeit dafür ablesen, dass die Wartezeit nicht länger als
Minuten sein wird.
Abbildung 6.4: Die Zufallsvariablen mit der rechten beziehungsweise der linken Wahrscheinlichkeitsverteilung haben denselben Erwartungswert (null) und dieselbe Standardabweichung (eins). Trotzdem verhalten sie sich völlig unterschiedlich.
Abbildung 6.5: Relative Häufigkeiten der Augenzahlen eines Würfels bei 100 (links), 1.000 (Mitte) und 10.000 (rechts) Würfen
Kapitel 7
Abbildung 7.1: Wahrscheinlichkeit für jeden der ersten 25 Würfe mit einem Würfel, dass genau dann die erste Sechs gewürfelt wird
Abbildung 7.2: So hoch ist bei einem Multiple-Choice-Test mit zehn Fragen die Wahrscheinlichkeit für eine bestimmte Anzahl von richtigen Antworten, wenn jedes Mal eine der vier Antwortmöglichkeiten zufällig angekreuzt wird.
Abbildung 7.3: Wahrscheinlichkeiten der einzelnen Werte einer Poisson-verteilten Zufallsvariablen mit
. Der Wertebereich ist zwar prinzipiell nach oben hin (also auf der waagerechten Achse nach rechts) unbegrenzt, aber wegen der sehr niedrigen Wahrscheinlichkeiten spielen die hohen Werte praktisch keine Rolle.
Abbildung 7.4: Wahrscheinlichkeiten der einzelnen Werte einer hypergeometrisch verteilten Zufallsvariablen mit den Parametern
,
,
Abbildung 7.5: Dichtefunktion für das Beispiel im Text zur Gleichverteilung
Abbildung 7.6: Dichtefunktion für das modifizierte Beispiel zu Wartezeiten an einer Bushaltestelle
Abbildung 7.7: Dichtefunktion und Wahrscheinlichkeit (= Inhalt der schwarzen Fläche) des Beispiels zur Exponentialverteilung im Text
Kapitel 8
Abbildung 8.1: Die Dichtefunktion der Standardnormalverteilung
Abbildung 8.2: Bei Tabellen der Standardnormalverteilung weist üblicherweise eine Grafik darauf hin, ob sie entsprechend der Version 1 (links), 2 (Mitte) oder 3 (rechts) aufgebaut ist.
Abbildung 8.3: Ausschnitt aus der Wahrscheinlichkeitsverteilung der normierten Summenvariable bei 100 Würfen einer Münze im Vergleich zur Dichte der Standardnormalverteilung
Abbildung 8.4: Dasselbe Diagramm wie in Abbildung 8.3, aber jetzt für Serien zu je 400, 900 und 1600 Münzwürfe
Abbildung 8.5: Die durchgezogene Kurve ist die Dichtefunktion der Standardnormalverteilung, wie Sie sie aus Abbildung 8.1 kennen. Die gepunktete Kurve ist die Dichtefunktion der t-Verteilung mit drei Freiheitsgraden.
Kapitel 9
Abbildung 9.1: 40 Konfidenzintervalle für die Schätzung einer Wahrscheinlichkeit, deren tatsächlicher Wert 25% beträgt. Jede Schätzung beruht auf 500 Durchführungen des betreffenden Experiments. Das Konfidenzniveau wurde auf 95% festgelegt.
Abbildung 9.2: Die standardisierte Zufallsvariable
liegt mit einer Wahrscheinlichkeit von
im Bereich zwischen
und
, mit einer Wahrscheinlichkeit von
oberhalb von
und mit einer Wahrscheinlichkeit von ebenfalls
unterhalb von
.
Abbildung 9.3: Für ein Experiment mit dem Erwartungswert 7,2 wurden 40 Konfidenzintervalle zum Konfidenzniveau 95% berechnet. Jedes Konfidenzintervall basiert auf 50 Durchführungen des Experiments. Im Unterschied zu Abbildung 9.1 sind die Intervalle hier unterschiedlich breit, weil die Versuchsreihen unterschiedliche Standardabweichungen haben.
Kapitel 10
Abbildung 10.1: In 40 Versuchsreihen wurde jeweils notiert, wie viele von 100 Würfen eines einwandfreien Würfels eine Sechs geliefert haben. Bei einer Häufigkeit außerhalb der gestrichelten Linie wird (zu Unrecht) angezweifelt, dass die Wahrscheinlichkeit für das Würfeln einer Sechs tatsächlich ein Sechstel beträgt.
Abbildung 10.2: In 40 Versuchsreihen wurde jeweils notiert, wie viele von 50 Personen eine allergische Reaktion zeigen, wenn die Wahrscheinlichkeit hierfür bei jeder Einzelperson 2% beträgt. Bei einem Ergebnis rechts von der gestrichelten senkrechten Linie wird (fälschlicherweise) behauptet, dass die Wahrscheinlichkeit über 2% liegt.
Kapitel 11
Abbildung 11.1: Die rechte Messreihe ist präziser als die linke; über die Genauigkeit der Messungen sagt dies allerdings gar nichts.
Abbildung 11.2: Beide Messreihen haben dieselbe Präzision, aber die linke ist genauer.
Kapitel 12
Abbildung 12.2: Die Berührebene hat in der Nähe des Berührpunkts fast genau dieselben Werte wie die Funktion, aber ihre Definitionsgleichung ist viel einfacher.
Abbildung 12.3: Bei zunehmenden Werten von a oder b erreicht die lineare Fehlerabschätzungsformel schneller den Wert 1 als die Formel von Gauß.
Kapitel 13
Abbildung 13.1: Die Funktionen
(durchgezogen) und
(gestrichelt) treffen die vorgegebenen Punkte unterschiedlich gut.
Abbildung 13.2: Die Länge des Vektors mit den Koordinaten a und b ist
.
Abbildung 13.3: Die Länge des Vektors mit den Koordinaten a, b und c beträgt
.
Abbildung 13.4: Die Funktion
geht durch alle vorgegebenen Punkte.
Abbildung 13.5: Von allen quadratischen Parabeln zeigt
die beste Annäherung einer quadratischen Parabel an die vorgegebenen Punkte.
Abbildung 13.6: Die eingezeichneten Punkte sollen durch eine quadratische Funktion angenähert werden. Wenn die Fehlerquadrate in senkrechter Richtung gemessen werden, ist die Lösung die eingezeichnete Parabel. Wenn die Fehlerquadrate in waagerechter Richtung gemessen werden, ist die Lösung dagegen die gestrichelte Gerade.
Abbildung 13.7: Von allen Geraden zeigt
die beste Annäherung an die vorgegebenen Punkte.
Kapitel 14
Abbildung 14.1: Je nach der Zahl, die mit einem achtseitigen Würfel gewürfelt wird, zieht die Spielfigur von Feld X auf eines der Nachbarfelder.
Abbildung 14.2: Mehrere Würfe des Würfels führen dann zu einer Irrfahrt der Figur auf dem Schachbrett. Gestartet wurde auf Feld X aus Abbildung 14.1.
Abbildung 14.3: Darstellung des Beispiels der Autovermietung als Graph. Jede Zahl gibt die Wahrscheinlichkeit dafür an, dass ein am Anfangspunkt des Pfeils gemietetes Auto am Endpunkt des Pfeils zurückgegeben wird.
Abbildung 14.4: Diese Markow-Kette besitzt eine stationäre Verteilung mit lauter positiven Einträgen. An dem Graphen ist dies zu sehen, nicht jedoch an der Matrix.
Kapitel 15
Abbildung 15.1: Die Aktienkurse (dunkel) aus Tabelle 15.1 sowie die Ergebnisse der einfachen exponentiellen Glättung (hell)
Abbildung 15.2: Die Aktienkurse (dunkel) aus Tabelle 15.1 sowie die Ergebnisse der zweifachen exponentiellen Glättung (hell)
Abbildung 15.3: Autokorrelationskoeffizienten der Niederschlagsdaten aus Tabelle 15.2. Auf der waagerechten Achse ist angegeben, um wie viele Quartale die Daten gegeneinander verschoben wurden.
Kapitel 16
Abbildung 16.1: Die Himmelsscheibe von Nebra
Abbildung 16.2: Wenn 25 Punkte per Zufallszahlengenerator über ein Quadrat verteilt werden, können durchaus auch »Klumpen« entstehen.
Abbildung 16.3: Wenn ein Mensch 25 Punkte zufällig über dasselbe Quadrat verteilen soll, bemüht er sich, den verfügbaren Platz einigermaßen gleichmäßig zu füllen.
Abbildung 16.4: Der Gewinn einer Firma (in Millionen Euro) ist am Ende von Jahr Nummer 2 ins Minus gerutscht. Dafür, wie es am Ende des darauf folgenden Jahres aussehen könnte, diskutiere ich im Text vier Möglichkeiten. (Mir ist klar, dass ich in dieser Grafik meine Regeln aus Kapitel 2 missachte, aber wenn ich schon der Realität Gewalt antue, dann auch richtig!)
Abbildung 16.5: Die Funktion
ist ein Beispiel für eine Funktion, bei der sämtliche Ableitungen negativ sind. Falls sie hinter der Entwicklung der Firma steckt, wird es keine Pressekonferenz am Ende von Jahr 3 mehr geben.
Abbildung 16.6: Insgesamt 50 Paare aufeinanderfolgender Autos wurden danach sortiert, ob das erste oder das zweite Auto ein deutsches (de) oder ein japanisches (jp) Fabrikat war.
Cover
Inhaltsverzeichnis
Begin Reading
C1
1
2
3
7
8
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
E1
Naturwissenschaft und Technik gelten landläufig als Gebiete, auf denen klare Verhältnisse herrschen. Ob chemische Reaktionen, mechanische Konstruktionen oder elektrotechnische Schaltungen: Ursache und Wirkung stehen in fester Beziehung zueinander. Bei genauerer Betrachtung werden jedoch überall Unwägbarkeiten erkennbar: Fertigungstoleranzen, Temperaturschwankungen, unvorhersehbares Nutzungsverhalten oder plötzliche Ausfälle von Bauteilen stellen keineswegs eine erschöpfende Aufzählung der Möglichkeiten dar, sondern erweisen sich eher als die Spitze eines Eisbergs. Für den Umgang mit solchen Phänomenen bieten sich innerhalb der Mathematik die Fachgebiete Statistik und Wahrscheinlichkeitsrechnung an.
Die
Statistik
befasst sich mit der Auswertung von Beobachtungsdaten aus der realen Welt. Ob Sie Menschen interviewen, an einem technischen Versuchsaufbau Messungen vornehmen oder sich durch Krankenakten oder Steuerlisten oder Fußballergebnisse hindurchwühlen – sobald Sie unter einer konkreten Fragestellung Daten sammeln, sind Sie schon dabei, Statistik zu betreiben. Manche Schlussfolgerungen können Sie bereits ohne großen Rechenaufwand erreichen. Aber die Wahrscheinlichkeitsrechnung hilft Ihnen, die Verlässlichkeit Ihrer Ergebnisse zu beurteilen und zusätzliche Schlüsse zu ziehen.
Die
Wahrscheinlichkeitsrechnung
ist eine Erfindung von Theoretikern, um in der künstlichen Welt des Glücksspiels möglichst gut abzuschneiden. Durch zwei außerordentlich geschickte Erweiterungen der Theorie können die Überlegungen aber auch auf statistische Daten aus der echten Welt angewendet werden und erlauben dort weitergehende Auswertungen.
Die Statistik, unterstützt durch die Wahrscheinlichkeitsrechnung, hilft Ihnen, unklare Situationen einzuschätzen. Sie verwendet dazu mathematische Verfahren und kommt auch schon einmal zu Aussagen, die Ihrer Intuition widersprechen. Jetzt gilt es zu entscheiden: Gibt es ausreichende Anhaltspunkte, dass hier tatsächlich ein überraschender Zusammenhang besteht, oder müssen Sie sich davor hüten, einem Trugschluss zum Opfer zu fallen? Mit dem bloßen Ausrechnen von Formeln ist es dann jedenfalls nicht getan. An einigen Stellen dieses Buches werde ich auf diesen Punkt noch einmal zurückkommen.
Dieses Buch ermöglicht Ihnen auf leicht verständliche Weise den Einstieg in die Fragestellungen, durch die Statistik und Wahrscheinlichkeitsrechnung entstanden sind. In einer einheitlichen Darstellungsweise führt es Sie dann bis zu fortgeschrittenen Themen wie beispielsweise stochastische Prozesse oder Zeitreihen.
Die Formeln und Rechenverfahren, die Sie dazu beherrschen müssen, werden so vorgestellt, dass Sie sie sofort einsetzen können. Gleichzeitig bekommen Sie aber auch stets die Anknüpfungspunkte für die dahinter stehende Theorie mitgeliefert.
Die Beispiele stammen aus unterschiedlichen Gebieten. So sehen Sie auch für Ihr Fach, wie die Gedankengänge dort eingesetzt werden können.
Das Buch will Sie nicht an allen Ecken und Enden spüren lassen, was Sie alles noch nicht wissen. Stattdessen möchte es Sie zu einer Entdeckungsreise in ein spannendes und buntes Teilgebiet der Mathematik einladen. Schließlich ist es ein »… für Dummies«-Buch. Das verpflichtet!
Sie können mit diesem Buch alleine arbeiten. In einer kleinen Lerngruppe zu zweit oder zu dritt macht es aber vielleicht mehr Spaß, und Sie können sich gegenseitig weiterhelfen, wenn jemand von Ihnen gerade nicht weiterweiß.
In den Abschnitten finden Sie drei Zwischenüberschriften:
So geht's
: Dies ist die Schritt-für-Schritt-Anleitung, mit der Sie eine Aufgabenstellung abarbeiten können. Dazu gibt es auch immer ein durchgerechnetes Beispiel.
Das steckt dahinter
: Hier steht die mathematische Begründung dafür, warum dieser Rechenweg gerade das liefert, wonach gefragt ist. Wenn dies momentan nicht Ihre größte Sorge ist, können Sie diese Passagen auch ruhig erst einmal überschlagen.
Darauf kommt's an
: Nun folgen noch ein paar Tipps, die Ihnen helfen, das Rechenverfahren souveräner einzusetzen.
Ich habe mir große Mühe gegeben, in den »So geht's«-Passagen möglichst wenige Vorkenntnisse vorauszusetzen. Trotzdem musste ich halt auf irgendetwas aufbauen. Also wäre es wohl ganz gut, wenn Sie zumindest eine Formelsammlung in Reichweite hätten. Manche Dinge sind ja auch gar nicht unbedingt schwierig (ich denke da an die Bruchrechnung und an binomische Formeln und all so etwas), aber liegen einfach schon sooo lange zurück.
Die Beispiele können Sie zunächst einmal mit einem normalen Taschenrechner durchrechnen. Wenn Sie dem Thema treu bleiben, sollten Sie sich aber auch bald damit vertraut machen, wie Sie diese Berechnungen mit einem Computeralgebrasystem, einer Tabellenkalkulation oder mit entsprechender Statistik-Software durchführen.
Am wahrscheinlichsten erscheint mir, dass Sie dieses Buch in die Hand nehmen, weil Sie im Laufe Ihres Studiums einen Kurs über Statistik absolvieren. Vielleicht müssen Sie sich aber auch beruflich mit Statistik beschäftigen oder sind ganz einfach nur am Thema interessiert. Sie wollen dabei zunächst einmal grundlegende Aufgabenstellungen und Rechenweisen kennenlernen, ohne sich dafür mit komplizierter Mathematik beschäftigen zu müssen.
Zugleich sehen Sie aber, dass im Laufe der Zeit auch ein paar fortgeschrittene Themen für Sie auf dem Programm stehen werden. Und Sie ahnen möglicherweise, dass Sie sich irgendwann auch mit den mathematischen Gedanken, die hinter den Formeln stehen, zumindest ein klein wenig beschäftigten sollten, damit Sie die Rechenverfahren im Rahmen von Studienprojekten oder vielleicht auch der Abschlussarbeit hinreichend kompetent einsetzen können.
Wenn das – so in der groben Richtung – auf Sie zutrifft, haben Sie das richtige Buch in der Hand.
Das Buch ist nach bestimmten Oberthemen in sechs Teile gegliedert, in denen der Stoff kapitelweise Schritt für Schritt beschrieben wird.
Die Teile I bis III stellen das Grundwissen der Statistik und der notwendigen Zuarbeit aus der Wahrscheinlichkeitsrechnung dar. Sie bauen in weiten Teilen aufeinander auf. In den Teilen IV und V sowie im Top-Ten-Teil finden Sie weiterführende Themen. Mit ihnen können Sie sich weitgehend unabhängig voneinander beschäftigen.
Die Kapitel 1 bis 15 enden jeweils mit einer Aufgabe. Hier können Sie einen Punkt aus dem vorangegangenen Stoff noch einmal üben. Die Lösungen stehen in Anhang D.
Ich finde es immer wieder erstaunlich, wie viel sich über die Welt um uns herum schon mit einfachen Mitteln herausfinden lässt – ganz ohne geheimnisvolle Formeln und komplizierte Mathematik. Es kommt »nur« darauf an,
Fragen richtig zu stellen,
ein paar einfache Kennzahlen, allen voran Häufigkeiten, Mittelwerte und Standardabweichungen zu berechnen und grafisch übersichtlich zu präsentieren,
und vor allem: eine ganze Bande naheliegender Trugschlüsse auf Abstand zu halten.
Ein wenig von meinem Erstaunen möchte ich Sie in dem Teil spüren lassen. Blättern Sie ruhig ein wenig darin herum. Sie werden bald merken, was ich meine.
Wahrscheinlichkeit ist ein künstlich erdachter Begriff, der erst einmal nur in der Welt der Glücksspiele funktioniert. Deshalb werden Sie hier auch zunächst erfahren, wie in dieser Umgebung Wahrscheinlichkeiten ausgerechnet werden. Durch die Einführung der Begriffe Zufallsvariable und Verteilung lässt sich das Konzept dann aber so weiterentwickeln, dass es auch für Vorgänge im richtigen Leben nutzbar wird.
Sie werden einige häufig vorkommende Verteilungen kennenlernen. Die Kennzahlen dieser Verteilungen können Sie zur Not erst einmal auswendig lernen. Bei einigen von ihnen ist es ziemlich anspruchsvoll, nachzurechnen, warum es sich mit ihnen gerade so und nicht anders verhält. Wichtiger ist, dass Sie sich mit den Beschreibungen der Situationen vertraut machen, die typischerweise dafür verantwortlich sind, dass Sie es jetzt gerade mit dieser Verteilung zu tun haben.
Dieser Teil ist eher knapp gehalten. Je nachdem, wie tief gehend Sie sich mit dem Thema beschäftigen möchten, sollten Sie eventuell zusätzliche Quellen zurate ziehen.
Die Anwendung der Wahrscheinlichkeitsrechnung auf statistische Daten bringt Einsichten in die Verlässlichkeit der berechneten Kennzahlen. Sie können dadurch Fragen beantworten wie
Ich habe die Füllmenge von 1% unserer Tagesproduktion an Getränkepackungen nachgemessen. Wie genau kann ich daraus den Durchschnitt und die Schwankungsbreite der Füllmenge aller heute produzierten Packungen schätzen?
Im letzten Jahr lag der durchschnittliche Sturmschaden bei unseren Gebäudeversicherungen 15% höher als kalkuliert. Müssen wir die Kalkulation anpassen oder können wir dies noch als normale statistische Schwankung ansehen?
Die Rechenverfahren hierzu sind recht einfach durchzuführen und nutzen Werte aus Tabellen oder aus Funktionsaufrufen entsprechender Softwarepakete. Verblüffend werden Sie es wahrscheinlich finden, wie viele Versuche nötig sind, bis Häufigkeits-, Durchschnitts- oder Streuungswerte einigermaßen stabil werden.
Wenn Sie das nächste Mal beim »Mensch ärgere dich nicht« sechsmal hintereinander würfeln, ohne eine Sechs zu bekommen, werden Sie vielleicht auch weiterhin der Versuchung nicht widerstehen können, sich über den bösartigen Würfel zu beklagen – aber irgendwo tief drinnen werden Sie es dann besser wissen.
In den Natur- und Ingenieurwissenschaften spielt sich ein wesentlicher Teil der Arbeit im Labor ab. Die Naturgesetze führen zu einer Erwartung, wie unter den gegebenen Voraussetzungen bestimmte Messwerte ausfallen sollten. Leider weichen die Messwerte aber immer von den theoretisch erwarteten Werten ab.
In diesem Teil lernen Sie, zwischen systematischen und zufälligen Abweichungen zu unterscheiden. Sie erfahren, wie diese Abweichungen die Genauigkeit und die Präzision der Messung beeinflussen (ja, das sind zwei unterschiedliche Dinge!) und warum sich durch genügend Wiederholungen der Messung die Präzision des Messergebnisses verbessert, obwohl die Präzision des Messverfahrens gleich bleibt.
Weiterhin erfahren Sie, warum es zwei unterschiedliche Methoden dafür gibt, abzuschätzen, wie sich zufällige Abweichungen auf das Endergebnis auswirken, wenn Sie mit Messwerten weiterrechnen, und wie Sie erkennen, welche Methode gerade anwendbar ist.
Schließlich zeige ich Ihnen auch noch, wie Sie mit der Methode der kleinsten Fehlerquadrate zu einer Folge von Messwerten eine plausible Funktion erfinden, die hinter dieser Messreihe stecken könnte.
Bis hierher bezogen sich alle Überlegungen auf jeweils einen einzigen Vorgang, der des Öfteren unter gleichbleibenden Rahmenbedingungen wiederholt wird, sei es das Ziehen der Lottozahlen, das Erfragen des Monatseinkommens oder das Messen einer Entfernung. Jetzt präsentiere ich Ihnen Vorgänge, bei denen sich im Laufe der Zeit die Gegebenheiten ändern: Bisher mögliche Ausgänge fallen weg, andere kommen hinzu, bei wieder anderen ändern sich die Wahrscheinlichkeiten. Ein wenig ist das so wie bei Ihrer beruflichen Karriere: Je nachdem, welchen Schritt Sie als Nächstes unternehmen, werden bestimmte Entwicklungen in der Zukunft möglich oder unmöglich, wahrscheinlicher oder weniger wahrscheinlich.
Wenn ein solcher Vorgang, bei dem sich im Laufe der Zeit die Regeln ändern, rein zufallsgesteuert abläuft, spricht man von einem stochastischen Prozess. In diesem Zusammenhang stelle ich Ihnen zunächst Prozesse vor, bei denen die Regeln bekannt sind und man danach fragen kann, wie die Wahrscheinlichkeiten für die unterschiedlichen möglichen weiteren Entwicklungen aussehen. Danach geht es um die umgekehrte Situation: Ich kann bei einem stochastischen Prozess beobachten, welche Entwicklung er tatsächlich nimmt (solche Beobachtungsdaten nennt man eine Zeitreihe). Anschließend frage ich danach, wie viel ich durch diese Daten über die Gesetze, die hinter der Entwicklung stehen, herausfinden kann.
Um einen bestimmten Prozess zu untersuchen, bei dem ich es zu kompliziert finde, direkt nach seinen Gesetzmäßigkeiten zu fahnden, kann ich eine gewisse Anzahl solcher Zeitreihen auch absichtlich erzeugen. Dann spricht man von einer Simulation dieses Prozesses. Dann muss ich allerdings auch die zufällige Steuerung des Prozessverlaufs selbst in die Hand nehmen. Dazu brauche ich Zufallszahlen.
Hier habe ich zehn Dinge aus dem (mehr oder minder) alltäglichen Leben herausgegriffen, die den Stoff des Buches ergänzen und die ich für jemanden, der sich mit Statistik beschäftigt, für wissenswert halte.
Mehrmals geht es dabei um populäre Fehlschlüsse aus Statistiken. Aber Sie erfahren auch, wie Sie sich in einer Situation, in der Sie Ihrem Gegenüber nicht trauen, eine faire Fifty-fifty-Chance sichern können oder welche Verteilung der Ergebnisse Sie erwarten sollten, wenn Sie einen Würfel nur wenige Male werfen oder nur wenige Male beim Roulette Ihr Glück versuchen.
Die wesentliche Aussage jedes Abschnitts habe ich so formuliert, dass sie auch ohne Vorkenntnisse aus den anderen Teilen des Buches verständlich ist. Wenn zur weitergehenden Erläuterung des Sachverhalts zusätzliche Informationen nötig sind, finden Sie Hinweise auf die entsprechenden Kapitel.
Falls Sie Lust haben, dort einfach einmal zu blättern und zu stöbern – nur zu!
Hier habe ich Tabellen mit Werten von zwei Verteilungen, die beim Schätzen und Testen oft vorkommen, zusammengestellt sowie eine Übersicht über Rechenregeln für den Erwartungswert und die Varianz von Zufallsvariablen, die ich an verschiedenen Stellen des Buches verwende.
Die Werte der Verteilungen können Sie heutzutage in vielen Softwarepaketen und auch bei manchen Taschenrechnern abrufen. Die Tabellen habe ich trotzdem aufgenommen – natürlich zum einen, weil ich nicht weiß, ob Ihnen diese Hilfsmittel gerade zur Verfügung stehen. Zum anderen bin ich aber auch überzeugt, dass es für Sie hilfreich ist, wenn Sie einmal einen Überblick bekommen, wie sich die Werte in Abhängigkeit von ihren Parametern entwickeln. Das gibt Ihnen noch etwas mehr Verständnis für die Gesamtsituation als ein Taschenrechner, der Ihnen nur die einzelne Zahl liefert, nach der Sie ihn gerade konkret gefragt haben.
Der letzte Anhang enthält die Lösungen zu den Übungsaufgaben, die am Ende jedes Kapitels stehen.
Die Glühbirne zeigt Ihnen hilfreiche Tipps für den Umgang mit den Rechenverfahren an.
Wenn Sie etwas vermeiden sollten, halten Sie Ausschau nach diesem Symbol.
Gelegentlich konnte ich mir die eine oder andere Anekdote nicht verkneifen – kleine Erlebnisse oder Geschichten, die mir zu dem Thema gerade so in den Sinn kamen.
Natürlich finde ich es gut, wenn Sie das Buch von vorn bis hinten durcharbeiten. Wenn ich etwas für nicht wissenswert hielte, hätte ich es nicht hineingeschrieben. Aber ich kann mir auch gute Gründe vorstellen, sich (zunächst?) auf Teile des Buches zu konzentrieren.
Falls Sie das Buch parallel zu einem Kurs lesen, in dem die beschreibende Statistik keine Rolle spielt, sollten Sie sich in Teil I zumindest mit den Begriffen arithmetisches Mittel, Varianz und Standardabweichung vertraut machen. Sie sind in Kapitel 3 zu finden.
In Teil II sind die zentralen Begriffe Wahrscheinlichkeit, Zufallsvariable und Verteilung beschrieben. Die Rechenwege mit Variationen und Kombinationen in Kapitel 5 können Sie auch erst einmal überschlagen, falls Sie nicht ausdrücklich Aufgaben dieser Art lösen müssen. Mit den typischen Eigenschaften der einzelnen Verteilungen, die ich in diesem Teil vorstelle, sollten Sie sich aber auf jeden Fall beschäftigen. Sie tauchen an allen Ecken und Enden auf – allen voran die Normalverteilung.
Egal, wie Ihr Statistik-Kurs im Einzelnen aufgebaut ist, die Themen aus Teil III werden mit Sicherheit darin vorkommen. So brauche ich hier keine Werbung für die Wichtigkeit einzelner Punkte zu betreiben. Möglicherweise beschleicht Sie dort aber das Gefühl, dass die Formeln überhandnehmen und der Zusammenhang nicht recht erkennbar wird. Mein Tipp: Versuchen Sie einmal jemandem, der keine Ahnung von Statistik hat, zu erklären, was Sinn und Zweck eines Konfidenzintervalls ist. Wenn Ihnen das gelingt, haben Sie garantiert alles verstanden, worauf es ankommt. Und wenn Sie beim Erklären ins Stolpern kommen sollten, haben Sie dadurch eine prima Frage gefunden, mit der Sie noch mal an den Text herangehen können.
Die Überschrift von Teil IV weist schon darauf hin, dass dieses Thema für Sie vor allem relevant ist, wenn Sie mit Messdaten umgehen. Die Methode der kleinsten Fehlerquadrate in Kapitel 13 wird allerdings auch oft in anderen Zusammenhängen zum Auswerten statistischer Daten verwendet. Falls Sie dieses Buch gezielt wegen der Fehlerrechnung in die Hand genommen haben, sollten Sie zuerst einen Blick auf die Basisinformationen zu Zufallsvariablen in Kapitel 6 und über die Normalverteilung in Kapitel 8 werfen.
In Teil V werden Sie anhand der Überschriften schnell finden, was Sie davon konkret interessiert. Auch hier werden die Grundbegriffe über Zufallsvariablen und über Verteilungen aus Teil II vorausgesetzt.
Viel Erfolg!
Christoph Maas hat Mathematik und Informatik studiert und in Mathematik das Diplom erworben, promoviert und sich habilitiert. Nach Stationen an der University of Kentucky und der Fachhochschule Darmstadt ist er jetzt schon seit etlichen Jahren Mathematikprofessor an der Hochschule für Angewandte Wissenschaften in Hamburg.
Ohne die Ermutigung von Marcel Ferner, meinem Lektor bei VCH Wiley hätte ich ein solches Buch wohl gar nicht angefangen. Manchmal braucht man einfach im Leben zur richtigen Zeit einen Schubs. Beim Ausarbeiten der Fehlerrechnung in Teil IV haben mir Gespräche mit Holger Kohlhoff, Dagmar Rokita, Rainer Sawatzki und Janna Twesten wertvolle Hinweise gebracht. Boris Tolg ist es zu verdanken, dass das Buch jetzt deutlich weniger Fehler enthält als in der vorangegangenen Version. (Was jetzt noch übrig ist, geht natürlich auf mein Konto!) Schließlich hat mich auch noch Lutz Witte mit der Nase auf die Sache mit der Krebsfrüherkennung in Kapitel 10 gestoßen. Ihnen und Euch herzlichen Dank dafür!
Die Computerberechnungen sowie das Erstellen der meisten Abbildungen wurden mit dem Computeralgebrasystem MAPLE® durchgeführt. Ich danke der Firma Maplesoft Inc., die mir die entsprechende Lizenz zur Verfügung gestellt hat.
Teil I
IN DIESEM TEIL …
Statistik betreiben Sie, um aus Daten Schlussfolgerungen zu ziehen. Einige vorbereitende Überlegungen, die Ihnen dabei helfen, zu aussagefähigen Daten zu kommen. Anschließend stelle ich Ihnen gängige Techniken zur Auswertung von Daten vor.
Schon durch einige einfache Verfahren zur grafischen Darstellung gewinnen Sie einen Überblick über den Informationsgehalt Ihrer Daten.
Der Durchschnitt fasst Ihre Daten in einer einzigen Angabe zusammen. Allerdings müssen Sie sich je nach Zusammenhang etwas Unterschiedliches unter diesem Begriff vorstellen.
Auch nach Verbindungen zwischen zwei Eigenschaften können Sie schon mit einfachen Berechnungen suchen.
Fehldeutungen und Trugschlüssen bei allen diesen Methoden vermeiden.
Kapitel 1
IN DIESEM KAPITEL
Den Gegenstand Ihrer Untersuchung festlegen
Zwischen diskreten und stetigen Merkmalen sowie zwischen quantitativen und qualitativen Merkmalen unterscheiden
Einen Kompromiss zwischen Zufallsstichprobe und repräsentativer Stichprobe kennenlernen
Der Begriff »Statistik« ist von dem lateinischen Wort für »stehen« abgeleitet. Die Statistik interpretiert Daten aus der realen Welt und zeigt so, wie es um die Welt steht (jedenfalls in Hinblick auf die jeweils vorliegende Fragestellung). Daneben existiert die Wahrscheinlichkeitsrechnung als rein abstraktes Denkspiel. In den ersten zwei Teilen dieses Buches stelle ich Ihnen die beiden Gebiete einzeln vor. In Teil III zeige ich Ihnen dann, wie die Wahrscheinlichkeitsrechnung dabei hilft, bei statistischen Daten noch mehr Durchblick zu erzeugen.
Statistik beginnt nicht gleich mit dem Rechnen. Davor kommt erst einmal das Sammeln von Daten. Und wiederum davor kommen erst einmal ein paar Überlegungen, damit Sie mit den Daten später auch etwas anfangen können. Um solche vorbereitenden Gedanken geht es in diesem Kapitel.
Eine sinnvolle Antwort nimmt ihren Anfang bei einer gut gestellten Frage. Auf die Statistik bezogen, heißt dies: Der erste Schritt zu einer aussagefähigen Auswertung von Daten ist die Festlegung, worüber überhaupt eine Einsicht gewonnen werden soll.
Die Menge aller Objekte, über die Sie am Ende eine Aussage machen möchten, heißt die Beobachtungsmenge. Dasselbe bedeuten die häufig verwendeten Fachbegriffe Grundgesamtheit oder Population.
Oft lässt sich die Beobachtungsmenge ganz selbstverständlich festlegen:
Mit einem Crashtest möchten Sie etwas über die gesamte Baureihe eines bestimmten Fahrzeugmodells erfahren.
Bei der Markteinführung eines Produkts gibt es eine definierte Zielgruppe, deren voraussichtliche Reaktion auf die Neuheit Sie prognostizieren sollen.
Mitunter sind Untersuchungsvorhaben aber auch so komplex, dass Sie sie in einzelne Fragestellungen aufteilen müssen.
Für eine Untersuchung der Verkehrssituation in Ihrer Stadt kommen ganz unterschiedliche Beobachtungsmengen infrage, beispielsweise
die Menschen, die am Verkehr in dieser Stadt teilnehmen
die Verkehrsmittel, mit denen der Verkehr in dieser Stadt stattfindet
die Verkehrswege, über die der Verkehr in dieser Stadt abläuft
Je nachdem, wie Sie die Beobachtungsmenge festlegen, gibt es dann Fragestellungen, die für diese Beobachtungsmenge sinnvoll beantwortet werden können.
Hinsichtlich einer Person können Sie beispielsweise danach fragen, wie lange sie täglich im Verkehr unterwegs ist.
Hinsichtlich eines Verkehrsmittels können Sie etwa danach fragen, wie die Aufteilung zwischen Personen- und Güterverkehr aussieht.
Hinsichtlich eines Verkehrsweges wäre schließlich die Frage nach den jährlichen Unterhaltskosten denkbar.
Auf den Internetseiten des Statistischen Bundesamtes können Sie nachlesen, dass im Jahr 2016 in Deutschland 410.426 Ehen geschlossen und 162.397 Ehen geschieden wurden. Nahezu unwiderstehlich ist die Versuchung, dies auf die Schlagzeile zu verkürzen »Fast jede zweite Ehe wird geschieden«. Mal abgesehen davon, dass hier geburtenstärkere Jahrgänge der Scheidungspaare mit geburtenschwächeren der Hochzeitspaare gleichgesetzt werden: Heißt das, dass allenfalls gut die Hälfte der Menschen, die jemals heiraten, auf eine dauerhafte Ehe hoffen darf?
Diese vermeintlich naheliegende Schlussfolgerung lässt außer Acht, dass Geschiedene sich wieder verheiraten können.
Wenn die Ehepaare Alfred und Susanne einerseits und Bernd und Theresa andererseits sich scheiden lassen und anschließend in den Konstellationen Alfred und Theresa sowie Bernd und Susanne erneut heiraten und auf Dauer zusammenbleiben, dann ist zwar von den vier Ehen, von denen hier die Rede ist, die Hälfte geschieden worden. Trotzdem haben alle vier Männer und Frauen im Laufe ihres Lebens eine dauerhafte Ehe geführt.
Es ist also wichtig, dass Sie hier zwischen der Beobachtungsmenge »Ehen« und der Beobachtungsmenge »verheiratete Menschen« sauber trennen – obwohl das eine ohne das andere überhaupt nicht existiert.
Die Elemente der Beobachtungsmenge werden als Beobachtungseinheit bezeichnet – also:
ein Auto aus der fraglichen Baureihe des Fahrzeugmodells,
eine Person aus der Zielgruppe für das neue Produkt,
eine Verkehrsteilnehmerin oder ein Verkehrsteilnehmer in der betrachteten Stadt,
ein Verkehrsmittel (PKW, Bus, Bahn, Fahrrad, Schiff, …),
eine Straße (oder ein Schienenabschnitt oder eine Route über Wasser oder …).
Zur Durchführung Ihrer Untersuchung nehmen Sie sich Exemplare der Beobachtungseinheit vor und notieren, was Sie bei diesem Exemplar vorfinden.
Diejenige Eigenschaft der Beobachtungseinheit, auf die Sie Ihr Augenmerk richten, wird als Beobachtungsmerkmal bezeichnet, also welche Farbe eine Testkundin für das neue Produkt vorschlägt, um welche Länge sich die Knautschzone verkürzt hat oder wie viele Menschen im Laufe des Tages in einer bestimmten Buslinie unterwegs waren. Das, was Sie über dieses Merkmal bei Ihrer Beobachtung notieren, wird als Ausprägung des Merkmals bezeichnet, also, dass die Farbe Blau vorgeschlagen wurde, dass sich die Knautschzone um 20,5 cm verkürzt hat oder dass über den gesamten Tag hinweg 1738 Fahrgäste in die Busse dieser bestimmten Linie eingestiegen sind. Ich werde oft aber auch weniger fachmännisch vom Wert des Merkmals sprechen. Was Sie mit den so gewonnenen Notizen anfangen können, hängt davon ab, von welcher Art das Merkmal ist.
Merkmale werden in zweierlei Hinsicht klassifiziert:
Diskret vs. stetig:
Diskrete Merkmale
haben Ausprägungen, die sich klar voneinander unterscheiden. Zwischen zwei unterschiedlichen Ausprägungen eines solchen Merkmals gibt es immer einen »Sicherheitsabstand«. Typische Vertreter diskreter Merkmale haben entweder endlich viele mögliche Ausprägungen, oder wenn sie unendlich viele mögliche Ausprägungen haben, dann sind sie so säuberlich voneinander getrennt wie die natürlichen Zahlen.
Stetige Merkmale
hingegen haben Ausprägungen, die stufenlos ineinander übergehen, so wie es beispielsweise bei der Menge aller reellen Zahlen zwischen 0 und 1 der Fall ist.
Quantitativ vs. qualitativ:
Quantitative Merkmale
haben Ausprägungen, die Zahlenwerte darstellen. Das allein reicht aber nicht. Es muss darüber hinaus auch sinnvoll sein, mit diesen Zahlenwerten zu rechnen. Als einfachen Test hierfür können Sie sich fragen, ob es sinnvoll ist, die Ausprägungen nach kleineren und größeren Werten zu sortieren.
Qualitative Merkmale
haben entweder Ausprägungen, die keine Zahlen sind, oder es handelt sich um Zahlen, die keine sinnvolle Kleiner-größer-Beziehung eingehen können.
Die Anzahl der leiblichen Kinder einer Person ist ein
diskretes quantitatives
Merkmal: Als Antwort kommen nur die natürlichen Zahlen infrage, aber keine Zwischenwerte (also ist das Merkmal diskret), und die Frage danach, ob eine bestimmte Person mehr Kinder hat als eine andere bestimmte Person, besitzt eine sinnvolle Antwort (also ist das Merkmal quantitativ).
Die Ortskennung auf deutschen Autokennzeichen ist ein
diskretes qualitatives
Merkmal: Es gibt nur endlich viele Möglichkeiten (also ist das Merkmal diskret), und die Ausprägungen des Merkmals sind keine Zahlen (also ist das Merkmal qualitativ). Dass Sie Autokennzeichen nach dem Alphabet sortieren können, spricht nicht gegen diese Einstufung, denn trotz dieser Sortierung können Sie mit diesen Buchstaben nun einmal nicht rechnen. Oder könnten Sie sich unter dem arithmetischen Mittel (dieser Begriff wird in
Kapitel 3
vorgestellt) der Autokennzeichen in Brandenburg etwas Sinnvolles vorstellen?
Die momentane Anzahl der Umdrehungen pro Minute eines Windrades ist ein
stetiges quantitatives
Merkmal: Die Anzahl muss nicht ganzzahlig sein, im Gegenteil: Sie steigt und fällt stufenlos mit der Windstärke (also ist das Merkmal stetig), und die Frage danach, welches von zwei Windrädern sich gerade schneller dreht, hat eine sinnvolle Antwort (also ist das Merkmal quantitativ).
Die momentanen GPS-Koordinaten eines LKW einer Spedition sind ein
stetiges qualitatives
Merkmal: Die Koordinaten ändern sich stufenlos (also ist das Merkmal stetig), und wenn ein LKW von Berlin nach Rostock fährt und ein anderer von Bremen nach München, dann ist es sinnlos zu fragen, wer von beiden denn jetzt die größeren Koordinaten habe (also ist das Merkmal qualitativ).
Eine Verschlüsslung von Angaben durch Zahlen (beispielsweise 0 = ledig, 1 = verheiratet/Lebenspartnerschaft, 2 = geschieden, 3 = verwitwet) ist kein quantitatives Merkmal, denn die Größer-kleiner-Beziehung zwischen den Zahlen hat keine Bedeutung. Vielmehr können Sie durch eine Vertauschung der Schlüsselwerte jede beliebige Beziehung zwischen den verschlüsselten Begriffen erzeugen.
Es ist sinnvoll, Zeiten, Längen oder Preise als stetige Merkmale anzusehen. Wenn es sich dann ergibt, dass aufgrund der gewählten Maßeinheiten nur ganzzahlige Werte auftreten, sollten Sie diese Angaben als Klasseneinteilung (was das ist, können Sie in Kapitel 2 nachlesen) auffassen. So steht dann beispielsweise die Angabe »zwei Sekunden« nicht für die genaue Zahl 2,000000…, sondern sie repräsentiert irgendeinen Wert zwischen 1,5 und 2,5 Sekunden.
Wenn Sie alle Elemente der Beobachtungsmenge untersuchen, erhalten Sie natürlich die zuverlässigsten Resultate. Bei einer Wahl steht auf diese Weise zumindest die Meinung all derjenigen fest, die ihre Stimme abgegeben haben, und wir alle akzeptieren, dass auf dieser Grundlage für die nächsten Jahre Politik gemacht wird.
In der Regel verbietet sich aber ein solches Vorgehen. Bei einer Marketingstudie beispielsweise wäre es meistens schlicht zu teuer, die gesamte Bevölkerung mit einem Probeexemplar eines neuen Produkts zu versorgen und sie anschließend nach ihrer Meinung darüber zu befragen. Und auf die Idee, wirklich jedes Auto vor der Auslieferung einem Crashtest zu unterziehen, wird wohl auch niemand kommen.
Immer wenn Sie eine Teilmenge der Beobachtungsmenge untersuchen, aus der Sie dann Rückschlüsse auf die gesamte Beobachtungsmenge ziehen, haben Sie es mit einer Stichprobe zu tun. Ob solche Rückschlüsse auf die Gesamtmenge sinnvoll sind, hängt auch davon ab, ob Sie gewisse Vorgehensweisen bei der Auswahl der Teilmenge einhalten.
Im Wesentlichen stehen sich hier zwei Konzepte gegenüber: die Zufallsstichprobe und die repräsentative Stichprobe.
Die Namen sprechen weitgehend für sich. Eine Zufallsstichprobe wird auf eine Weise aus der Beobachtungsmenge ausgewählt, dass jedes Element dieselbe Chance hat, berücksichtigt zu werden. Bei einer Umfrage vor einer Wahl könnten Sie beispielsweise eine Reihe von Nummern von Personalausweisen auslosen und die entsprechenden Wahlberechtigten befragen. Eine repräsentative Stichprobe hingegen ist so aufgebaut, dass sie alle relevanten Eigenschaften der Beobachtungsmenge widerspiegelt. Bei einer Umfrage vor einer Wahl sollte dies beispielsweise hinsichtlich der Anteile der Geschlechter, der Verteilung auf Altersgruppen, der geografischen Verteilung über das Bundesgebiet und des beruflichen Status der Fall sein (Ihnen fallen sicher ganz schnell noch weitere Gesichtspunkte ein, oder?).
Bei Zufallsauswahlen lassen Sie sich am besten durch einen Zufallszahlengenerator unterstützen. Die menschliche Vorstellung vom Zufall ist hier nicht immer ausreichend. Beispielsweise reagieren viele Menschen auf die Aufforderung, zufällig einen Eintrag im Telefonbuch auszuwählen, so, dass sie das Buch ungefähr in der Mitte aufschlagen und dort auf einen Namen ungefähr in der Mitte der Seite tippen. Das hat mit Zufall nur eingeschränkt etwas zu tun, weil es viele Einträge gibt, die praktisch keine Chance haben, auf diesem Wege ausgewählt zu werden.
Bei Wahlen sind sich die Forschungsinstitute mittlerweile einigermaßen sicher, welche Faktoren Einfluss auf das Wahlverhalten haben. Vielfach ist aber das Aufstellen einer repräsentativen Stichprobe ein zwar edles, doch zugleich auch unerreichbares Ziel, weil gar nicht alle relevanten Kriterien bekannt sind.
Zufallsstichproben, die nur einen kleinen Teil der Beobachtungsmenge umfassen, bergen andererseits das Risiko, dass relevante, aber kleine Gruppen in der Beobachtungsmenge, bei der Auswahl »Pech haben« und in der Stichprobe nicht (oder fast nicht) vorkommen.
Einen guten Kompromiss zwischen den beiden Ansätzen stellen geschichtete Zufallsstichproben dar.
Wählen Sie ein diskretes Merkmal aus und notieren Sie, welche Anteile die einzelnen Ausprägungen in der Beobachtungsmenge ausmachen.
Jetzt betrachten Sie nacheinander jede Ausprägung für sich und wählen unter denjenigen Elementen der Beobachtungsmenge, die genau diese Ausprägung aufweisen, eine Zufallsstichprobe. Diese Stichprobe soll so groß sein, dass alle von Ihnen gewünschten Auswertungen möglich sind.
Werten Sie jede dieser Stichproben aus.