E-Book
14,99 €

Statistik für Ingenieure für Dummies E-Book

Christoph Maas

0,0

14,99 €

Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.
Mehr erfahren.

Herausgeber: Wiley-VCH Verlag GmbH & Co. KGaA
Kategorie: Wissenschaft und neue Technologien
Serie: ...für Dummies
Sprache: Deutsch
Veröffentlichungsjahr: 2018

Beschreibung

Dieses Buch ermöglicht Ihnen auf leicht verständliche Weise den Einstieg in statistische Fragestellungen. In einer einheitlichen Darstellungsweise mit wiederkehrenden Abschnitten "So geht?s", "Darauf kommt es an", "Das steckt dahinter" führt es Sie dann zu fortgeschrittenen Themen wie stochastischen Prozessen oder Zeitreihen. Die Formeln und Rechenverfahren, die Sie beherrschen müssen, werden so vorgestellt, dass Sie sie sofort einsetzen können. Die Beispiele stammen aus unterschiedlichen Gebieten. So sehen Sie auch für Ihr Fach, wie die Methoden dort eingesetzt werden.

Details

Sie lesen das E-Book in den Legimi-Apps auf:

Android

iOS

von Legimi
zertifizierten E-Readern

Seitenzahl: 428

Bewertungen

0,0

Rezensionen(0 Rezensionen)

Leseprobe

Statistik für Ingenieure für Dummies

Schummelseite

STATISTISCHE KENNZAHLEN

Durchschnitt der Zahlen x1, …, xn

Arithmetisches Mittel: Geometrisches Mittel: Median: = Zahl, die von höchstens der Hälfte der Werte unterschritten und höchstens der Hälfte überschritten wirdModus: häufigster Wert (auch für qualitative Daten)

Streuung der Zahlen

Standardabweichung: Quantil: = Zahl, die höchstens vom -ten Teil der Werte unterschritten und höchstens vom /-ten Teil der Werte überschritten wird.

REGELN FÜR »UNENDLICH VIELE« VERSUCHE

Gesetz der großen Zahlen

Wenn ein Versuch oft genug unabhängig durchgeführt wird, kommen die Häufigkeit jedes Ereignisses seiner Wahrscheinlichkeit und das arithmetische Mittel der Versuchsergebnisse seinem Erwartungswert beliebig nahe.

Zentraler Grenzwertsatz

Wenn ein Versuch oft genug unabhängig durchgeführt wird, dann sind die Standardisierungen der Summe der Versuchsergebnisse und des Mittelwerts der Versuchsergebnisse N(0,1)-normalverteilt.

FEHLER 1. UND 2. ART

Wer paranoid ist, begeht einen Fehler 1. Art.Wer leichtgläubig ist, begeht einen Fehler 2. Art.

AUSWAHL VON TESTVERTEILUNGEN

Normalverteilung beziehungsweise t-Verteilung

Testen einer WahrscheinlichkeitTesten eines Erwartungswerts

Chi-Quadrat-Verteilung

Testen einer WahrscheinlichkeitsverteilungTesten von zwei Zufallsvariablen auf UnabhängigkeitTesten einer VarianzTesten einer Zahlenfolge auf Zufälligkeit

FEHLERRECHNUNG

Wahrer Wert: würden Sie gerne wissenWahres Messergebnis: Erwartungswert der MesswerteMessergebnis: Mittelwert der MesswerteMesswert: Ergebnis eines einzelnen Messvorgangs

Abweichungen

Systematische Abweichung: wirkt in eine Richtung, beeinflusst die Genauigkeit einer MessungZufällige Abweichung: wirkt in beide Richtungen, beeinflusst die Präzision einer Messung

Kenngrößen

Mittelwert der Messwerte: Standardabweichung der Messwerte: , liegt durch das Messverfahren festStandardabweichung des Mittelwerts: , kann durch unabhängiges Wiederholen der Messung verringert werden

Fehlerfortpflanzung

Auswirkung zufälliger Abweichungen beim Einsetzen von Messergebnissen in Formeln

Gauß'sche Fehlerfortpflanzung: Anwenden, wenn mehrere Messungen vorliegen und wenn es keinen Zusammenhang zwischen den Abweichungen bei den einzelnen Messgrößen gibt.Lineare Fehlerfortpflanzung: Anwenden, wenn nur eine Messung vorliegt oder sich die Abweichungen der Messgrößen ungünstig überlagern können.

MARKOW-KETTEN

Übergangsmatrix

Die Verteilung

Statistik für Ingenieure für Dummies

Bibliografische Informationder Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

1. Auflage 2018

Wiley, the Wiley logo, Für Dummies, the Dummies Man logo, and related trademarks and trade dress are trademarks or registered trademarks of John Wiley & Sons, Inc. and/or its affiliates, in the United States and other countries. Used by permission.

Wiley, die Bezeichnung »Für Dummies«, das Dummies-Mann-Logo und darauf bezogene Gestaltungen sind Marken oder eingetragene Marken von John Wiley & Sons, Inc., USA, Deutschland und in anderen Ländern.

Das vorliegende Werk wurde sorgfältig erarbeitet. Dennoch übernehmen Autoren und Verlag für die Richtigkeit von Angaben, Hinweisen und Ratschlägen sowie eventuelle Druckfehler keine Haftung.

Coverfoto: empics/stock.adobe.comKorrektur: Petra Heubach-Erdmann

Print ISBN: 978-3-527-71556-5ePub ISBN: 978-3-527-81937-9

Inhaltsverzeichnis

Cover

Titelseite

Impressum

Einführung

Über dieses Buch – oder: »… für Dummies« verpflichtet!

Wie man dieses Buch benutzt

Törichte Annahmen über die Leser

Wie dieses Buch aufgebaut ist

Die Symbole in diesem Buch

Wie es weitergeht

Teil I: Beschreibende Statistik

Kapitel 1: Klarmachen zum Datensammeln

Wer Sie interessiert: Die Beobachtungsmenge

Was Sie interessiert: Merkmale

Wen Sie tatsächlich befragen: Stichproben

Kapitel 2: Daten grafisch darstellen

Grafiken für zeitliche Entwicklungen und ihre Tücken

Häufigkeitsdarstellungen für diskrete quantitative Merkmale

Klasseneinteilungen (nicht nur) für stetige quantitative Merkmale

Tortendiagramme für diskrete qualitative Merkmale

Kapitel 3: Kennzahlen für den Durchschnitt herausarbeiten

Das arithmetische Mittel

Der Median

Varianz und Standardabweichung

Quantile

Weitere Durchschnittswerte: geometrisches Mittel und Modus

Kapitel 4: Zusammenhänge zwischen zwei Merkmalen untersuchen

Die Punktewolke für die gleichzeitige Untersuchung von zwei quantitativen Merkmalen

Die Regressionsgeraden einer Punktewolke

Bedingte Mittelwerte und Standardabweichungen

Der (empirische) Korrelationskoeffizient zweier quantitativer Merkmale

Teil II: Wahrscheinlichkeitsrechnung

Kapitel 5: Klassische Wahrscheinlichkeitsrechnung

Ereignisse und ihre Wahrscheinlichkeiten

Laplace-Versuche

Permutationen, Kombinationen und Variationen

Bedingte Wahrscheinlichkeiten

Unabhängigkeit

Erwartungswert

Kapitel 6: Zufallsvariablen und ihre Verteilungen

Zufallsvariablen

Erwartungswert, Varianz und Standardabweichung

Unabhängigkeit und Korrelation

Das Gesetz der großen Zahlen

Kapitel 7: Häufig verwendete Verteilungen

Geometrische Verteilung

Binomialverteilung

Poisson-Verteilung

Hypergeometrische Verteilung

Stetige Gleichverteilung

Exponentialverteilung

Kapitel 8: Die Normalverteilung

Die Eigenschaften der Standardnormalverteilung

Zugriff auf die Werte der Verteilung

Die allgemeine Normalverteilung

Der zentrale Grenzwertsatz

Als Auffangposition: Die

-Verteilung

Teil III: Beurteilende Statistik

Kapitel 9: Schätzen von Parametern

Konfidenzintervalle

Schätzen der Wahrscheinlichkeit eines Ereignisses aus der relativen Häufigkeit

Schätzen eines Erwartungswerts aus dem Mittelwert von Versuchsergebnissen

Schätzen der Varianz aus der empirischen Varianz von normalverteilten Versuchsergebnissen

Kapitel 10: Testen von Hypothesen

Eine Behauptung über eine Wahrscheinlichkeit überprüfen

Eine Behauptung über einen Erwartungswert überprüfen

Eine Behauptung über eine Wahrscheinlichkeitsverteilung überprüfen

Die Unabhängigkeit von zwei Zufallsvariablen überprüfen

Eine Behauptung über eine Varianz überprüfen

Teil IV: Auswertung von Messungen im Labor: Fehlerrechnung

Kapitel 11: Abweichungen

Vieles haben Sie im Griff, aber manches bleibt unergründlich: Systematische und zufällige Abweichungen

Dem wahren Messergebnis auf der Spur: Schätzen des Erwartungswerts einer Messreihe

Wiedersehen mit alten Bekannten schafft neue Einsichten: Normalverteilte Zufallsvariablen

Kapitel 12: Fehlerfortpflanzung

Jede Abweichung wirkt für sich: Gauß'sche Fehlerfortpflanzung

Wenn sich alles gegen Sie verbündet: Lineare Fehlerfortpflanzung

Kapitel 13: Vom Messwert zur Funktion: Die Methode der kleinsten Fehlerquadrate

So können Sie Datensätze bewerten: Summe der Fehlerquadrate

So berechnen Sie die Funktion, die am besten passt: Normalgleichungen

Im linearen Fall ist alles einfacher: Die Regressionsgerade

Teil V: Zeitliche Entwicklungen erfassen

Kapitel 14: Eine Theorie über die Zukunft

Ein Zufall nach dem anderen: Stochastische Prozesse

Die Vergangenheit ist vergangen: Markow-Ketten

Die Vergangenheit scheint noch etwas durch: Martingale

Kapitel 15: Beobachtungen deuten

Den Trend erkennen: Zeitreihenanalyse

Mögliche Verläufe durchspielen: Simulation

Erzeugung von Zufallszahlen

Teil VI: Der Top-Ten-Teil

Kapitel 16: Zehn erstaunliche Dinge aus der Statistik

Wie sich der Mensch den Zufall vorstellt: Die Himmelsscheibe von Nebra

Stets verloren, aber insgesamt gewonnen: Das Simpson-Paradox

Kleine Zahlen sind häufiger: Das Newcomb-Benford'sche Gesetz

Wer sich in Gefahr begibt, lebt gesünder? – Der »Healthy Worker«-Effekt

Ungleiche Häufigkeit trotz gleicher Wahrscheinlichkeit: Das Gesetz der kleinen Zahlen

Es gibt immer gute Nachrichten – Man muss sie nur suchen

Unfairness einfach austricksen: So klappt's mit dem Laplace-Versuch

Smartphone-Programmierer leben gefährlich (und Linkshänder auch)

Zum Picknick oder doch lieber unter Dach und Fach? – Die Sache mit der Regenwahrscheinlichkeit

»Gewöhnlich meint der Mensch, wenn er nur Zahlen sieht, es müsse sich dabei doch auch was denken lassen.«

Anhang

A: Tabelle von Quantilen der

-Verteilung und der Normalverteilung

B: Tabelle der Chi-Quadrat-Verteilung

C: Rechenregeln für Erwartungswerte und Varianzen

Rechenregeln für Erwartungswerte

Rechenregeln für Varianzen

Berechnung von Varianzen unter Verwendung von Erwartungswerten

D: Lösungen der Aufgaben

Stichwortverzeichnis

End User License Agreement

Tabellenverzeichnis

Kapitel 2

Tabelle 2.1: Antworten von 31 Zahnärzten auf die Frage: Wie viele Fortbildungsveranstaltungen zum Thema Kariesprophylaxe haben Sie in den letzten drei Jahren besucht?

Tabelle 2.2: Relative Häufigkeiten für die Angaben aus Tabelle 2.1

Tabelle 2.3: Fahrzeiten zum Arbeitsplatz

Kapitel 4

Tabelle 4.1: Umfrage unter zehn Personen unterschiedlichen Alters: Wie lange haben Sie gestern ferngesehen?

Kapitel 7

Tabelle 7.1: Unterschiede zwischen den Werten der hypergeometrischen Verteilung und ihrer Annäherung durch eine Binomialverteilung (Rundung auf zwei gültige Stellen)

Kapitel 8

Tabelle 8.1: Häufig erwähnte Wertebereiche für eine standardnormalverteilte Zufallsvariable

Kapitel 10

Tabelle 10.1: Häufigkeiten der Augensummen bei 50 Würfen von zwei Würfeln

Tabelle 10.2: Absolute Häufigkeiten für die Wertepaare der Merkmale »rauchen« und »erhöhter Blutdruck«

Kapitel 15

Tabelle 15.1: Kurse (in Euro) einer Aktie an 16 aufeinanderfolgenden Börsentagen.

Tabelle 15.2: Niederschlagsmenge über jeweils drei Monate (in Litern pro Quadratmeter)

Tabelle 15.3: Warteschlange an einer Supermarktkasse, eingetragen sind die Zeitbedarfe der wartenden Personen; in jeder Minute verringert sich der Zeitbedarf der an erster Stelle stehenden Person um 1; hat er die Null erreicht, verlässt die Person die Warteschlange; neue Personen schließen sich rechts an die Schlange an.

Tabelle 15.4: Gegenüber Tabelle 15.3 kommen jetzt im Durchschnitt pro Minute doppelt so viele Personen an der Kasse an.

Tabelle 15.5: Die Häufigkeiten, mit denen die Werte von 0 bis 12 unter 50 pseudozufällig erzeugten Zahlen auftreten

Kapitel 16

Tabelle 16.1: Wachstum eines Betrags von 100 Euro bei 5% Zinsen pro Jahr; angegeben sind Anfangs- und Endguthaben sowie jeweils die Jahre, zwischen denen die erste Ziffer des Betrags wechselt.

Tabelle 16.2: Häufigkeit der Anfangsziffern in den Kontoständen aus Tabelle 16.1

Tabelle 16.3: Wie Tabelle 16.1; jetzt sind aber die Jahre angegeben, zwischen denen die erste Ziffer bei der Angabe in dänischen Kronen wechselt.

Tabelle 16.4: Ergebnisse der zehn Ziehungen aus einem Säckchen mit zehn verschiedenen Münzen

A: Tabelle von Quantilen der

-Verteilung und der Normalverteilung

Tabelle A.1: Die linke Spalte gibt den Wert für n, also die Anzahl der Versuchsdurchführungen an. Der Tabelleneintrag wird für die Größe z in die Formel eingesetzt.

B: Tabelle der Chi-Quadrat-Verteilung

Tabelle B.1: Quantile der Chi-Quadrat-Verteilung; bei der in der linken Spalte angegebenen Anzahl von Freiheitsgraden bleibt der Wert der Zufallsvariablen mit der in der Kopfzeile angegebenen Wahrscheinlichkeit unter dem Tabellenwert.

Illustrationsverzeichnis

Kapitel 2

Abbildung 2.1: Umsatzentwicklung im Jahresverlauf dargestellt mit abgeschnittener Y-Achse

Abbildung 2.2: Dieselbe Umsatzentwicklung wie in Abbildung 2.1, jetzt aber mit vollständiger Y-Achse

Abbildung 2.3: Dieselbe Umsatzentwicklung wie in Abbildung 2.2, aber ohne Verbindungslinien zwischen den Monatswerten

Abbildung 2.4: Der rechte Kreis hat einen doppelt so großen Durchmesser wie der linke, wird aber vom Gehirn aufgrund des Flächenvergleichs als viermal so groß wahrgenommen.

Abbildung 2.5: In den Jahren 2002 bis 2010 hat sich der Preis meiner Monatskarte (durchgezogene Linie) im Hamburger Verkehrsverbund ziemlich parallel zur hamburgischen Staatsverschuldung (gestrichelte Linie) entwickelt.

Abbildung 2.7: Stabdiagramm für die Daten aus Tabelle 2.1 (

)

Abbildung 2.8: Empirische Verteilungsfunktion für die Daten aus Tabelle 2.1. Die vollen Kreise zeigen an, dass der Endpunkt der Linie zur Funktion dazugehört. Ein Endpunkt mit einem leeren Kreis gehört nicht zur Funktion dazu.

Abbildung 2.9: Subtraktion von zwei Werten liefert die relative Häufigkeit für einen Bereich.

Abbildung 2.10: Histogramm der Fahrzeiten zum Arbeitsplatz aus Tabelle 2.3 (n=124)

Abbildung 2.11: Histogramm der Daten aus Tabelle 2.1 nach einer Klasseneinteilung der Anzahl der besuchten Veranstaltungen

Abbildung 2.12: Tortendiagramm für die Farben der geparkten Autos

Abbildung 2.13: Darstellung derselben Daten wie in Abbildung 2.12 in der Art eines Stabdiagramms (n=47)

Abbildung 2.14: Die Farbverteilung der Autos nach Klassenbildung

Kapitel 3

Abbildung 3.1: Der Ring ist genau bei dem arithmetischen Mittel der Zahlen befestigt worden, bei denen ein Gewicht angehängt wurde. Wenn die ganze Konstruktion an dem Ring angehoben wird, bleibt die Linie mit den Zahlen im Gleichgewicht.

Kapitel 4

Abbildung 4.1: Grafische Darstellung der Informationen über den Fernsehkonsum aus Tabelle 4.1; auf der waagerechten Achse ist das Alter in Jahren angegeben, auf der senkrechten Achse die Dauer des Fernsehens in Minuten.

Abbildung 4.2: Sechs Punkte und ihre beiden Regressionsgeraden

Abbildung 4.3: Für diese vier Punkte schneiden sich die beiden Regressionsgeraden unter einem rechten Winkel. Dies ist ein Indiz, dass die Merkmale, die auf der X- und auf der Y-Achse aufgetragen werden, nicht viel miteinander zu tun haben.

Abbildung 4.4: Punktewolke der Angaben zum Fernsehkonsum. Die Regressionsgeraden schneiden sich unter einem sehr kleinen Winkel. Ihr Schnittpunkt gibt das arithmetische Mittel der X-Koordinaten sowie das arithmetische Mittel der Y-Koordinaten an.

Kapitel 5

Abbildung 5.1: Häufigkeit der Augensummen 2 bis 12, wenn zwei Würfel 1000-mal geworfen wurden

Abbildung 5.2: Bei Berücksichtigung der einzelnen Summanden landen 15 Elementarereignisse im Bereich um 6% und 6 Elementarereignisse bei circa 3% (Nummerierung der Elementarereignisse wie im Text).

Abbildung 5.3: Erst die Berücksichtigung einer Reihenfolge bei den Ergebnissen der beiden Würfel liefert keine allzu offensichtliche Ungleichverteilung der einzelnen Elementarereignisse mehr (Nummerierung wie im Text).

Kapitel 6

Abbildung 6.1: Diese Verteilungsfunktion gibt die Wahrscheinlichkeit dafür an, dass beim Würfeln die Augenzahl nicht größer ist als der ausgewählte Punkt auf der X-Achse. (Die Markierung am linken Ende jeder Stufe zeigt an, dass die Funktion dort diesen Wert hat und nicht denjenigen der Stufe darunter.)

Abbildung 6.2: Dichtefunktion für die Wartezeit, wenn der Bus im Zehnminutentakt fährt

Abbildung 6.3: Verteilungsfunktion für die Wartezeit, wenn der Bus im Zehnminutentakt fährt: Sie können für jeden Wert

die Wahrscheinlichkeit dafür ablesen, dass die Wartezeit nicht länger als

Minuten sein wird.

Abbildung 6.4: Die Zufallsvariablen mit der rechten beziehungsweise der linken Wahrscheinlichkeitsverteilung haben denselben Erwartungswert (null) und dieselbe Standardabweichung (eins). Trotzdem verhalten sie sich völlig unterschiedlich.

Abbildung 6.5: Relative Häufigkeiten der Augenzahlen eines Würfels bei 100 (links), 1.000 (Mitte) und 10.000 (rechts) Würfen

Kapitel 7

Abbildung 7.1: Wahrscheinlichkeit für jeden der ersten 25 Würfe mit einem Würfel, dass genau dann die erste Sechs gewürfelt wird

Abbildung 7.2: So hoch ist bei einem Multiple-Choice-Test mit zehn Fragen die Wahrscheinlichkeit für eine bestimmte Anzahl von richtigen Antworten, wenn jedes Mal eine der vier Antwortmöglichkeiten zufällig angekreuzt wird.

Abbildung 7.3: Wahrscheinlichkeiten der einzelnen Werte einer Poisson-verteilten Zufallsvariablen mit

. Der Wertebereich ist zwar prinzipiell nach oben hin (also auf der waagerechten Achse nach rechts) unbegrenzt, aber wegen der sehr niedrigen Wahrscheinlichkeiten spielen die hohen Werte praktisch keine Rolle.

Abbildung 7.4: Wahrscheinlichkeiten der einzelnen Werte einer hypergeometrisch verteilten Zufallsvariablen mit den Parametern

Abbildung 7.5: Dichtefunktion für das Beispiel im Text zur Gleichverteilung

Abbildung 7.6: Dichtefunktion für das modifizierte Beispiel zu Wartezeiten an einer Bushaltestelle

Abbildung 7.7: Dichtefunktion und Wahrscheinlichkeit (= Inhalt der schwarzen Fläche) des Beispiels zur Exponentialverteilung im Text

Kapitel 8

Abbildung 8.1: Die Dichtefunktion der Standardnormalverteilung

Abbildung 8.2: Bei Tabellen der Standardnormalverteilung weist üblicherweise eine Grafik darauf hin, ob sie entsprechend der Version 1 (links), 2 (Mitte) oder 3 (rechts) aufgebaut ist.

Abbildung 8.3: Ausschnitt aus der Wahrscheinlichkeitsverteilung der normierten Summenvariable bei 100 Würfen einer Münze im Vergleich zur Dichte der Standardnormalverteilung

Abbildung 8.4: Dasselbe Diagramm wie in Abbildung 8.3, aber jetzt für Serien zu je 400, 900 und 1600 Münzwürfe

Abbildung 8.5: Die durchgezogene Kurve ist die Dichtefunktion der Standardnormalverteilung, wie Sie sie aus Abbildung 8.1 kennen. Die gepunktete Kurve ist die Dichtefunktion der t-Verteilung mit drei Freiheitsgraden.

Kapitel 9

Abbildung 9.1: 40 Konfidenzintervalle für die Schätzung einer Wahrscheinlichkeit, deren tatsächlicher Wert 25% beträgt. Jede Schätzung beruht auf 500 Durchführungen des betreffenden Experiments. Das Konfidenzniveau wurde auf 95% festgelegt.

Abbildung 9.2: Die standardisierte Zufallsvariable

liegt mit einer Wahrscheinlichkeit von

im Bereich zwischen

und

, mit einer Wahrscheinlichkeit von

oberhalb von

und mit einer Wahrscheinlichkeit von ebenfalls

unterhalb von

Abbildung 9.3: Für ein Experiment mit dem Erwartungswert 7,2 wurden 40 Konfidenzintervalle zum Konfidenzniveau 95% berechnet. Jedes Konfidenzintervall basiert auf 50 Durchführungen des Experiments. Im Unterschied zu Abbildung 9.1 sind die Intervalle hier unterschiedlich breit, weil die Versuchsreihen unterschiedliche Standardabweichungen haben.

Kapitel 10

Abbildung 10.1: In 40 Versuchsreihen wurde jeweils notiert, wie viele von 100 Würfen eines einwandfreien Würfels eine Sechs geliefert haben. Bei einer Häufigkeit außerhalb der gestrichelten Linie wird (zu Unrecht) angezweifelt, dass die Wahrscheinlichkeit für das Würfeln einer Sechs tatsächlich ein Sechstel beträgt.

Abbildung 10.2: In 40 Versuchsreihen wurde jeweils notiert, wie viele von 50 Personen eine allergische Reaktion zeigen, wenn die Wahrscheinlichkeit hierfür bei jeder Einzelperson 2% beträgt. Bei einem Ergebnis rechts von der gestrichelten senkrechten Linie wird (fälschlicherweise) behauptet, dass die Wahrscheinlichkeit über 2% liegt.

Kapitel 11

Abbildung 11.1: Die rechte Messreihe ist präziser als die linke; über die Genauigkeit der Messungen sagt dies allerdings gar nichts.

Abbildung 11.2: Beide Messreihen haben dieselbe Präzision, aber die linke ist genauer.

Kapitel 12

Abbildung 12.2: Die Berührebene hat in der Nähe des Berührpunkts fast genau dieselben Werte wie die Funktion, aber ihre Definitionsgleichung ist viel einfacher.

Abbildung 12.3: Bei zunehmenden Werten von a oder b erreicht die lineare Fehlerabschätzungsformel schneller den Wert 1 als die Formel von Gauß.

Kapitel 13

Abbildung 13.1: Die Funktionen

(durchgezogen) und

(gestrichelt) treffen die vorgegebenen Punkte unterschiedlich gut.

Abbildung 13.2: Die Länge des Vektors mit den Koordinaten a und b ist

Abbildung 13.3: Die Länge des Vektors mit den Koordinaten a, b und c beträgt

Abbildung 13.4: Die Funktion

geht durch alle vorgegebenen Punkte.

Abbildung 13.5: Von allen quadratischen Parabeln zeigt

die beste Annäherung einer quadratischen Parabel an die vorgegebenen Punkte.

Abbildung 13.6: Die eingezeichneten Punkte sollen durch eine quadratische Funktion angenähert werden. Wenn die Fehlerquadrate in senkrechter Richtung gemessen werden, ist die Lösung die eingezeichnete Parabel. Wenn die Fehlerquadrate in waagerechter Richtung gemessen werden, ist die Lösung dagegen die gestrichelte Gerade.

Abbildung 13.7: Von allen Geraden zeigt

die beste Annäherung an die vorgegebenen Punkte.

Kapitel 14

Abbildung 14.1: Je nach der Zahl, die mit einem achtseitigen Würfel gewürfelt wird, zieht die Spielfigur von Feld X auf eines der Nachbarfelder.

Abbildung 14.2: Mehrere Würfe des Würfels führen dann zu einer Irrfahrt der Figur auf dem Schachbrett. Gestartet wurde auf Feld X aus Abbildung 14.1.

Abbildung 14.3: Darstellung des Beispiels der Autovermietung als Graph. Jede Zahl gibt die Wahrscheinlichkeit dafür an, dass ein am Anfangspunkt des Pfeils gemietetes Auto am Endpunkt des Pfeils zurückgegeben wird.

Abbildung 14.4: Diese Markow-Kette besitzt eine stationäre Verteilung mit lauter positiven Einträgen. An dem Graphen ist dies zu sehen, nicht jedoch an der Matrix.

Kapitel 15

Abbildung 15.1: Die Aktienkurse (dunkel) aus Tabelle 15.1 sowie die Ergebnisse der einfachen exponentiellen Glättung (hell)

Abbildung 15.2: Die Aktienkurse (dunkel) aus Tabelle 15.1 sowie die Ergebnisse der zweifachen exponentiellen Glättung (hell)

Abbildung 15.3: Autokorrelationskoeffizienten der Niederschlagsdaten aus Tabelle 15.2. Auf der waagerechten Achse ist angegeben, um wie viele Quartale die Daten gegeneinander verschoben wurden.

Kapitel 16

Abbildung 16.1: Die Himmelsscheibe von Nebra

Abbildung 16.2: Wenn 25 Punkte per Zufallszahlengenerator über ein Quadrat verteilt werden, können durchaus auch »Klumpen« entstehen.

Abbildung 16.3: Wenn ein Mensch 25 Punkte zufällig über dasselbe Quadrat verteilen soll, bemüht er sich, den verfügbaren Platz einigermaßen gleichmäßig zu füllen.

Abbildung 16.4: Der Gewinn einer Firma (in Millionen Euro) ist am Ende von Jahr Nummer 2 ins Minus gerutscht. Dafür, wie es am Ende des darauf folgenden Jahres aussehen könnte, diskutiere ich im Text vier Möglichkeiten. (Mir ist klar, dass ich in dieser Grafik meine Regeln aus Kapitel 2 missachte, aber wenn ich schon der Realität Gewalt antue, dann auch richtig!)

Abbildung 16.5: Die Funktion

ist ein Beispiel für eine Funktion, bei der sämtliche Ableitungen negativ sind. Falls sie hinter der Entwicklung der Firma steckt, wird es keine Pressekonferenz am Ende von Jahr 3 mehr geben.

Abbildung 16.6: Insgesamt 50 Paare aufeinanderfolgender Autos wurden danach sortiert, ob das erste oder das zweite Auto ein deutsches (de) oder ein japanisches (jp) Fabrikat war.

Guide

Cover

Inhaltsverzeichnis

Begin Reading

Pages

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

271

272

273

275

276

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

295

296

297

298

299

300

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

328

329

330

331

332

333

334

335

336

337

Einführung

Naturwissenschaft und Technik gelten landläufig als Gebiete, auf denen klare Verhältnisse herrschen. Ob chemische Reaktionen, mechanische Konstruktionen oder elektrotechnische Schaltungen: Ursache und Wirkung stehen in fester Beziehung zueinander. Bei genauerer Betrachtung werden jedoch überall Unwägbarkeiten erkennbar: Fertigungstoleranzen, Temperaturschwankungen, unvorhersehbares Nutzungsverhalten oder plötzliche Ausfälle von Bauteilen stellen keineswegs eine erschöpfende Aufzählung der Möglichkeiten dar, sondern erweisen sich eher als die Spitze eines Eisbergs. Für den Umgang mit solchen Phänomenen bieten sich innerhalb der Mathematik die Fachgebiete Statistik und Wahrscheinlichkeitsrechnung an.

Die

Statistik

befasst sich mit der Auswertung von Beobachtungsdaten aus der realen Welt. Ob Sie Menschen interviewen, an einem technischen Versuchsaufbau Messungen vornehmen oder sich durch Krankenakten oder Steuerlisten oder Fußballergebnisse hindurchwühlen – sobald Sie unter einer konkreten Fragestellung Daten sammeln, sind Sie schon dabei, Statistik zu betreiben. Manche Schlussfolgerungen können Sie bereits ohne großen Rechenaufwand erreichen. Aber die Wahrscheinlichkeitsrechnung hilft Ihnen, die Verlässlichkeit Ihrer Ergebnisse zu beurteilen und zusätzliche Schlüsse zu ziehen.

Die

Wahrscheinlichkeitsrechnung

ist eine Erfindung von Theoretikern, um in der künstlichen Welt des Glücksspiels möglichst gut abzuschneiden. Durch zwei außerordentlich geschickte Erweiterungen der Theorie können die Überlegungen aber auch auf statistische Daten aus der echten Welt angewendet werden und erlauben dort weitergehende Auswertungen.

Die Statistik, unterstützt durch die Wahrscheinlichkeitsrechnung, hilft Ihnen, unklare Situationen einzuschätzen. Sie verwendet dazu mathematische Verfahren und kommt auch schon einmal zu Aussagen, die Ihrer Intuition widersprechen. Jetzt gilt es zu entscheiden: Gibt es ausreichende Anhaltspunkte, dass hier tatsächlich ein überraschender Zusammenhang besteht, oder müssen Sie sich davor hüten, einem Trugschluss zum Opfer zu fallen? Mit dem bloßen Ausrechnen von Formeln ist es dann jedenfalls nicht getan. An einigen Stellen dieses Buches werde ich auf diesen Punkt noch einmal zurückkommen.

Über dieses Buch – oder: »… für Dummies« verpflichtet!

Dieses Buch ermöglicht Ihnen auf leicht verständliche Weise den Einstieg in die Fragestellungen, durch die Statistik und Wahrscheinlichkeitsrechnung entstanden sind. In einer einheitlichen Darstellungsweise führt es Sie dann bis zu fortgeschrittenen Themen wie beispielsweise stochastische Prozesse oder Zeitreihen.

Die Formeln und Rechenverfahren, die Sie dazu beherrschen müssen, werden so vorgestellt, dass Sie sie sofort einsetzen können. Gleichzeitig bekommen Sie aber auch stets die Anknüpfungspunkte für die dahinter stehende Theorie mitgeliefert.

Die Beispiele stammen aus unterschiedlichen Gebieten. So sehen Sie auch für Ihr Fach, wie die Gedankengänge dort eingesetzt werden können.

Das Buch will Sie nicht an allen Ecken und Enden spüren lassen, was Sie alles noch nicht wissen. Stattdessen möchte es Sie zu einer Entdeckungsreise in ein spannendes und buntes Teilgebiet der Mathematik einladen. Schließlich ist es ein »… für Dummies«-Buch. Das verpflichtet!

Wie man dieses Buch benutzt

Sie können mit diesem Buch alleine arbeiten. In einer kleinen Lerngruppe zu zweit oder zu dritt macht es aber vielleicht mehr Spaß, und Sie können sich gegenseitig weiterhelfen, wenn jemand von Ihnen gerade nicht weiterweiß.

In den Abschnitten finden Sie drei Zwischenüberschriften:

So geht's

: Dies ist die Schritt-für-Schritt-Anleitung, mit der Sie eine Aufgabenstellung abarbeiten können. Dazu gibt es auch immer ein durchgerechnetes Beispiel.

Das steckt dahinter

: Hier steht die mathematische Begründung dafür, warum dieser Rechenweg gerade das liefert, wonach gefragt ist. Wenn dies momentan nicht Ihre größte Sorge ist, können Sie diese Passagen auch ruhig erst einmal überschlagen.

Darauf kommt's an

: Nun folgen noch ein paar Tipps, die Ihnen helfen, das Rechenverfahren souveräner einzusetzen.

Ich habe mir große Mühe gegeben, in den »So geht's«-Passagen möglichst wenige Vorkenntnisse vorauszusetzen. Trotzdem musste ich halt auf irgendetwas aufbauen. Also wäre es wohl ganz gut, wenn Sie zumindest eine Formelsammlung in Reichweite hätten. Manche Dinge sind ja auch gar nicht unbedingt schwierig (ich denke da an die Bruchrechnung und an binomische Formeln und all so etwas), aber liegen einfach schon sooo lange zurück.

Die Beispiele können Sie zunächst einmal mit einem normalen Taschenrechner durchrechnen. Wenn Sie dem Thema treu bleiben, sollten Sie sich aber auch bald damit vertraut machen, wie Sie diese Berechnungen mit einem Computeralgebrasystem, einer Tabellenkalkulation oder mit entsprechender Statistik-Software durchführen.

Törichte Annahmen über die Leser

Am wahrscheinlichsten erscheint mir, dass Sie dieses Buch in die Hand nehmen, weil Sie im Laufe Ihres Studiums einen Kurs über Statistik absolvieren. Vielleicht müssen Sie sich aber auch beruflich mit Statistik beschäftigen oder sind ganz einfach nur am Thema interessiert. Sie wollen dabei zunächst einmal grundlegende Aufgabenstellungen und Rechenweisen kennenlernen, ohne sich dafür mit komplizierter Mathematik beschäftigen zu müssen.

Zugleich sehen Sie aber, dass im Laufe der Zeit auch ein paar fortgeschrittene Themen für Sie auf dem Programm stehen werden. Und Sie ahnen möglicherweise, dass Sie sich irgendwann auch mit den mathematischen Gedanken, die hinter den Formeln stehen, zumindest ein klein wenig beschäftigten sollten, damit Sie die Rechenverfahren im Rahmen von Studienprojekten oder vielleicht auch der Abschlussarbeit hinreichend kompetent einsetzen können.

Wenn das – so in der groben Richtung – auf Sie zutrifft, haben Sie das richtige Buch in der Hand.

Wie dieses Buch aufgebaut ist

Das Buch ist nach bestimmten Oberthemen in sechs Teile gegliedert, in denen der Stoff kapitelweise Schritt für Schritt beschrieben wird.

Die Teile I bis III stellen das Grundwissen der Statistik und der notwendigen Zuarbeit aus der Wahrscheinlichkeitsrechnung dar. Sie bauen in weiten Teilen aufeinander auf. In den Teilen IV und V sowie im Top-Ten-Teil finden Sie weiterführende Themen. Mit ihnen können Sie sich weitgehend unabhängig voneinander beschäftigen.

Die Kapitel 1 bis 15 enden jeweils mit einer Aufgabe. Hier können Sie einen Punkt aus dem vorangegangenen Stoff noch einmal üben. Die Lösungen stehen in Anhang D.

Teil I: Beschreibende Statistik

Ich finde es immer wieder erstaunlich, wie viel sich über die Welt um uns herum schon mit einfachen Mitteln herausfinden lässt – ganz ohne geheimnisvolle Formeln und komplizierte Mathematik. Es kommt »nur« darauf an,

Fragen richtig zu stellen,

ein paar einfache Kennzahlen, allen voran Häufigkeiten, Mittelwerte und Standardabweichungen zu berechnen und grafisch übersichtlich zu präsentieren,

und vor allem: eine ganze Bande naheliegender Trugschlüsse auf Abstand zu halten.

Ein wenig von meinem Erstaunen möchte ich Sie in dem Teil spüren lassen. Blättern Sie ruhig ein wenig darin herum. Sie werden bald merken, was ich meine.

Teil II: Wahrscheinlichkeitsrechnung

Wahrscheinlichkeit ist ein künstlich erdachter Begriff, der erst einmal nur in der Welt der Glücksspiele funktioniert. Deshalb werden Sie hier auch zunächst erfahren, wie in dieser Umgebung Wahrscheinlichkeiten ausgerechnet werden. Durch die Einführung der Begriffe Zufallsvariable und Verteilung lässt sich das Konzept dann aber so weiterentwickeln, dass es auch für Vorgänge im richtigen Leben nutzbar wird.

Sie werden einige häufig vorkommende Verteilungen kennenlernen. Die Kennzahlen dieser Verteilungen können Sie zur Not erst einmal auswendig lernen. Bei einigen von ihnen ist es ziemlich anspruchsvoll, nachzurechnen, warum es sich mit ihnen gerade so und nicht anders verhält. Wichtiger ist, dass Sie sich mit den Beschreibungen der Situationen vertraut machen, die typischerweise dafür verantwortlich sind, dass Sie es jetzt gerade mit dieser Verteilung zu tun haben.

Dieser Teil ist eher knapp gehalten. Je nachdem, wie tief gehend Sie sich mit dem Thema beschäftigen möchten, sollten Sie eventuell zusätzliche Quellen zurate ziehen.

Teil III: Beurteilende Statistik

Die Anwendung der Wahrscheinlichkeitsrechnung auf statistische Daten bringt Einsichten in die Verlässlichkeit der berechneten Kennzahlen. Sie können dadurch Fragen beantworten wie

Ich habe die Füllmenge von 1% unserer Tagesproduktion an Getränkepackungen nachgemessen. Wie genau kann ich daraus den Durchschnitt und die Schwankungsbreite der Füllmenge aller heute produzierten Packungen schätzen?

Im letzten Jahr lag der durchschnittliche Sturmschaden bei unseren Gebäudeversicherungen 15% höher als kalkuliert. Müssen wir die Kalkulation anpassen oder können wir dies noch als normale statistische Schwankung ansehen?

Die Rechenverfahren hierzu sind recht einfach durchzuführen und nutzen Werte aus Tabellen oder aus Funktionsaufrufen entsprechender Softwarepakete. Verblüffend werden Sie es wahrscheinlich finden, wie viele Versuche nötig sind, bis Häufigkeits-, Durchschnitts- oder Streuungswerte einigermaßen stabil werden.

Wenn Sie das nächste Mal beim »Mensch ärgere dich nicht« sechsmal hintereinander würfeln, ohne eine Sechs zu bekommen, werden Sie vielleicht auch weiterhin der Versuchung nicht widerstehen können, sich über den bösartigen Würfel zu beklagen – aber irgendwo tief drinnen werden Sie es dann besser wissen.

Teil IV: Auswertung von Messungen im Labor: Fehlerrechnung

In den Natur- und Ingenieurwissenschaften spielt sich ein wesentlicher Teil der Arbeit im Labor ab. Die Naturgesetze führen zu einer Erwartung, wie unter den gegebenen Voraussetzungen bestimmte Messwerte ausfallen sollten. Leider weichen die Messwerte aber immer von den theoretisch erwarteten Werten ab.

In diesem Teil lernen Sie, zwischen systematischen und zufälligen Abweichungen zu unterscheiden. Sie erfahren, wie diese Abweichungen die Genauigkeit und die Präzision der Messung beeinflussen (ja, das sind zwei unterschiedliche Dinge!) und warum sich durch genügend Wiederholungen der Messung die Präzision des Messergebnisses verbessert, obwohl die Präzision des Messverfahrens gleich bleibt.

Weiterhin erfahren Sie, warum es zwei unterschiedliche Methoden dafür gibt, abzuschätzen, wie sich zufällige Abweichungen auf das Endergebnis auswirken, wenn Sie mit Messwerten weiterrechnen, und wie Sie erkennen, welche Methode gerade anwendbar ist.

Schließlich zeige ich Ihnen auch noch, wie Sie mit der Methode der kleinsten Fehlerquadrate zu einer Folge von Messwerten eine plausible Funktion erfinden, die hinter dieser Messreihe stecken könnte.

Teil V: Zeitliche Entwicklungen erfassen

Bis hierher bezogen sich alle Überlegungen auf jeweils einen einzigen Vorgang, der des Öfteren unter gleichbleibenden Rahmenbedingungen wiederholt wird, sei es das Ziehen der Lottozahlen, das Erfragen des Monatseinkommens oder das Messen einer Entfernung. Jetzt präsentiere ich Ihnen Vorgänge, bei denen sich im Laufe der Zeit die Gegebenheiten ändern: Bisher mögliche Ausgänge fallen weg, andere kommen hinzu, bei wieder anderen ändern sich die Wahrscheinlichkeiten. Ein wenig ist das so wie bei Ihrer beruflichen Karriere: Je nachdem, welchen Schritt Sie als Nächstes unternehmen, werden bestimmte Entwicklungen in der Zukunft möglich oder unmöglich, wahrscheinlicher oder weniger wahrscheinlich.

Wenn ein solcher Vorgang, bei dem sich im Laufe der Zeit die Regeln ändern, rein zufallsgesteuert abläuft, spricht man von einem stochastischen Prozess. In diesem Zusammenhang stelle ich Ihnen zunächst Prozesse vor, bei denen die Regeln bekannt sind und man danach fragen kann, wie die Wahrscheinlichkeiten für die unterschiedlichen möglichen weiteren Entwicklungen aussehen. Danach geht es um die umgekehrte Situation: Ich kann bei einem stochastischen Prozess beobachten, welche Entwicklung er tatsächlich nimmt (solche Beobachtungsdaten nennt man eine Zeitreihe). Anschließend frage ich danach, wie viel ich durch diese Daten über die Gesetze, die hinter der Entwicklung stehen, herausfinden kann.

Um einen bestimmten Prozess zu untersuchen, bei dem ich es zu kompliziert finde, direkt nach seinen Gesetzmäßigkeiten zu fahnden, kann ich eine gewisse Anzahl solcher Zeitreihen auch absichtlich erzeugen. Dann spricht man von einer Simulation dieses Prozesses. Dann muss ich allerdings auch die zufällige Steuerung des Prozessverlaufs selbst in die Hand nehmen. Dazu brauche ich Zufallszahlen.

Teil VI: Der Top-Ten-Teil

Hier habe ich zehn Dinge aus dem (mehr oder minder) alltäglichen Leben herausgegriffen, die den Stoff des Buches ergänzen und die ich für jemanden, der sich mit Statistik beschäftigt, für wissenswert halte.

Mehrmals geht es dabei um populäre Fehlschlüsse aus Statistiken. Aber Sie erfahren auch, wie Sie sich in einer Situation, in der Sie Ihrem Gegenüber nicht trauen, eine faire Fifty-fifty-Chance sichern können oder welche Verteilung der Ergebnisse Sie erwarten sollten, wenn Sie einen Würfel nur wenige Male werfen oder nur wenige Male beim Roulette Ihr Glück versuchen.

Die wesentliche Aussage jedes Abschnitts habe ich so formuliert, dass sie auch ohne Vorkenntnisse aus den anderen Teilen des Buches verständlich ist. Wenn zur weitergehenden Erläuterung des Sachverhalts zusätzliche Informationen nötig sind, finden Sie Hinweise auf die entsprechenden Kapitel.

Falls Sie Lust haben, dort einfach einmal zu blättern und zu stöbern – nur zu!

Anhang

Hier habe ich Tabellen mit Werten von zwei Verteilungen, die beim Schätzen und Testen oft vorkommen, zusammengestellt sowie eine Übersicht über Rechenregeln für den Erwartungswert und die Varianz von Zufallsvariablen, die ich an verschiedenen Stellen des Buches verwende.

Die Werte der Verteilungen können Sie heutzutage in vielen Softwarepaketen und auch bei manchen Taschenrechnern abrufen. Die Tabellen habe ich trotzdem aufgenommen – natürlich zum einen, weil ich nicht weiß, ob Ihnen diese Hilfsmittel gerade zur Verfügung stehen. Zum anderen bin ich aber auch überzeugt, dass es für Sie hilfreich ist, wenn Sie einmal einen Überblick bekommen, wie sich die Werte in Abhängigkeit von ihren Parametern entwickeln. Das gibt Ihnen noch etwas mehr Verständnis für die Gesamtsituation als ein Taschenrechner, der Ihnen nur die einzelne Zahl liefert, nach der Sie ihn gerade konkret gefragt haben.

Der letzte Anhang enthält die Lösungen zu den Übungsaufgaben, die am Ende jedes Kapitels stehen.

Die Symbole in diesem Buch

Die Glühbirne zeigt Ihnen hilfreiche Tipps für den Umgang mit den Rechenverfahren an.

Wenn Sie etwas vermeiden sollten, halten Sie Ausschau nach diesem Symbol.

Gelegentlich konnte ich mir die eine oder andere Anekdote nicht verkneifen – kleine Erlebnisse oder Geschichten, die mir zu dem Thema gerade so in den Sinn kamen.

Wie es weitergeht

Natürlich finde ich es gut, wenn Sie das Buch von vorn bis hinten durcharbeiten. Wenn ich etwas für nicht wissenswert hielte, hätte ich es nicht hineingeschrieben. Aber ich kann mir auch gute Gründe vorstellen, sich (zunächst?) auf Teile des Buches zu konzentrieren.

Falls Sie das Buch parallel zu einem Kurs lesen, in dem die beschreibende Statistik keine Rolle spielt, sollten Sie sich in Teil I zumindest mit den Begriffen arithmetisches Mittel, Varianz und Standardabweichung vertraut machen. Sie sind in Kapitel 3 zu finden.

In Teil II sind die zentralen Begriffe Wahrscheinlichkeit, Zufallsvariable und Verteilung beschrieben. Die Rechenwege mit Variationen und Kombinationen in Kapitel 5 können Sie auch erst einmal überschlagen, falls Sie nicht ausdrücklich Aufgaben dieser Art lösen müssen. Mit den typischen Eigenschaften der einzelnen Verteilungen, die ich in diesem Teil vorstelle, sollten Sie sich aber auf jeden Fall beschäftigen. Sie tauchen an allen Ecken und Enden auf – allen voran die Normalverteilung.

Egal, wie Ihr Statistik-Kurs im Einzelnen aufgebaut ist, die Themen aus Teil III werden mit Sicherheit darin vorkommen. So brauche ich hier keine Werbung für die Wichtigkeit einzelner Punkte zu betreiben. Möglicherweise beschleicht Sie dort aber das Gefühl, dass die Formeln überhandnehmen und der Zusammenhang nicht recht erkennbar wird. Mein Tipp: Versuchen Sie einmal jemandem, der keine Ahnung von Statistik hat, zu erklären, was Sinn und Zweck eines Konfidenzintervalls ist. Wenn Ihnen das gelingt, haben Sie garantiert alles verstanden, worauf es ankommt. Und wenn Sie beim Erklären ins Stolpern kommen sollten, haben Sie dadurch eine prima Frage gefunden, mit der Sie noch mal an den Text herangehen können.

Die Überschrift von Teil IV weist schon darauf hin, dass dieses Thema für Sie vor allem relevant ist, wenn Sie mit Messdaten umgehen. Die Methode der kleinsten Fehlerquadrate in Kapitel 13 wird allerdings auch oft in anderen Zusammenhängen zum Auswerten statistischer Daten verwendet. Falls Sie dieses Buch gezielt wegen der Fehlerrechnung in die Hand genommen haben, sollten Sie zuerst einen Blick auf die Basisinformationen zu Zufallsvariablen in Kapitel 6 und über die Normalverteilung in Kapitel 8 werfen.

In Teil V werden Sie anhand der Überschriften schnell finden, was Sie davon konkret interessiert. Auch hier werden die Grundbegriffe über Zufallsvariablen und über Verteilungen aus Teil II vorausgesetzt.

Viel Erfolg!

Der Autor

Christoph Maas hat Mathematik und Informatik studiert und in Mathematik das Diplom erworben, promoviert und sich habilitiert. Nach Stationen an der University of Kentucky und der Fachhochschule Darmstadt ist er jetzt schon seit etlichen Jahren Mathematikprofessor an der Hochschule für Angewandte Wissenschaften in Hamburg.

Danksagungen

Ohne die Ermutigung von Marcel Ferner, meinem Lektor bei VCH Wiley hätte ich ein solches Buch wohl gar nicht angefangen. Manchmal braucht man einfach im Leben zur richtigen Zeit einen Schubs. Beim Ausarbeiten der Fehlerrechnung in Teil IV haben mir Gespräche mit Holger Kohlhoff, Dagmar Rokita, Rainer Sawatzki und Janna Twesten wertvolle Hinweise gebracht. Boris Tolg ist es zu verdanken, dass das Buch jetzt deutlich weniger Fehler enthält als in der vorangegangenen Version. (Was jetzt noch übrig ist, geht natürlich auf mein Konto!) Schließlich hat mich auch noch Lutz Witte mit der Nase auf die Sache mit der Krebsfrüherkennung in Kapitel 10 gestoßen. Ihnen und Euch herzlichen Dank dafür!

Die Computerberechnungen sowie das Erstellen der meisten Abbildungen wurden mit dem Computeralgebrasystem MAPLE® durchgeführt. Ich danke der Firma Maplesoft Inc., die mir die entsprechende Lizenz zur Verfügung gestellt hat.

Teil I

Beschreibende Statistik

IN DIESEM TEIL …

Statistik betreiben Sie, um aus Daten Schlussfolgerungen zu ziehen. Einige vorbereitende Überlegungen, die Ihnen dabei helfen, zu aussagefähigen Daten zu kommen. Anschließend stelle ich Ihnen gängige Techniken zur Auswertung von Daten vor.

Schon durch einige einfache Verfahren zur grafischen Darstellung gewinnen Sie einen Überblick über den Informationsgehalt Ihrer Daten.

Der Durchschnitt fasst Ihre Daten in einer einzigen Angabe zusammen. Allerdings müssen Sie sich je nach Zusammenhang etwas Unterschiedliches unter diesem Begriff vorstellen.

Auch nach Verbindungen zwischen zwei Eigenschaften können Sie schon mit einfachen Berechnungen suchen.

Fehldeutungen und Trugschlüssen bei allen diesen Methoden vermeiden.

Kapitel 1

Klarmachen zum Datensammeln

IN DIESEM KAPITEL

Den Gegenstand Ihrer Untersuchung festlegen

Zwischen diskreten und stetigen Merkmalen sowie zwischen quantitativen und qualitativen Merkmalen unterscheiden

Einen Kompromiss zwischen Zufallsstichprobe und repräsentativer Stichprobe kennenlernen

Der Begriff »Statistik« ist von dem lateinischen Wort für »stehen« abgeleitet. Die Statistik interpretiert Daten aus der realen Welt und zeigt so, wie es um die Welt steht (jedenfalls in Hinblick auf die jeweils vorliegende Fragestellung). Daneben existiert die Wahrscheinlichkeitsrechnung als rein abstraktes Denkspiel. In den ersten zwei Teilen dieses Buches stelle ich Ihnen die beiden Gebiete einzeln vor. In Teil III zeige ich Ihnen dann, wie die Wahrscheinlichkeitsrechnung dabei hilft, bei statistischen Daten noch mehr Durchblick zu erzeugen.

Statistik beginnt nicht gleich mit dem Rechnen. Davor kommt erst einmal das Sammeln von Daten. Und wiederum davor kommen erst einmal ein paar Überlegungen, damit Sie mit den Daten später auch etwas anfangen können. Um solche vorbereitenden Gedanken geht es in diesem Kapitel.

Wer Sie interessiert: Die Beobachtungsmenge

Eine sinnvolle Antwort nimmt ihren Anfang bei einer gut gestellten Frage. Auf die Statistik bezogen, heißt dies: Der erste Schritt zu einer aussagefähigen Auswertung von Daten ist die Festlegung, worüber überhaupt eine Einsicht gewonnen werden soll.

Die Menge aller Objekte, über die Sie am Ende eine Aussage machen möchten, heißt die Beobachtungsmenge. Dasselbe bedeuten die häufig verwendeten Fachbegriffe Grundgesamtheit oder Population.

Oft lässt sich die Beobachtungsmenge ganz selbstverständlich festlegen:

Mit einem Crashtest möchten Sie etwas über die gesamte Baureihe eines bestimmten Fahrzeugmodells erfahren.

Bei der Markteinführung eines Produkts gibt es eine definierte Zielgruppe, deren voraussichtliche Reaktion auf die Neuheit Sie prognostizieren sollen.

Mitunter sind Untersuchungsvorhaben aber auch so komplex, dass Sie sie in einzelne Fragestellungen aufteilen müssen.

Für eine Untersuchung der Verkehrssituation in Ihrer Stadt kommen ganz unterschiedliche Beobachtungsmengen infrage, beispielsweise

die Menschen, die am Verkehr in dieser Stadt teilnehmen

die Verkehrsmittel, mit denen der Verkehr in dieser Stadt stattfindet

die Verkehrswege, über die der Verkehr in dieser Stadt abläuft

Je nachdem, wie Sie die Beobachtungsmenge festlegen, gibt es dann Fragestellungen, die für diese Beobachtungsmenge sinnvoll beantwortet werden können.

Hinsichtlich einer Person können Sie beispielsweise danach fragen, wie lange sie täglich im Verkehr unterwegs ist.

Hinsichtlich eines Verkehrsmittels können Sie etwa danach fragen, wie die Aufteilung zwischen Personen- und Güterverkehr aussieht.

Hinsichtlich eines Verkehrsweges wäre schließlich die Frage nach den jährlichen Unterhaltskosten denkbar.

Kaum noch Chance auf Eheglück?

Auf den Internetseiten des Statistischen Bundesamtes können Sie nachlesen, dass im Jahr 2016 in Deutschland 410.426 Ehen geschlossen und 162.397 Ehen geschieden wurden. Nahezu unwiderstehlich ist die Versuchung, dies auf die Schlagzeile zu verkürzen »Fast jede zweite Ehe wird geschieden«. Mal abgesehen davon, dass hier geburtenstärkere Jahrgänge der Scheidungspaare mit geburtenschwächeren der Hochzeitspaare gleichgesetzt werden: Heißt das, dass allenfalls gut die Hälfte der Menschen, die jemals heiraten, auf eine dauerhafte Ehe hoffen darf?

Diese vermeintlich naheliegende Schlussfolgerung lässt außer Acht, dass Geschiedene sich wieder verheiraten können.

Wenn die Ehepaare Alfred und Susanne einerseits und Bernd und Theresa andererseits sich scheiden lassen und anschließend in den Konstellationen Alfred und Theresa sowie Bernd und Susanne erneut heiraten und auf Dauer zusammenbleiben, dann ist zwar von den vier Ehen, von denen hier die Rede ist, die Hälfte geschieden worden. Trotzdem haben alle vier Männer und Frauen im Laufe ihres Lebens eine dauerhafte Ehe geführt.

Es ist also wichtig, dass Sie hier zwischen der Beobachtungsmenge »Ehen« und der Beobachtungsmenge »verheiratete Menschen« sauber trennen – obwohl das eine ohne das andere überhaupt nicht existiert.

Die Elemente der Beobachtungsmenge werden als Beobachtungseinheit bezeichnet – also:

ein Auto aus der fraglichen Baureihe des Fahrzeugmodells,

eine Person aus der Zielgruppe für das neue Produkt,

eine Verkehrsteilnehmerin oder ein Verkehrsteilnehmer in der betrachteten Stadt,

ein Verkehrsmittel (PKW, Bus, Bahn, Fahrrad, Schiff, …),

eine Straße (oder ein Schienenabschnitt oder eine Route über Wasser oder …).

Zur Durchführung Ihrer Untersuchung nehmen Sie sich Exemplare der Beobachtungseinheit vor und notieren, was Sie bei diesem Exemplar vorfinden.

Was Sie interessiert: Merkmale

Diejenige Eigenschaft der Beobachtungseinheit, auf die Sie Ihr Augenmerk richten, wird als Beobachtungsmerkmal bezeichnet, also welche Farbe eine Testkundin für das neue Produkt vorschlägt, um welche Länge sich die Knautschzone verkürzt hat oder wie viele Menschen im Laufe des Tages in einer bestimmten Buslinie unterwegs waren. Das, was Sie über dieses Merkmal bei Ihrer Beobachtung notieren, wird als Ausprägung des Merkmals bezeichnet, also, dass die Farbe Blau vorgeschlagen wurde, dass sich die Knautschzone um 20,5 cm verkürzt hat oder dass über den gesamten Tag hinweg 1738 Fahrgäste in die Busse dieser bestimmten Linie eingestiegen sind. Ich werde oft aber auch weniger fachmännisch vom Wert des Merkmals sprechen. Was Sie mit den so gewonnenen Notizen anfangen können, hängt davon ab, von welcher Art das Merkmal ist.

Merkmale werden in zweierlei Hinsicht klassifiziert:

Diskret vs. stetig:

Diskrete Merkmale

haben Ausprägungen, die sich klar voneinander unterscheiden. Zwischen zwei unterschiedlichen Ausprägungen eines solchen Merkmals gibt es immer einen »Sicherheitsabstand«. Typische Vertreter diskreter Merkmale haben entweder endlich viele mögliche Ausprägungen, oder wenn sie unendlich viele mögliche Ausprägungen haben, dann sind sie so säuberlich voneinander getrennt wie die natürlichen Zahlen.

Stetige Merkmale

hingegen haben Ausprägungen, die stufenlos ineinander übergehen, so wie es beispielsweise bei der Menge aller reellen Zahlen zwischen 0 und 1 der Fall ist.

Quantitativ vs. qualitativ:

Quantitative Merkmale

haben Ausprägungen, die Zahlenwerte darstellen. Das allein reicht aber nicht. Es muss darüber hinaus auch sinnvoll sein, mit diesen Zahlenwerten zu rechnen. Als einfachen Test hierfür können Sie sich fragen, ob es sinnvoll ist, die Ausprägungen nach kleineren und größeren Werten zu sortieren.

Qualitative Merkmale

haben entweder Ausprägungen, die keine Zahlen sind, oder es handelt sich um Zahlen, die keine sinnvolle Kleiner-größer-Beziehung eingehen können.

Beispiele:

Die Anzahl der leiblichen Kinder einer Person ist ein

diskretes quantitatives

Merkmal: Als Antwort kommen nur die natürlichen Zahlen infrage, aber keine Zwischenwerte (also ist das Merkmal diskret), und die Frage danach, ob eine bestimmte Person mehr Kinder hat als eine andere bestimmte Person, besitzt eine sinnvolle Antwort (also ist das Merkmal quantitativ).

Die Ortskennung auf deutschen Autokennzeichen ist ein

diskretes qualitatives

Merkmal: Es gibt nur endlich viele Möglichkeiten (also ist das Merkmal diskret), und die Ausprägungen des Merkmals sind keine Zahlen (also ist das Merkmal qualitativ). Dass Sie Autokennzeichen nach dem Alphabet sortieren können, spricht nicht gegen diese Einstufung, denn trotz dieser Sortierung können Sie mit diesen Buchstaben nun einmal nicht rechnen. Oder könnten Sie sich unter dem arithmetischen Mittel (dieser Begriff wird in

Kapitel 3

vorgestellt) der Autokennzeichen in Brandenburg etwas Sinnvolles vorstellen?

Die momentane Anzahl der Umdrehungen pro Minute eines Windrades ist ein

stetiges quantitatives

Merkmal: Die Anzahl muss nicht ganzzahlig sein, im Gegenteil: Sie steigt und fällt stufenlos mit der Windstärke (also ist das Merkmal stetig), und die Frage danach, welches von zwei Windrädern sich gerade schneller dreht, hat eine sinnvolle Antwort (also ist das Merkmal quantitativ).

Die momentanen GPS-Koordinaten eines LKW einer Spedition sind ein

stetiges qualitatives

Merkmal: Die Koordinaten ändern sich stufenlos (also ist das Merkmal stetig), und wenn ein LKW von Berlin nach Rostock fährt und ein anderer von Bremen nach München, dann ist es sinnlos zu fragen, wer von beiden denn jetzt die größeren Koordinaten habe (also ist das Merkmal qualitativ).

Eine Verschlüsslung von Angaben durch Zahlen (beispielsweise 0 = ledig, 1 = verheiratet/Lebenspartnerschaft, 2 = geschieden, 3 = verwitwet) ist kein quantitatives Merkmal, denn die Größer-kleiner-Beziehung zwischen den Zahlen hat keine Bedeutung. Vielmehr können Sie durch eine Vertauschung der Schlüsselwerte jede beliebige Beziehung zwischen den verschlüsselten Begriffen erzeugen.

Es ist sinnvoll, Zeiten, Längen oder Preise als stetige Merkmale anzusehen. Wenn es sich dann ergibt, dass aufgrund der gewählten Maßeinheiten nur ganzzahlige Werte auftreten, sollten Sie diese Angaben als Klasseneinteilung (was das ist, können Sie in Kapitel 2 nachlesen) auffassen. So steht dann beispielsweise die Angabe »zwei Sekunden« nicht für die genaue Zahl 2,000000…, sondern sie repräsentiert irgendeinen Wert zwischen 1,5 und 2,5 Sekunden.

Wen Sie tatsächlich befragen: Stichproben

Wenn Sie alle Elemente der Beobachtungsmenge untersuchen, erhalten Sie natürlich die zuverlässigsten Resultate. Bei einer Wahl steht auf diese Weise zumindest die Meinung all derjenigen fest, die ihre Stimme abgegeben haben, und wir alle akzeptieren, dass auf dieser Grundlage für die nächsten Jahre Politik gemacht wird.

In der Regel verbietet sich aber ein solches Vorgehen. Bei einer Marketingstudie beispielsweise wäre es meistens schlicht zu teuer, die gesamte Bevölkerung mit einem Probeexemplar eines neuen Produkts zu versorgen und sie anschließend nach ihrer Meinung darüber zu befragen. Und auf die Idee, wirklich jedes Auto vor der Auslieferung einem Crashtest zu unterziehen, wird wohl auch niemand kommen.

Immer wenn Sie eine Teilmenge der Beobachtungsmenge untersuchen, aus der Sie dann Rückschlüsse auf die gesamte Beobachtungsmenge ziehen, haben Sie es mit einer Stichprobe zu tun. Ob solche Rückschlüsse auf die Gesamtmenge sinnvoll sind, hängt auch davon ab, ob Sie gewisse Vorgehensweisen bei der Auswahl der Teilmenge einhalten.

Im Wesentlichen stehen sich hier zwei Konzepte gegenüber: die Zufallsstichprobe und die repräsentative Stichprobe.

Die Namen sprechen weitgehend für sich. Eine Zufallsstichprobe wird auf eine Weise aus der Beobachtungsmenge ausgewählt, dass jedes Element dieselbe Chance hat, berücksichtigt zu werden. Bei einer Umfrage vor einer Wahl könnten Sie beispielsweise eine Reihe von Nummern von Personalausweisen auslosen und die entsprechenden Wahlberechtigten befragen. Eine repräsentative Stichprobe hingegen ist so aufgebaut, dass sie alle relevanten Eigenschaften der Beobachtungsmenge widerspiegelt. Bei einer Umfrage vor einer Wahl sollte dies beispielsweise hinsichtlich der Anteile der Geschlechter, der Verteilung auf Altersgruppen, der geografischen Verteilung über das Bundesgebiet und des beruflichen Status der Fall sein (Ihnen fallen sicher ganz schnell noch weitere Gesichtspunkte ein, oder?).

Bei Zufallsauswahlen lassen Sie sich am besten durch einen Zufallszahlengenerator unterstützen. Die menschliche Vorstellung vom Zufall ist hier nicht immer ausreichend. Beispielsweise reagieren viele Menschen auf die Aufforderung, zufällig einen Eintrag im Telefonbuch auszuwählen, so, dass sie das Buch ungefähr in der Mitte aufschlagen und dort auf einen Namen ungefähr in der Mitte der Seite tippen. Das hat mit Zufall nur eingeschränkt etwas zu tun, weil es viele Einträge gibt, die praktisch keine Chance haben, auf diesem Wege ausgewählt zu werden.

Bei Wahlen sind sich die Forschungsinstitute mittlerweile einigermaßen sicher, welche Faktoren Einfluss auf das Wahlverhalten haben. Vielfach ist aber das Aufstellen einer repräsentativen Stichprobe ein zwar edles, doch zugleich auch unerreichbares Ziel, weil gar nicht alle relevanten Kriterien bekannt sind.

Zufallsstichproben, die nur einen kleinen Teil der Beobachtungsmenge umfassen, bergen andererseits das Risiko, dass relevante, aber kleine Gruppen in der Beobachtungsmenge, bei der Auswahl »Pech haben« und in der Stichprobe nicht (oder fast nicht) vorkommen.

Einen guten Kompromiss zwischen den beiden Ansätzen stellen geschichtete Zufallsstichproben dar.

So geht's

Wählen Sie ein diskretes Merkmal aus und notieren Sie, welche Anteile die einzelnen Ausprägungen in der Beobachtungsmenge ausmachen.

Jetzt betrachten Sie nacheinander jede Ausprägung für sich und wählen unter denjenigen Elementen der Beobachtungsmenge, die genau diese Ausprägung aufweisen, eine Zufallsstichprobe. Diese Stichprobe soll so groß sein, dass alle von Ihnen gewünschten Auswertungen möglich sind.

Werten Sie jede dieser Stichproben aus.

Tausende von E-Books und Hörbücher

Ihre Zahl wächst ständig und Sie haben eine Fixpreisgarantie.

Sie haben über uns geschrieben: