0,00 €
Studienarbeit aus dem Jahr 2003 im Fachbereich Mathematik - Statistik, Note: 1,3, Johann Wolfgang Goethe-Universität Frankfurt am Main (Fachbereich Wirtschaftswissenschaften), Veranstaltung: Seminar "Angewandte Statistik", Sprache: Deutsch, Abstract: Obwohl Methoden für kategoriale Daten wie z. B. die logistische Regression und das loglineare Modellieren in fast allen bedeutenden Bereichen der statistischen Anwendung alltäglich sind, gibt es dennoch kaum Literatur über grundsätzliche Verfahren, wie mit fehlenden Werten in der Analyse von Klassendaten umzugehen ist. In dieser Seminararbeit werden Techniken für die Parametersimulation und die multiple Imputation von unvollständigen Klassendaten im saturierten multinomialen Modell entwickelt. Das saturierte multinomiale Modell eignet sich hierfür besonders, da es dreifache und höhere Verbindungen zwischen den Variablen zulässt. In Abschnitt 2 werden die grundlegenden Eigenschaften zweier multivariater Verteilungen, der multinomialen und der Dirichlet-Verteilung, betrachtet. Der elementare EM- und der Vergrößerungsalgorithmus für das saturierte multinomiale Modell werden in Abschnitt 3 entwickelt. Die Darstellungen gehen auf das 7. Kapitel des Buches „Analysis of Incomplete Multivariate Data“ von J. L. Schafer zurück, das 1997 bei Chapman & Hall erschienen ist.
Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:
Veröffentlichungsjahr: 2004
Page 1
Methoden zum Umgang mit fehlenden Werten in der Analyse von kategorialen Daten
Name: Andreas Wolf
Abgabetermin: 25.08.2003
Page 1
1 Einleitung
Obwohl Methoden für kategoriale D aten wie z. B. die logistische Regression und das
loglineare Modellieren in fast allen bedeutenden Bereichen der statistischen Anwendung
alltäglich sind, gibt es dennoch kaum Literatur über grundsätzliche Verfahren, wie mit
fehlenden Werten in der Analyse von Klassendaten umzugehen ist.
In dieser Seminararbeit werden Techniken für die Parametersimulation und die multiple
Imputation von unvollständigen Klassendaten im saturierten multinomialen Modell
entwickelt. Das saturierte multinomiale Modell eignet sich hierfür besonders, da es dreifache
und höhere Verbindungen zwischen den Variablen zulässt.
In Abschnitt 2 werden die grundlegenden Eigenschaften zweier multivariater Verteilungen,
der multinomialen und der Dirichlet-Verteilung, betrachtet. Der elementare EM- und der
Vergrößerungsalgorithmus für das saturierte multinomiale Modell werden in Abschnitt 3
entwickelt. Die Darstellungen gehen auf das 7. Kapitel des Buches „Analysis of Incomplete
Multivariate Data“ von J. L. Schafer zurück, das 1997 bei Chapman & Hall erschienen ist.
Die Multinomialverteilung12.1
KY Y Y, , ,2seien Zufallsvariablen bzw. Merkmale, die positive ganzzahlige Wertep1
1K1Kd, , 2 ,für annehmen können. Dabei handelt es sich um nominale oderp j, , 2 ,j
ungeordnete Klassen. Bei einer Stichprobe vonnunabhängigen und identisch verteilten
Erhebungseinheiten kann man eine KontingenztabelleYmit
ist hier die Anzahl unterschiedlicher Kombinationen der Merkmalsausprägungen von
KY Y Y, , ,2. Im Weiteren nehmen wir an, dass keinestrukturellen Nullenexistieren, d. h.p1
keine Kombination von Ausprägungen verschiedener Merkmale aufgrund bestimmter
1Klogischer Bedingungen unmöglich ist.dxfür sei die absolute Häufigkeit vonD d, , 2 ,
Erhebungseinheiten, die in Zelledfallen unddθdie zugehörige Wahrscheinlichkeit. Alle
K) , , , (x x x xZellhäufigkeiten und deren Wahrscheinlichkeiten werden mit bzw.2 1D
K) , , , (θ θ θ θzusammengefasst. Sind die Erhebungseinheiten unabhängig und identisch2 1D