Wednesday, 14 June 2017

Zero Aufgeblasen Binäre Optionen


Die GENMOD-Prozedur Zähldaten, die eine Überschreitung von Nullen aufweisen, die größer als erwartet für die zugrunde liegende Wahrscheinlichkeitsverteilung der Zählungen sind, können mit einer null aufgeblasenen Verteilung modelliert werden. In GENMOD kann die zugrunde liegende Verteilung entweder Poisson oder negatives Binomial sein. Siehe Lambert (1992). Long (1997) und Cameron und Trivedi (1998) für weitere Informationen über null-aufgeblähte Modelle. Die Bevölkerung besteht aus zwei Arten von Individuen. Der erste Typ gibt Poisson oder negative Binomialverteilungszählungen, die Nullen enthalten können. Der zweite Typ gibt immer eine Nullzählung. Sei das zugrunde liegende Verteilungsmittel und sei die Wahrscheinlichkeit eines einzelnen Wesens des zweiten Typs. Der Parameter heißt hier die Null-Inflationswahrscheinlichkeit. Und ist die Wahrscheinlichkeit von Nullzählungen, die über der Frequenz liegen, die durch die zugrunde liegende Verteilung vorhergesagt wird. Sie können verlangen, dass die Null-Inflationswahrscheinlichkeit in einem Ausgabedatensatz mit dem Schlüsselwort PZERO angezeigt wird. Die Wahrscheinlichkeitsverteilung einer null aufgeblasenen Poisson-Zufallsvariablen Y ist gegeben durch und die Wahrscheinlichkeitsverteilung einer null aufgeblasenen negativen binomischen Zufallsvariablen Y ist gegeben durch wobei der negative Binomialdispersionsparameter gegeben ist. Wo ist eine der binären Link-Funktionen: logit, probit oder komplementäre log-log. Die Link-Funktion ist standardmäßig die logit-Verknüpfung oder die in der ZEROMODEL-Anweisung angegebene Link-Funktionsoption. Die Link-Funktion ist standardmäßig die Log-Link-Funktion oder die in der MODEL-Anweisung angegebene Link-Funktion sowohl für das Poisson als auch für das negative Binomial. Die Kovariaten für die Beobachtung werden durch das in der ZEROMODEL-Anweisung angegebene Modell bestimmt, und die Kovariaten werden durch das in der MODEL-Anweisung angegebene Modell bestimmt. Die Regressionsparameter und werden durch maximale Wahrscheinlichkeit geschätzt. Der Mittelwert und die Varianz von Y für den null aufgeblasenen Poisson werden durch Null gegeben: Zero-aufgeblasene Count Data Regression-Argumente, die im Standard-Setup an zeroinfl. control übergeben wurden. Zero-aufgeblasene Zählmodelle sind Zweikomponenten-Mischmodelle, die eine Punktmasse bei Null mit einer richtigen Zählverteilung kombinieren. So gibt es zwei Quellen von Nullen: Nullen können sowohl von der Punktmasse als auch von der Zählkomponente kommen. Normalerweise ist das Zählmodell eine Poisson - oder negative Binomialregression (mit Log-Link). Die geometrische Verteilung ist ein Spezialfall des negativen Binomials mit dem Größenparameter gleich 1. Für die Modellierung des nicht beobachteten Zustands (Nullpunktzahl) wird ein Binärmodell verwendet, das die Wahrscheinlichkeit der Nullaufblasung erfasst. Im einfachsten Fall nur mit einem Intercept, aber möglicherweise mit Regressoren. Für dieses Null-Inflationsmodell kann ein Binomialmodell mit verschiedenen Links verwendet werden, typischerweise logit oder probit. Mit der Formel können beide Komponenten des Modells angegeben werden: Wird eine Formel vom Typ y x1 x2 geliefert, so werden bei beiden Komponenten dieselben Regressoren eingesetzt. Dies entspricht y x1 x2 x1 x2. Natürlich könnte ein anderer Satz von Regressoren für die Zähl - und Null-Inflationskomponente spezifiziert werden, z. B. Y x1 x2 z1 z2 z3 ergibt das Zähldatenmodell y x1 x2 bedingt auf () das Null-Inflationsmodell y z1 z2 z3. Ein einfaches Inflationsmodell, bei dem alle Nullzählungen die gleiche Wahrscheinlichkeit haben, zu der Nullkomponente zu gehören, können durch die Formel y vorgegeben werden. In beiden Komponenten des Modells, die sich auf das Zähl - und Null-Inflationsmodell beziehen, können Offsets angegeben werden: y x1-Offset (x2) Z1 z2-Offset (z3). Wobei x2 als Versatz (d. h. mit Koeffizienten, der auf 1 fixiert ist) in der Zählkomponente und z3 analog in der Null-Inflationskomponente verwendet wird. Durch die oben angegebene Regel wird y x1 Offset (x2) auf y x1 Offset (x2) x1 Offset (x2) erweitert. Anstatt den Offset () - Wrapper innerhalb der Formel zu verwenden. Kann auch das Offset-Argument verwendet werden, das nur für das Zählmodell einen Offset setzt. Somit entspricht die Formel y x1 und der Offset x2 der Formel y x1-Offset (x2) x1. Alle Parameter werden mit maximaler Wahrscheinlichkeit mit Optim optimiert. Mit Kontrollmöglichkeiten in zeroinfl. control eingestellt. Startwerte können ausgeliefert werden, geschätzt durch den EM (Erwartungsmaximierung) Algorithmus oder durch glm. fit (die Voreinstellung). Standardfehler werden numerisch mit der von der Optimierung zurückgegebenen Hessischen Matrix abgeleitet. Weitere Informationen finden Sie unter zeroinfl. control. Das zurückgebrachte Modellobjekt ist von Klasse Null und ist ähnlich wie mit passenden Glmobjekten. Für Elemente wie Koeffizienten oder Begriffe wird eine Liste mit Elementen für die Null - und Zählkomponente zurückgegeben. Details siehe unten. Für Objekte der Klasse zeroinfl steht ein Satz von Standard-Extraktorfunktionen für eingebaute Modellobjekte zur Verfügung. Einschließlich Methoden zu den generischen Funktionen drucken. Zusammenfassung. Coef Vcov LogLik Residuals vorhersagen. tailliert. Begriffe. Model. matrix Siehe Vorhersage. zeroinfl für weitere Details über alle Methoden. Ein Objekt der Klasse zeroinfl. D. h. eine Liste mit Komponenten einschließlichHINWEIS: Die IDRE Statistische Beratungsgruppe wird die Website im Februar auf das WordPress CMS migrieren, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht mehr gepflegt werden. Wir werden versuchen, Umleitungen zu pflegen, damit die alten URLs weiterhin so gut funktionieren wie möglich. Willkommen im Institut für Digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk SAS Datenanalyse Beispiele Zero-aufgeblasen Negative Binomial Regression Zero-aufgeblasen negative Binomial Regression ist für die Modellierung von Zählvariablen mit übermäßigen Nullen und es ist in der Regel für überdispergiert Zählen Ergebnisvariablen. Darüber hinaus legt die Theorie nahe, dass die überschüssigen Nullen durch einen separaten Prozess aus den Zählwerten erzeugt werden und dass die überschüssigen Nullen unabhängig voneinander modelliert werden können. Bitte beachten Sie: Der Zweck dieser Seite ist es, zu zeigen, wie man verschiedene Datenanalysebefehle verwendet. Es deckt nicht alle Aspekte des Forschungsprozesses ab, den die Forscher erwarten werden. Insbesondere geht es nicht um die Datenreinigung und - prüfung, die Überprüfung von Annahmen, Modelldiagnosen oder potenziellen Folgeuntersuchungen. Diese Seite wurde mit SAS 9.2.3 aktualisiert. Beispiele für null-aufgeblasenes Negativ-Binomial-Regression Beispiel 1. Schulverwalter studieren das Anwesenheitsverhalten von High-School-Junioren an zwei Schulen. Prädiktoren der Anzahl der Tage der Abwesenheit gehören Geschlecht der Schüler und standardisierte Testergebnisse in Mathematik und Sprache Kunst. Beispiel 2. Die staatlichen Tierbiologen wollen modellieren, wie viele Fische von Fischer in einem Nationalpark gefangen werden. Die Besucher werden gefragt, wie lange sie blieben, wie viele Leute waren in der Gruppe, waren dort Kinder in der Gruppe und wie viele Fische wurden gefangen. Manche Besucher fischen nicht, aber es gibt keine Daten darüber, ob eine Person gefischt oder nicht. Einige Besucher, die Fische nicht fangen keine Fische, so gibt es überschüssige Nullen in den Daten wegen der Menschen, die nicht fischen. Beschreibung der Daten Lets verfolgen Beispiel 2 von oben mit dem Datensatz fish. sas7bdat. Wir haben Daten über 250 Gruppen, die in einen Park gegangen sind. Jede Gruppe wurde in Frage gestellt, wie viele Fische sie gefangen (zählen), wie viele Kinder waren in der Gruppe (Kind), wie viele Leute waren in der Gruppe (Personen), und ob sie einen Camper in den Park (Camper) . Zusätzlich zur Vorhersage der Anzahl der gefangenen Fische gibt es Interesse an der Vorhersage der Existenz von überschüssigen Nullen, d. h. die Wahrscheinlichkeit, dass eine Gruppe fing Null. Wir verwenden die Variablen Kind. Personen. Und Camper in unserem Modell. Schauen wir uns die Daten an. Wir können aus der Tabelle der beschreibenden Statistiken sehen, dass die Varianz der Ergebnisvariablen relativ groß ist, relativ zu den Mitteln. Dies könnte ein Hinweis auf eine Überdispersion sein. Analysemethoden, die Sie beachten könnten Bevor wir zeigen, wie Sie dies mit einer Null-aufgeblasenen negativen Binomialanalyse analysieren können, können Sie einige andere Methoden berücksichtigen, die Sie verwenden könnten. OLS Regression - Sie könnten versuchen, diese Daten mit OLS Regression zu analysieren. Allerdings sind die Zähldaten sehr nicht normal und werden durch die OLS-Regression nicht gut geschätzt. Zero-aufgeblasen Poisson Regression - Null-aufgeblasen Poisson Regression ist besser, wenn die Daten nicht überdispergiert ist, d. h. wenn Varianz ist nicht viel größer als der Mittelwert. Ordinary Count Models - Poisson oder negative Binomialmodelle könnten geeigneter sein, wenn es keine überschüssigen Nullen gibt. SAS-Null-aufgeblasene negative Binomialanalyse mit proc genmod Ein null-aufgeblasenes Modell geht davon aus, dass das Null-Ergebnis auf zwei verschiedene Prozesse zurückzuführen ist. Zum Beispiel, in dem Beispiel der Fischerei, die hier vorgestellt wird, sind die beiden Prozesse, dass ein Thema Fischerei gegangen ist, nicht gegangenes Fischen. Wenn nicht gegangen fischen, ist das einzige Ergebnis möglich Null. Wenn gegangen fischen, ist es dann ein Zählprozess. Die beiden Teile des Null-aufgeblasenen Modells sind ein Binärmodell, in der Regel ein Logit-Modell, um zu modellieren, welches der beiden Prozesse das Null-Ergebnis zugeordnet ist, und ein Zählmodell, in diesem Fall ein negatives Binomialmodell, um die Zählung zu modellieren verarbeiten. Die erwartete Zählung wird als Kombination der beiden Prozesse ausgedrückt. Am Beispiel des Angelns wieder, E (von Fisch caughtk) prob (nicht gegangenes Fischen) 0 prob (gegangenes Fischen) E (ykgone Fischerei). Jetzt können wir unser Modell aufbauen. Wir werden die Variablen Kind und Camper verwenden, um die Zählung im Teil des negativen Binomialmodells und die Variablen Personen im Logitteil des Modells zu modellieren. Die SAS-Befehle sind unten dargestellt. Wir behandeln Variable Camper als kategoriale Variable, indem wir sie in die Klassenaussage aufnehmen. Dies wird auch die postschätzungen erleichtern. In diesem speziellen Beispiel wollen wir auch explizit den Camper 0 als Referenzgruppe verwenden. Zu diesem Zweck sortieren wir die Daten in absteigender Reihenfolge und verwenden die Bestelloption in proc genmod, um es zu zwingen, Camper 0 als Referenzgruppe zu nehmen. Der Ausgang hat einige Komponenten, die nachfolgend erläutert werden. Modellinformation: Allgemeine Informationen über den Datensatz, die Ergebnisvariable, die Verteilung und die Anzahl der im Modell verwendeten Beobachtungen. Klasse Level Information: Für jede kategorische Variable, die Anzahl der Ebenen und wie die Levels codiert sind. Die zuletzt angezeigte Ebene ist die Referenzgruppe im Modell. In diesem Beispiel wird es 0 sein. Kriterien für die Beurteilung der Güte der Fit: Diese Maßnahmen werden in der Regel für den Vergleich von Modellen verwendet. Analyse der Maximum-Likelihood-Parameter-Schätzungen: Negative Binomial-Teil des Modells, geschätzt mit maximaler Wahrscheinlichkeit. Analyse der Maximum Likelihood Zero Inflation Parameter Schätzungen: Logistische Regression Teil des Modells, für die Schätzung der Wahrscheinlichkeit, eine übermäßige Null zu sein. Durch die Ergebnisse der Regressionsparameter sehen wir folgendes: Die Prädiktoren Kind und Camper in dem Teil des negativen binomischen Regressionsmodells, das die Anzahl der gefangenen Fische (Zählung) voraussagt, sind beide signifikante Prädiktoren. Die Prädiktor-Person in dem Teil des Logit-Modells, das übermäßige Nullen voraussagt, ist statistisch signifikant. Für diese Daten ist die erwartete Änderung des log (count) für eine Ein-Einheiten-Erhöhung des Kindes -1.515255. Dies ergibt eine 78 (1 - e -1.515255 .78) Abnahme der erwarteten Anzahl für jedes weitere Kind in der Partei, die andere Variablen konstant hält. Gruppen mit Campern (Camper 1) hatten einen erwarteten Log (Anzahl) 0.879051 höher als Gruppen ohne Camper (Camper 0), dh die erwartete Anzahl von Fischen für einen Wohnmobil beträgt ca. 2,41 (e 0,879051 2,41) mal höher als bei einem Nicht-Camper . Die Log-Chancen, eine übermäßige Null zu sein, würde um 1,67 für jede weitere Person in der Gruppe abnehmen. Mit anderen Worten, je mehr Menschen in der Gruppe, desto weniger wahrscheinlich, dass die Null wäre nicht gegangen Fischerei. Setzen Sie es deutlich, je größer die Gruppe der Person war, desto wahrscheinlicher, dass die Person angeln ging. Die Schätzung des Dispersionsparameters wird mit seinem Konfidenzintervall angezeigt. Es scheint genügend Anzeichen einer Überdispersion zu geben, was bedeutet, dass das negative Binomialmodell besser geeignet ist. Vielleicht möchten wir das aktuelle Null-aufgeblasenes negatives Binomialmodell mit dem einfachen negativen Binomialmodell vergleichen, das zB über den Vuong-Test erfolgen kann. Der derzeitige Vuong-Test ist kein Standardteil von proc genmod. Aber ein Makro progra m ist bei SAS erhältlich, der den Vuong-Test macht. Sie können dieses Makroprogramm nach dem Link herunterladen und auf Ihrer Festplatte speichern. In diesem Beispiel haben wir das Makroprogramm im d: workdae Verzeichnis gespeichert und es als vuong. sas umbenannt. Um das Makroprogramm zu verwenden, verwenden wir die Include-Anweisung. Dieses Makroprogramm dauert nachstehend einige Argumente. Wir führen die Modelle aus, um diese benötigten Eingabeargumente zu produzieren. Wir haben auch den Statement Store verwendet, um die Schätzungen zu speichern, so dass wir nach der Schätzung mit demselben Modell über Proc plm arbeiten können, ohne das Modell erneut ausführen zu müssen. Bei dem Null-aufgeblasenen negativen Binomialmodell gibt es insgesamt sechs Regressionsparameter, die den Intercept, die Regressionskoeffizienten für Kind und Camper und den Dispersionsparameter für den negativen Binomialteil des Modells sowie den Intercept - und Regressionskoeffizienten für Personen enthalten . Das einfache negative Binomialregressionsmodell hat insgesamt vier Regressionsparameter. Die Skalenparameter (scale1 und scale2) sind die Dispersionsparameter aus jedem entsprechenden Modell. Die Ausgabe oben zeigt den Vuong-Test, gefolgt von dem Clarke Sign-Test. Die positiven Werte der Z-Statistik für den Vuong-Test zeigen an, dass es sich um das erste Modell handelt, das Null-aufgeblasenes negatives Binomialmodell, das näher am wahren Modell liegt. Beide dieser Tests haben die gleiche Nullhypothese und es kommt vor, dass die beiden Tests nicht miteinander übereinstimmen und eine schwache Unterstützung für das null aufgeblasene negative Binomialmodell führen. Jetzt wollen wir versuchen, das Modell besser zu verstehen, indem wir einige der Nachschätzungsbefehle verwenden. Zuerst untersuchen wir die Verteilung der vorhergesagten Wahrscheinlichkeit, eine übermäßige Null durch die Anzahl der Personen in der Gruppe zu sein. Wir können sehen, je größer die Gruppe ist, desto kleiner ist die Wahrscheinlichkeit, was bedeutet, dass die Person angeln ging. Da wir unser Modell früher als m1 zuvor gespeichert haben, verwenden wir proc plm, um die vorhergesagte Anzahl der gefangenen Fische zu erhalten, was die Camper mit Nicht-Campern bei einer anderen Anzahl von Kindern vergleicht. Um die Vorhersage zu erhalten, haben wir die Option ilink (für inverse Link) verwendet. Beachten Sie standardmäßig SAS den Wert der Variablen des Vorhersages auf den Mittelwert. Als nächstes können wir auch proc plm bitten, die angepassten Werte durch Camper variabel zu zeichnen. Dinge zu beachten Hier sind einige Fragen, die Sie im Rahmen Ihrer Forschungsanalyse berücksichtigen möchten. Die Frage nach dem Überdispersionsparameter ist im Allgemeinen ein kniffliger. Ein großer Überdispersionsparameter könnte auf ein fehlspezifisches Modell zurückzuführen sein oder auf einen realen Prozess mit Überdispersion zurückzuführen sein. Das Hinzufügen eines Überdispersionsproblems verbessert nicht unbedingt ein fehlspezifisches Modell. Das Zinb-Modell hat zwei Teile, ein negatives Binomialzählmodell und das Logitmodell für die Vorhersage überschüssiger Nullen, so dass Sie diese Datenanalyse Beispielseiten, Negative Binomial Regression und Logit Regression überprüfen möchten. Da zinb sowohl ein Zählmodell als auch ein Logit-Modell hat, sollte jedes der beiden Modelle gute Prädiktoren haben. Die beiden Modelle müssen nicht unbedingt dieselben Prädiktoren verwenden. Probleme der perfekten Vorhersage, Trennung oder partielle Trennung können im logistischen Teil des null aufgeblasenen Modells auftreten. Count-Daten verwenden oft Belichtungsvariable, um anzugeben, wie oft das Ereignis passiert ist. Sie können die Belichtung in Ihrem Modell mit der Option exposure () einbinden. Es wird nicht empfohlen, dass auf kleine Proben null aufgeblasene negative Binomialmodelle angewendet werden. Was eine kleine Stichprobe darstellt, scheint in der Literatur nicht eindeutig zu sein. Pseudo-R-squared Werte unterscheiden sich von OLS R-squareds, siehe FAQ: Was sind Pseudo-R-Quadrate für eine Diskussion zu diesem Thema. Referenzen Cameron, A. Colin und Trivedi, P. K. (2009) Mikroökonometrie mit stata. College Station, TX: Stata Press. Lange, J. Scott, Verstärker Freese, Jeremy (2006). Regressionsmodelle für kategorisch abhängige Variablen mit Stata (Second Edition). College Station, TX: Stata Press. Lange, J. Scott (1997). Regressionsmodelle für kategorische und begrenzte abhängige Variablen. Tausend Eichen, CA: Salbei Publikationen. Der Inhalt dieser Website sollte nicht als eine Bestätigung einer bestimmten Website, Buch oder Software-Produkt von der University of California ausgelegt werden. NOTICE: Die IDRE Statistische Beratungsgruppe wird die Website migrieren die Website auf die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht mehr gepflegt werden. Wir werden versuchen, Umleitungen zu pflegen, damit die alten URLs weiterhin so gut funktionieren wie möglich. Willkommen beim Institut für Digitale Forschung und Bildung Hilfe der Stat Consulting Group durch ein Geschenk Stata Datenanalyse Beispiele Zero-aufgeblasen Negative Binomial Regression Versionsinfo: Code für diese Seite wurde in Stata 12 getestet. Zero-aufgeblasen negative Binomial Regression ist für die Modellierung Zählvariablen mit übermäßigen Nullen und es ist in der Regel für überdispergierte Zählergebnis-Variablen. Darüber hinaus legt die Theorie nahe, dass die überschüssigen Nullen durch einen separaten Prozess aus den Zählwerten erzeugt werden und dass die überschüssigen Nullen unabhängig voneinander modelliert werden können. Bitte beachten Sie: Der Zweck dieser Seite ist es, zu zeigen, wie man verschiedene Datenanalysebefehle verwendet. Es deckt nicht alle Aspekte des Forschungsprozesses ab, den die Forscher erwarten werden. Insbesondere geht es nicht um die Datenreinigung und - prüfung, die Überprüfung von Annahmen, Modelldiagnosen oder potenziellen Folgeuntersuchungen. Beispiele für null aufgeblasene negative Binomialregression Beispiel 1. Schulverwalter studieren das Anwesenheitsverhalten von High School Junioren an zwei Schulen. Prädiktoren der Anzahl der Tage der Abwesenheit gehören Geschlecht der Schüler und standardisierte Testergebnisse in Mathematik und Sprache Kunst. Beispiel 2. Die staatlichen Tierbiologen wollen modellieren, wie viele Fische von Fischer in einem Nationalpark gefangen werden. Die Besucher werden gefragt, wie lange sie blieben, wie viele Leute waren in der Gruppe, waren dort Kinder in der Gruppe und wie viele Fische wurden gefangen. Manche Besucher fischen nicht, aber es gibt keine Daten darüber, ob eine Person gefischt oder nicht. Einige Besucher, die Fische nicht fangen keine Fische, so gibt es überschüssige Nullen in den Daten wegen der Menschen, die nicht fischen. Beschreibung der Daten Lets verfolgen Beispiel 2 von oben. Der in diesem Beispiel verwendete Datensatz stammt von Stata. Wir haben Daten über 250 Gruppen, die in einen Park gegangen sind. Jede Gruppe wurde vor dem Verlassen des Parks befragt, wie viele Fische sie gefangen haben (zählen), wie viele Kinder waren in der Gruppe (Kind), wie viele Leute waren in der Gruppe (Personen), und ob sie einen Camper an die Park (Wohnmobil). Die Ergebnisvariable von Interesse wird die Anzahl der gefangenen Fische sein. Obwohl die Frage nach der Anzahl der gefangenen Fische an alle gefragt wurde, bedeutet das nicht, dass alle angeln fischen. Was wäre der Grund für jemanden, der eine Nullzählung meldet, war es, weil diese Person Pech hatte und keine Fische fing, oder war es, weil diese Person überhaupt nicht angeln ging Wenn eine Person nicht angeln ging, wäre das Ergebnis immer null. Andernfalls, wenn eine Person zum Angeln ging, könnte die Zählung Null oder Nicht-Null sein. So können wir sehen, dass es schien, zwei Prozesse zu sein, die Null zählt: Unglück beim Angeln oder nicht zum Angeln. Lass uns zuerst die Daten anschauen. Wir beginnen mit dem Lesen der Daten und der beschreibenden Statistiken und Plots. Dies hilft uns, die Daten zu verstehen und gibt uns einen Hinweis darauf, wie wir die Daten modellieren sollten. Wir können aus der Tabelle der beschreibenden Statistiken sehen, dass die Varianz der Ergebnisvariablen relativ groß ist, relativ zu den Mitteln. Dies könnte ein Hinweis auf eine Überdispersion sein. Analysemethoden, die Sie beachten könnten Bevor wir zeigen, wie Sie dies mit einer Null-aufgeblasenen negativen Binomialanalyse analysieren können, können Sie einige andere Methoden berücksichtigen, die Sie verwenden könnten. OLS Regression - Sie könnten versuchen, diese Daten mit OLS Regression zu analysieren. Allerdings sind die Zähldaten sehr nicht normal und werden durch die OLS-Regression nicht gut geschätzt. Zero-aufgeblasen Poisson Regression - Null-aufgeblasen Poisson Regression ist besser, wenn die Daten nicht überdispergiert ist, d. h. wenn Varianz ist nicht viel größer als der Mittelwert. Ordinary Count Models - Poisson oder negative Binomialmodelle könnten geeigneter sein, wenn es keine überschüssigen Nullen gibt. Zero-aufgeblasene negative Binomialregression Ein null aufgeblasenes Modell geht davon aus, dass das Null-Ergebnis auf zwei verschiedene Prozesse zurückzuführen ist. Zum Beispiel, in dem Beispiel der Fischerei, die hier vorgestellt wird, sind die beiden Prozesse, dass ein Thema Fischerei gegangen ist, nicht gegangenes Fischen. Wenn nicht gegangen fischen, ist das einzige Ergebnis möglich Null. Wenn gegangen fischen, ist es dann ein Zählprozess. Die beiden Teile des Null-aufgeblasenen Modells sind ein Binärmodell, in der Regel ein Logit-Modell, um zu modellieren, welches der beiden Prozesse das Null-Ergebnis zugeordnet ist, und ein Zählmodell, in diesem Fall ein negatives Binomialmodell, um die Zählung zu modellieren verarbeiten. Die erwartete Zählung wird als Kombination der beiden Prozesse ausgedrückt. Am Beispiel des Angelns wieder, E (von Fisch caughtk) prob (nicht gegangenes Fischen) 0 prob (gegangenes Fischen) E (ykgone Fischerei). Jetzt können wir unser Modell aufbauen. Wir werden die Variablen Kind und Camper verwenden, um die Zählung im Teil des negativen Binomialmodells und die Variablen Personen im Logitteil des Modells zu modellieren. Der Befehl Stata ist unten dargestellt. Wir behandeln variablen Camper als kategorische Variable, indem wir ein Präfix quot-i.-quot vor dem Variablennamen setzen. Damit werden die Postschätzungen einfacher. Wir haben die Vuong-Option, die einen Test des Null-aufgeblasenen Modells versus das Standard-negativen Binomial-Modell zusammen mit der Zip-Option, die eine Wahrscheinlichkeit Verhältnis Test von Alpha0 (im Grunde Zinb versus Zip) bietet. Der Ausgang hat einige Komponenten, die nachfolgend erläutert werden. Es beginnt mit dem Iterationsprotokoll, das die Werte der Log-Likelihoods beginnend mit einem Modell gibt, das keine Prädiktoren hat. Der letzte Wert im Protokoll ist der endgültige Wert der Log-Wahrscheinlichkeit für das volle Modell und wird unten wiederholt. Als nächstes kommt die Header-Information. Auf der rechten Seite wird die Anzahl der verwendeten Beobachtungen (316) zusammen mit dem Wahrscheinlichkeitsverhältnis chi-squared gegeben. Dies vergleicht das volle Modell mit einem Modell ohne Zählprädiktoren und gibt einen Unterschied von zwei Freiheitsgraden. Darauf folgt der p-Wert für das Chi-Quadrat. Das Modell als Ganzes ist statistisch signifikant. Unterhalb des Headers finden Sie die negativen Binomial-Regressionskoeffizienten für jede der Variablen zusammen mit Standardfehlern, z-Scores, p-Werten und 95 Konfidenzintervallen für die Koeffizienten. Im Folgenden sind Logit-Koeffizienten für die Vorhersage überschüssiger Nullen zusammen mit ihren Standardfehlern, z-Scores, p-Werten und Konfidenzintervallen. Zusätzlich gibt es eine Schätzung des natürlichen Protokolls des Überdispersionskoeffizienten alpha, zusammen mit dem untransformierten Wert. Wenn der Alpha-Koeffizient Null ist, wird das Modell mit einem Poisson-Regressionsmodell besser geschätzt. Unter den verschiedenen Koeffizienten finden Sie die Ergebnisse der Zip - und Vuong-Optionen. Die Zip-Option prüft das null aufgeblasene negative Binomialmodell gegenüber dem null aufgeblasenen Poisson-Modell. Ein signifikanter Wahrscheinlichkeits-Verhältnis-Test für alpha0 zeigt an, dass das Zinb-Modell dem Zip-Modell bevorzugt ist. Der Vuong-Test vergleicht das Null-aufgeblasene Modell-negatives Binomial mit einem gewöhnlichen negativen Binomial-Regressionsmodell. Ein signifikanter z-Test zeigt an, dass das null aufgeblasene Modell bevorzugt ist. Durch die Ergebnisse der Regressionsparameter sehen wir folgendes: Die Prädiktoren Kind und Camper in dem Teil des negativen binomischen Regressionsmodells, das die Anzahl der gefangenen Fische (Zählung) voraussagt, sind beide signifikante Prädiktoren. Die Prädiktor-Person in dem Teil des Logit-Modells, das übermäßige Nullen voraussagt, ist statistisch signifikant. Für diese Daten ist die erwartete Änderung des log (count) für eine Ein-Einheiten-Erhöhung des Kindes -1.515255, die andere Variablen konstant hält. Ein Camper (Camper 1) hat einen erwarteten Log (Count) von 0,879051 höher als der eines Nicht-Camper (Camper 0), der andere Variablen konstant hält. Die Log-Chancen, eine übermäßige Null zu sein, würde um 1,67 für jede weitere Person in der Gruppe abnehmen. Mit anderen Worten, je mehr Menschen in der Gruppe weniger wahrscheinlich, dass die Null wäre nicht gegangen Fischerei. Setzen Sie es deutlich, je größer die Gruppe der Person war, desto wahrscheinlicher, dass die Person angeln ging. Wir können am unteren Rand unseres Modells sehen, dass das Wahrscheinlichkeitsverhältnis testen, dass Alpha 0 signifikant von Null verschieden ist. Dies deutet darauf hin, dass unsere Daten überdispergiert sind und dass ein Null-aufgeblasenes negatives Binomialmodell besser geeignet ist als ein null aufgeblasenes Poisson-Modell. Der Vuong-Test deutet darauf hin, dass das null aufgeblasene negative Binomialmodell eine signifikante Verbesserung gegenüber einem standardmäßigen negativen Binomialmodell darstellt. Nun, nur um auf der sicheren Seite zu sein, lass den Zinb-Befehl mit der robusten Option erneut ausführen, um robuste Standardfehler für die Poisson-Regressionskoeffizienten zu erhalten. Bei der Verwendung von robusten Standardfehlern können wir die vuong-Option nicht einschließen. Mit der robusten Option hat sich eine gewisse Veränderung des Modellchi-Platzes ergeben, die nun ein Wald-Chi-Platz ist. Diese Statistik basiert auf log Pseudo-Likelihoods anstelle von log-Likelihoods. Das Modell ist immer noch statistisch signifikant. Die robusten Standardfehler versuchen, sich für die Heterogenität im Modell anzupassen. Jetzt können wir versuchen, das Modell besser zu verstehen, indem wir einige der Post-Schätzbefehle verwenden. Zuerst aus, verwenden wir den Vorhersagebefehl mit der pr-Option, um die vorhergesagte Wahrscheinlichkeit zu erhalten, Quoten übermäßiger Nullpunkt zu sein, weil er nicht gegangen ist. Wir sehen dann die Verteilung der vorhergesagten Wahrscheinlichkeit durch die Anzahl der Personen in der Gruppe. Wir können sehen, je größer die Gruppe ist, desto kleiner ist die Wahrscheinlichkeit, was bedeutet, dass die Person angeln ging. Schließlich werden wir den Ränderbefehl verwenden, um die vorhergesagte Anzahl der gefangenen Fische zu erhalten, wobei die Camper mit Nicht-Campern verglichen werden, die eine unterschiedliche Anzahl von Kindern und Maringsplot gegeben haben, um die von dem Margin-Befehl erzeugten Informationen zu visualisieren. Beachten Sie, dass standardmäßig der Ränderbefehl die erwartete vorhergesagte Wahrscheinlichkeit eines übermäßigen Nullpunktes an seinem Mittelwert festlegt. Zum Beispiel ist hier ein alternativer Weg für die Herstellung der gleichen vorhergesagten Zählung gegeben Camper 0 1 und Kind 0. Dinge zu beachten Hier sind einige Fragen, die Sie vielleicht im Laufe Ihrer Forschungsanalyse zu prüfen. Die Frage nach dem Überdispersionsparameter ist im Allgemeinen ein kniffliger. Ein großer Überdispersionsparameter könnte auf ein fehlspezifisches Modell zurückzuführen sein oder auf einen realen Prozess mit Überdispersion zurückzuführen sein. Das Hinzufügen eines Überdispersionsproblems verbessert nicht unbedingt ein fehlspezifisches Modell. Das Zinb-Modell hat zwei Teile, ein negatives Binomialzählmodell und das Logitmodell für die Vorhersage überschüssiger Nullen, so dass Sie diese Datenanalyse Beispielseiten, Negative Binomial Regression und Logit Regression überprüfen möchten. Da zinb sowohl ein Zählmodell als auch ein Logit-Modell hat, sollte jedes der beiden Modelle gute Prädiktoren haben. Die beiden Modelle müssen nicht unbedingt dieselben Prädiktoren verwenden. Probleme der perfekten Vorhersage, Trennung oder partielle Trennung können im logistischen Teil des null aufgeblasenen Modells auftreten. Count-Daten verwenden oft Belichtungsvariable, um anzugeben, wie oft das Ereignis passiert ist. Sie können die Belichtung in Ihrem Modell mit der Option exposure () einbinden. Es wird nicht empfohlen, dass auf kleine Proben null aufgeblasene negative Binomialmodelle angewendet werden. Was eine kleine Stichprobe darstellt, scheint in der Literatur nicht eindeutig zu sein. Pseudo-R-squared Werte unterscheiden sich von OLS R-squareds, siehe FAQ: Was sind Pseudo-R-Quadrate für eine Diskussion zu diesem Thema. Referenzen Cameron, A. Colin und Trivedi, P. K. (2009) Mikroökonometrie mit stata. College Station, TX: Stata Press. Lange, J. Scott, Verstärker Freese, Jeremy (2006). Regressionsmodelle für kategorisch abhängige Variablen mit Stata (Second Edition). College Station, TX: Stata Press. Lange, J. Scott (1997). Regressionsmodelle für kategorische und begrenzte abhängige Variablen. Tausend Eichen, CA: Salbei Publikationen. Letzte Aktualisierung am 12. Oktober 2011Der Inhalt dieser Website sollte nicht als eine Bestätigung einer bestimmten Website, Buch oder Software-Produkt von der University of California ausgelegt werden.

No comments:

Post a Comment