T351-Modelling Unobserved Heterogeneity Using Mixtures


T351		Modelling Unobserved Heterogeneity Using Mixtures


		Project

		Abstract

		Scientists/Scholars

		Project Publications

		Further Activities

		Cooperations

		Final Report

Final Report

Finite mixtures of regression models have emerged as a useful model class to suitably describe dependencies between variables. They are an extension of finite mixtures of distributions which are employed for model-based clustering. Finite mixtures of distributions have been used for more than 100 years and model characteristics such as identifiability have been investigated since the 1960s. While these models are already well analyzed with respect to identifiability and estimation, e.g., regarding the initialization of the estimation algorithm, a thorough analysis is still missing for finite mixtures of regression models.

This project aimed at filling the gaps in the specification and estimation of finite mixtures of regression models. Sufficient theoretic conditions for the identifiability of finite mixtures of generalized linear models and especially of finite mixtures of multinomial and conditional logit models were already avaible. The relevance of these theoretic conditions was demonstrated with a simulation study where the factors influencing identifiability were systematically varied.

The performance of initialization strategies proposed for finite mixtures of multivariate Gaussian distributions were investigated on finite mixtures of linear models and finite mixtures of linear mixed models where a random intercept is included. Especially for linear mixed models the heterogeneity within each component can mask the heterogeneity between components and good initial values are crucial. Results indicate that a favorable strategy is to try out a lot of different random initializations with short runs of the EM algorithm and choose among them the best solution and initialize the EM algorithm with this start configuration and let the EM algorithm converge to the final solution. This strategy has the advantage that it is less computationally intensive than other initialization strategies without yielding worse results.

Other issues in modelling unobserved heterogeneity using finite mixtures of regression models were also investigated. These included the estimation of finite mixtures of linear mixed models with the EM algorithm where the data also possibly is censored and how to deal with label switching under genuine multimodality which naturally arises for finite mixture of regression models which suffer from identifiability problems due to the insufficient complexity of the covariate matrix.

Endbericht

Finite Mischungen von Regressionsmodellen konnten sich als eine nützliche Modellklasse für das geeignete Beschreiben von Abhängigkeiten zwischen Variablen etablieren. Es handelt sich dabei um eine Erweiterung der Modellklasse von finiten Mischungen von Verteilungen, die für das modellbasierte Clustern eingesetzt wird. Finite Mischungen von Verteilungen werden seit mehr als 100 Jahren verwendet und ihre Modellcharakteristiken wie z.B. die Identifizierbarkeit wurden seit den 1960er untersucht. Während also diese Modellklasse schon bezüglich Identifizierbarkeit und Schätzung, wie z.B. der Initialisierung, ausreichend untersucht worden ist, ist eine gründliche Analyse der finiten Mischungen von Regressionsmodellen noch nicht vollständig erfolgt.

Dieses Projekt versuchte die Lücken bei der Spezifikation und Schätzung von finiten Mischungen von Regressionsmodellen zu füllen. Es standen schon hinreichende theoretische Bedingungen für die Identifizierbarkeit von finiten Mischungen von generalisierten linearen Modellen und im Speziellen von finiten Mischungen von multinomialen und konditionalen Logit-Modellen zur Verfügung. Die Bedeutung dieser theoretischen Bedingungen wurde mithilfe einer Simulationsstudie gezeigt, wo die Faktoren, die die Identifizierbarkeit beeinflussen, systematisch variiert worden sind.

The Güte der Initialisierungsstrategien, die für finite Mischungen von multivariaten Normalverteilungen vorgeschlagen worden sind, wurden für Mischungen von linearen Modellen und linearen gemischten Modellen mit einem zufälligen Achsenabschnitt untersucht. Besonders für lineare gemischte Modelle besteht die Gefahr, dass die Heterogenität innerhalb der Komponenten die Heterogenität zwischen den Komponenten verdeckt. In diesem Fall ist dann eine gute Initialisierung extrem entscheidend. Die Resultate zeigen, dass es eine günstige Strategie ist, viele zufällige Initialisierungen mit kurzen Läufen des EM Algorithmus zu kombinieren und den EM Algorithmus mit der damit gefundenen besten Lösung zu initialisieren und zur endgültigen Lösung konvergieren zu lassen. Diese Strategie hat den Vorteil, dass sie weniger rechenintensiv ist als andere Initialisierungsstrategien, ohne schlechtere Resultate zu liefern.

Andere Aspekte bei der Modellierung von unbeobachteter Heterogenität mit finiten Mischungen wurden ebenfalls untersucht. Darunter waren die Schätzung von finiten Mischungen von linearen gemischten Modellen mit dem EM Algorithmus, wobei die Daten möglicherweise auch zensiert sein können, sowie der Umgang mit „Label Switching”, dem Problem der nicht eindeutigen Reihenfolge der Komponenten, bei genuiner Multimodalität, was bei finiten Mischungen von Regressionsmodellen auftritt, falls diese unter Identifizierbarkeitsproblemen aufgrund der unzureichenden Komplexität der Kovariatsmatrix leiden.

With support from