V170-N18 Flexible Detection of Groups in Data
 
Project
Abstract
Scientists/Scholars
Project Publications
Further Activities
Cooperations
Final Report

Final Report English

In data often latent groups are supected to be present, but the group memberships are unobserved. In this case statistical methods are required to unravel the latent structure and learn about the group specific characteristics. Finite mixture models constitute the state-of-the-art technique to perform this task with a statistical model-based approach.

In this project several extensions of the general model class of finite mixtures were considered. These extensions allow to suitably model different types of data in a range of applications and enlarge the toolbox of statistical methods in order to better capture available information in data. The theoretical statistical properties and estimation methods of these models were analyzed and the algorithms were implemented in the freely available open-source add-on package flexmix for the statistical software environment R. Within the Bayesian framework prior choices were investigated and developed which lead to sparse solutions.

Applications included the modeling of HIV RNV levels over time using mixtures of linear mixed-effects models for censored data, of time-course gene expression levels over time using mixtures of linear additive models, of reading skill evaluations in children using mixtures of beta regression models and text corpora using topic models based on the latent Dirichlet allocation model and mixtures of von Mises-Fisher distributions. In addition sample size recommendations were developped for market segmentation applications in tourism.

 

Final Report German

In Daten wird häufig vermutet, dass latente Gruppen vorhanden sind, aber dass die Gruppenzugehörigkeiten nicht beobachtet worden sind. In diesem Fall werden statistische Verfahren benötigt, um die latente Struktur zu enthüllen und mehr über die gruppenspezifischen Charakteristika zu lernen. Finite Mischmodelle stellen dabei die State-of-the-Art-Methode dar, um diese Aufgabe mithilfe eines statistischen modellbasierten Ansatz zu lösen.

In diesem Projekt wurden mehrere Erweiterungen der generellen Klasse der finiten Mischmodelle untersucht. Diese Erweiterungen erlauben die geeignete Modellierung von verschiedenen Datentypen in einer Reihe von verschiedenen Anwendungen and vergrößern die Toolbox der statistischen Methoden, um die Information aus den Daten besser zu erfassen. Die theoretischen statistischen Eigenschaften sowie Schätzmethoden für diese Modelle wurden analysiert und die Algorithmen wurden in dem frei verfügbaren, quelloffenen Zusatzpaket flexmix für die statistische Softwareumgebung R implementiert. Innerhalb des Bayesianischen Frameworks wurden die Wahl der Priorverteilungen untersucht und eine Spezifikation entwickelt, die zu sparsamen Lösungen führt.

Anwendungen inkludierten die Modellierung von HIV RNA Niveaus über die Zeit unter der Verwendung von Mischungen von linearen gemischten Modellen für zensierte Daten, Geneexpressionsdaten im Zeitverlauf mithilfe von Mischungen von linearen additiven Modellen, Evaluierung von Lesefähigkeiten bei Kindern mithilfe von Mischungen von Betaregressionen und Text Mining Anwendungen mithilfe von Topic Models basierend auf der Latenten Dirichlet-Allokationsmethode und Mischungen von von Mises-Fisher Verteilungen. Zusätzlich wurden Empfehlungen für die Stichprobengröße bei Marktsegmentierungsanwendungen im Tourismus entwickelt.

 
 
 

With support from
FWFDer Wissenschaftsfonds