V170-N18 | Flexible Detection of Groups in Data | |
|
Abstract Observations often come from a heterogeneous population which consists of different groups. However, the information from which group each observation stems is not observed. This occurs either due to difficulties in the measurement of the group indicator or because not a single characteristic could be identified that captures the grouping. In statistical modeling finite mixtures have been used for more than 100 years as a flexible model class to describe this kind of data and determine the group memberships of the given observations as well as the group sizes and a group-specific statistical model. The areas of application consist of astronomy, biology, economics, marketing and medicine. The usefulness of the application of finite mixture models often suffers from the fact that a-priori knowledge about certain characteristics of the grouping is available, but cannot be easily included in the model. This project aims at overcoming this drawback by offering a suitable approach for fitting a finite mixture model while also taking this additional information into account. Especially the possibility to include information on which observations are likely to be in the same group or should rather end up in different groups will be considered. A possible area of application for this newly developed approach is market segmentation. In market segmentation the aim is to partition the market into sub-markets. Segments are often defined to consist of consumers with similar behavior. However, the possibility to implement a successful marketing strategy is only ensured if these segments do not only differ in their behavior, but also with respect to socio-demographic characteristics. A combined approach taking all requirements on the segments directly into account will ease the statistical analysis and improve the finally derived solution. In addition the rigorous application of advanced mixtures of regression models will be investigated for two different problems: the validation of credit ratings systems using a latent variable approach and the simultaneous accounting for response style heterogeneity among respondents in a segmentation study when survey data is available.
Kurzfassung Beobachtungen stammen häufig aus einer heterogenen Population, die aus mehreren Gruppen besteht. Jedoch wird die Information, aus welcher Gruppe die Beobachtung stammt, nicht beobachtet. So ein Fall tritt auf, wenn es entweder Schwierigkeiten beim Erheben der Gruppenzugehörigkeit gibt oder weil keine einzelne Variable identifiziert werden konnte, die die Gruppierung einfangen würde. Bei der statistischen Modellierung werden finite Mischmodelle seit mehr als 100 Jahren als eine flexible Modellklasse eingesetzt, um solche Daten zu beschreiben und sowohl die Gruppenzugehörigkeit der Beobachtungen als auch die Gruppengrößen und gruppenspezifische statistische Modelle zu bestimmen. Die Anwendungsgebiete reichen von Astronomie, über Biologie, Ökonomie und Marketing bis zur Medizin. Die Nützlichkeit der Verwendung von finiten Mischmodellen leidet oft darunter, dass zwar a-priori Wissen über bestimmte Eigenschaften der Gruppierung zur Verfügung steht, diese aber nicht leicht in das Modell einfließen kann. Dieses Projekt hat zum Ziel, diesen Nachteil zu beseitigen, indem ein geeigneter Ansatz erarbeitet wird, wodurch beim Schätzen eines finiten Mischmodells diese zusätzliche Information gleichzeitig mitberücksichtigt wird. Besonders die Möglichkeit, Information darüber, welche Beobachtungen wahrscheinlich aus derselben Gruppe bzw. aus verschiedenen Gruppen stammen, mit einzubeziehen, wird untersucht. Ein mögliches Anwendungsgebiet für diese neuentwickelte Methode ist die Marktsegmentierung. Bei der Marktsegmentierung ist das Ziel, den Gesamtmarkt in Teilmärkte zu gliedern. Segmente sind zumeist so definiert, dass sie aus Konsumenten mit ähnlichem Verhalten bestehen. Jedoch ist das Umsetzen einer erfolgreichen Marktsegmentierung nur dann garantiert, wenn diese Segmente sich nicht nur in ihrem Verhalten unterscheiden, sondern auch in ihren soziodemographischen Charakteristika. Ein kombinierter Ansatz, wo alle Anforderungen an Marktsegmente berücksichtigt werden, erleichtert somit die statistische Analyse und verbessert die schlussendlich gefundene Lösung. Zusätzlich wird die rigorose Anwendung von verschiedenen finiten Regressionsmischmodellen für zwei verschiedene Fragestellungen untersucht: die Validierung von Kreditratingsystemen unter Verwendung eines Ansatz mit latenten Variablen und das Berücksichtigen von unterschiedlichem Antwortverhalten, das die Befragten unabhängig vom Inhalt zeigen, in Segmentierungsstudien, wo Fragebogendaten verwendet werden. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
With support from |