Die Arbeitsgruppe Statistik und Datenwissenschaften beschäftigt sich zum einen mit anwendungsorientierter und -motivierter Methodenentwicklung, insbesondere Regularisierung und Ensemble-Methoden für kategoriale, funktionale und hoch-dimensionale Daten. Zum anderen unterstützen wir Anwender, etwa aus den Wirtschafts-, Sozial- und Lebenswissenschaften, bei Fragen zu Statistik und Datenanalyse.
Forschungsschwerpunkte:
Hoch-Dimensionale Daten
Kategoriale Daten
Funktionale Daten
Variablen- und Modellselektion
Statistisches und maschinelles Lernen
Angewandte Statistik
Ausgewählte Forschungsprojekte:
DFG-Sachbeihilfe: Statistische Methoden und Modelle für Abhängige Kategoriale, insbesondere Ordinale Daten
Zur Analyse und Modellierung hochdimensionaler voneinander abhängiger Variablen existieren unterschiedlichste statistische Methoden, wie etwa grafische Modelle oder Hauptkomponentenanalyse. Diese erfordern für gewöhnlich jedoch stetige bzw. metrisch-skalierte Daten. Entsprechende Methoden für kategoriale, insbesondere ordinale Daten stehen dagegen weit weniger zur Verfügung, obwohl man diese Art von Daten häufig und in verschiedensten Anwendungen findet. Das Ziel des Projektes ist es daher, diese Lücke in der statistischen Methodik zu schließen, indem wir geeignete Methoden entwickeln, wie z.B. regularisierte grafische Modelle und Hauptkomponentenanalyse für ordinale Variablen.
Bearbeitung: Prof. Dr. Jan Gertheiss; Aisouda Hoshiyar, M.Sc.; Ejike Richard Ugba, M.Sc.
Förderzeitraum: 2019 – 2022
Teilprojekt Data Analytics im DTEC-Verbundprojekt SHM – Digitalisierung und Überwachung von Infrastrukturbauwerken
Ziel des Gesamtprojekts Structural Health Monitoring (SHM) ist die zuverlässigkeitsbasierte Zustandsbewertung von bestehenden und eventuell geschädigter Infrastrukturbauwerken mittels unterschiedler Monitoringsysteme in einem integrierten digitalen System (Details).
Im Teilprojekt Data Analytics untersuchen wir insbesondere zeitlich-räumliche Abhängigkeitsstrukturen innerhalb bzw. zwischen Sensorströmen und entwickeln/adaptieren Methoden des maschinellen Lernens zur Feature Extraction und Schadenserkennung.
Bearbeitung: Prof. Dr. Jan Gertheiss; Lizzie Neumann, M.Sc.; Frederike Vogel, M.Sc.
Förderzeitraum: 2021 – 2024
Aktuelle Veröffentlichungen:
Selk, L. and J. Gertheiss (2022). Nonparametric Regression and Classification with Functional, Categorical, and Mixed Covariates. accepted for publication in Advances in Data Analysis and Classification, available from https://arxiv.org/abs/2111.03115,
Vogel, F., N.M. Vahle, J. Gertheiss and M.J. Tomasik (2022). Supervised learning for analysing movement patterns in a virtual reality experiment. R. Soc. Open Sci. 9, available from https://doi.org/10.1098/rsos.211594
Gertheiss, J., F. Scheipl, T. Lauer and H. Ehrhardt (2022). Statistical inference for ordinal predictors in generalized additive models with application to Bronchopulmonary Dysplasia. BMC Research Notes, available from https://doi.org/10.1186/s13104-022-05995-4
Altmann, B. A., J. Gertheiss, I. Tomasevic, C. Engelkes, T. Glaesener, J. Meyer, A. Schäfer, R. Wiesen and D. Mörlein (2022). Human perception of color differences using computer vision system measurements of raw pork loin. Meat Science, available from https://doi.org/10.1016/j.meatsci.2022.108766
Hesselmann, C., J. Gertheiss, and J.P. Müller (2021). Ride Sharing & Data Privacy: How Data Handling Affects the Willingness to Disclose Personal Information. Findings, November, available from https://doi.org/10.32866/001c.29863
Hoshiyar, A. (2021). ordPens: An R package for Selection, Smoothing and Principal Components Analysis for Ordinal Variables. Journal of Open Source Software, 6(68), 3828, available from https://doi.org/10.21105/joss.03828
Hoshiyar, A., H. A. L. Kiers, and J. Gertheiss (2021). Penalized non-linear principal components analysis for ordinal variables with an application to international classification of functioning core sets. Preprint, available from https://arxiv.org/abs/2110.02805
Rohweder, N.O., J. Gertheiss, and C. Rembe (2021). Sub-micron pupillometry for optical EEG measurements. tm-Technisches Messen 88 (7-8), 473-480
Ugba, E. R. (2021). serp: An R package for smoothing in ordinal regression. Journal of Open Source Software, 6(66), 3705, available from https://doi.org/10.21105/joss.03705
Ugba, E.R., D. Mörlein, and J. Gertheiss (2021). Smoothing in ordinal regression: An application to sensory data. Stats 4 (3), 616-633
Aipperspach, C., J. Gertheiss, and C. Jahn (2020). CO2-Ausstoß auf See: Sind genauere Schätzungen möglich? Potentiale eines Stichproben-basierten Modells. Internationales Verkehrswesen 72 (3), 65-71
Alhaji, B., J. Beecken, R. Ehlers, J. Gertheiss, F. Merz, J. Müller, M. Prilla , A. Rausch, A. Reinhardt, D. Reinhardt, C. Rembe, N.-O. Rohweder, C. Schwindt, S. Westphal, J. Zimmermann (2020). Engineering human-machine teams for trusted collaboration. Big Data and Cognitive Computing 4, 35
Hoshiyar, A. (2020). Analyzing Likert-Type Data using Penalized Non-Linear Principal Components Analysis. In: Proceedings of the 35th International Workshop on Statistical Modelling, Vol. I, 337-340
Lauer, T., J. Behnke, F. Oehmke, J. Bäcker, K. Gentil, T. Chakraborty, M. Schloter, J. Gertheiss, and H. Ehrhardt (2020). Bacterial colonization within the first 6 weeks of life and pulmonary outcome in preterm infants < 1000g. Journal of Clinical Medicine 9, 2240
Vogel, F., N. Vahle, J. Gertheiss, and M. J. Tomasik (2020). Neural network classification of movement patterns in a virtual reality experiment. Proceedings of the 35th International Workshop on Statistical Modelling, Vol. I, 442-445
Weiß, C.H., F. Zhu, and A. Hoshiyar (2020). Softplus INGARCH Models. Statistica Sinica, accepted for publication
Gertheiss, J., A. Groll, T. Stodolski, M. Priebe, and M. Rudolph (2019). Prediction intervals for out-of-sample forecasts based on spline extrapolation. Proceedings of the 34th International Workshop on Statistical Modelling, Vol. II, 54-57
Hoshiyar, A., J. Gertheiss, P. Wiemann, and T. Kneib (2019). Challenging the commonly used log-link in statistical models for count data with an application to infectious disease data. Proceedings of the 34th International Workshop on Statistical Modelling, Vol. II, 346-350
Mörlein, J., L. Meier-Dinkel, J. Gertheiss, W. Schnäckel, and D. Mörlein (2019). Sustainable use of tainted boar meat: Blending is a strategy for processed products. Meat Science 152, 65-72