Die Arbeitsgruppe Statistik und Datenwissenschaften beschäftigt sich zum einen mit anwendungsorientierter und -motivierter Methodenentwicklung, insbesondere Regularisierung und Ensemble-Methoden für kategoriale, funktionale und hoch-dimensionale Daten. Zum anderen unterstützen wir Anwenderinnen und Anwender, etwa aus den Wirtschafts-, Sozial- und Lebenswissenschaften, bei Fragen zu Statistik und Datenanalyse.
Forschungsschwerpunkte:
Hoch-Dimensionale Daten
Kategoriale Daten
Funktionale Daten
Variablen- und Modellselektion
Statistisches und maschinelles Lernen
Angewandte Statistik
Ausgewählte Forschungsprojekte:
DFG-Sachbeihilfe: Statistische Methoden und Modelle für Abhängige Kategoriale, insbesondere Ordinale Daten
Zur Analyse und Modellierung hochdimensionaler voneinander abhängiger Variablen existieren unterschiedlichste statistische Methoden, wie etwa grafische Modelle oder Hauptkomponentenanalyse. Diese erfordern für gewöhnlich jedoch stetige bzw. metrisch-skalierte Daten. Entsprechende Methoden für kategoriale, insbesondere ordinale Daten stehen dagegen weit weniger zur Verfügung, obwohl man diese Art von Daten häufig und in verschiedensten Anwendungen findet. Das Ziel des Projektes ist es daher, diese Lücke in der statistischen Methodik zu schließen, indem wir geeignete Methoden entwickeln, wie z.B. regularisierte grafische Modelle und Hauptkomponentenanalyse für ordinale Variablen.
Bearbeitung: Prof. Dr. Jan Gertheiss; Aisouda Hoshiyar, M.Sc.; Ejike Richard Ugba, M.Sc.
Förderzeitraum: 2019 – 2022
Teilprojekt Data Analytics im dtec.bw Verbundprojekt SHM – Digitalisierung und Überwachung von Infrastrukturbauwerken
Ziel des Gesamtprojekts Structural Health Monitoring (SHM) ist die zuverlässigkeitsbasierte Zustandsbewertung bestehender und eventuell geschädigter Infrastrukturbauwerke mittels unterschiedler Monitoringsysteme in einem integrierten digitalen System (Details).
Im Teilprojekt Data Analytics untersuchen wir insbesondere zeitlich-räumliche Abhängigkeitsstrukturen innerhalb bzw. zwischen Sensorströmen und entwickeln/adaptieren Methoden des maschinellen Lernens zur Feature Extraction und Schadenserkennung.
Bearbeitung: Prof. Dr. Jan Gertheiss, Lizzie Neumann, M.Sc.; Frederike Vogel, M.Sc.; Dr. Philipp Wittenberg
Förderzeitraum: 2021 – 2026
Das Projekt HPC für semiparametrische statistische Modellierung auf massiven Datensätzen ist eine wichtige Ergänzung und Erweiterung für das dtec.bw-Projekt SHM – Digitalisierung und Überwachung von Infrastrukturbauwerken. Angesichts der enormen Größe der Datensätze (mehrere Jahre hochaufgelöster Sensordaten) freuen wir uns über die Zusammenarbeit mit dem hpc.bw-Team auf dem HSUper Cluster
Das Hauptziel des Projektes ist die effiziente Implementierung von Schätzungen semiparametrischer und nichtparametrische Modelle zur Überwachung und Erkennung von strukturellen Änderungen.
Diese Zusammenarbeit verbessert die Effizienz und Skalierbarkeit der datenanalytischen Modellierungsprozesse und trägt somit zum breiteren Bereich der Infrastrukturüberwachung bei.
Bearbeitung: Dr. Philipp Wittenberg; Lizzie Neumann, M.Sc.
Förderzeitraum: 2023 – 2024
Aktuelle Veröffentlichungen:
Neumann, L., P. Wittenberg, A. Mendler, and J. Gertheiss (2025). Confounder-adjusted covariances of system outputs and applications to structural health monitoring. Mechanical Systems and Signal Processing 224, 111083, doi: 10.1016/j.ymssp.2024.111983
Gertheiss, J., D. Rügamer, B.X.W. Liew, and S. Greven (2024). Functional Data Analysis: An Introduction and Recent Developments. Biometrical Journal, to appear, doi: 10.1002/bimj.202300363
Tu, D., J. Wrobel, T.D. Satterthwaite, J. Goldsmith, R.C. Gur, R.E. Gur, J. Gertheiss, D.S. Bassett, and R.T. Shinohara (2024). Regression and alignment for functional data and network topology. Biostatistics, to appear, doi: 10.1093/biostatistics/kxae026
Vogel, F. (2024). Examining Quantiles in Structural Health Monitoring. In: Proceedings of the 10th European Workshop on Structural Health Monitoring (EWSHM 2024), e-Journal of Nondestructive Testing, doi: 10.58286/29664
Hoshiyar, A., Gertheiss, L.H. and Gertheiss, J. (2024). Regularization and Model Selection for Ordinal-on-Ordinal Regression with Applications to Food Products‘ Testing and Survey Data. Preprint.
Gertheiss, J., D. Rügamer und S. Greven (2023). Methoden für die Analyse funktionaler Daten. In: Gertheiss, J., Schmid, M., Spindler, M. (Hrsg) Moderne Verfahren der Angewandten Statistik. Springer, to appear
Gertheiss, J. and R.T. Shinohara (2023). Penalized non-linear canonical correlation analysis for ordinal data with application to the international classification of functioning, disability and health. In: Proceedings of the 2023 SIAM International Conference on Data Mining (SDM), 532 – 540, doi: 10.1137/1.9781611977653.ch60
Gertheiss, J. und G. Tutz (2023). Generalisierte lineare und gemischte Modelle. In: Gertheiss, J., Schmid, M., Spindler, M. (Hrsg) Moderne Verfahren der Angewandten Statistik. Springer, to appear
Gertheiss, J. and G. Tutz (2023). Regularization and Predictor Selection for Ordinal and Categorical Data. In: Kateri, M., Moustaki, I. (eds) Trends and Challenges in Categorical Data Analysis. Statistics for Social and Behavioral Sciences. Springer, Cham, 199-232, doi: 10.1007/978-3-031-31186-4_7
Hesselmann, C., D. Reinhardt, J. Gertheiss, and J.P. Müller (2023). Data privacy in ride-sharing services: From an analysis of common practices to improvement of user awareness. In Reiser, H.P., Kyas, M. (eds.) Secure IT Systems, NordSec 2022, Lecture Notes in Computer Sciences. Springer, Cham, 20-39, doi: 10.1007/978-3-031-22295-5_2
Hoshiyar, A. and Gertheiss, J. (2023). Fusion, Smoothing and Model Selection for Item-on-Item Regression. In: Proceedings of the 37th International Workshop on Statistical Modelling, Dortmund, Germany, 133–138.
Hoshiyar, A., H.A.L. Kiers, and J. Gertheiss (2023). Penalized optimal scaling for ordinal variables with an application to international classification of functioning core sets. British Journal of Mathematical and Statistical Psychology 76(2), 353-371, doi: 10.1111/bmsp.12297
M.C. Morais, P. Wittenberg and S. Knoth (2023). An ARL-unbiased modified chart for monitoring autoregressive counts with geometric marginal distributions. Sequential Analysis 42(3), 323-347, doi: 10.1080/07474946.2023.2221996
M.C. Morais, P. Wittenberg and C.J. Cruz (2023). An ARL-Unbiased Modified np-Chart for Autoregressive Binomial Count. Stochastics and Quality Control 38(1), 11-24, doi: 10.1515/eqc-2022-0052
Neumann, L. (2023). Covariate-adjusted Association of Sensor Outputs using a Nonparametric Estimate of the Conditional Covariance. In: Proceedings of the 37th International Workshop on Statistical Modelling: Volume I., Dortmund, Germany, 543-548.
Selk, L. and J. Gertheiss (2023). Nonparametric regression and classification with functional, categorical, and mixed covariates. Advances in Data Analysis and Classification 17(2), 519-543, doi: 10.1007/s11634-022-00513-7
Ugba, E.R. and J. Gertheiss (2023). A modification of McFadden’s R2 for binary and ordinal response models. Communications for Statistical Applications and Methods 30(1), doi: 10.29220/CSAM.2023.30.1.049
Wittenberg, P. and J. Gertheiss (2023). Modelling SHM sensor outputs: A functional data approach. Proceedings of the 37th International Workshop on Statistical Modelling, Vol. I, 664-668
Altmann, B. A., J. Gertheiss, I. Tomasevic, C. Engelkes, T. Glaesener, J. Meyer, A. Schäfer, R. Wiesen, and D. Mörlein (2022). Human perception of color differences using computer vision system measurements of raw pork loin. Meat Science 188, 108766, doi: 10.1016/j.meatsci.2022.108766
Gertheiss, J. and F. Jaehn (2022). Route planning under uncertainty: A case study apart from mean travel time. In Trautmann, N, Gnädi, M. (eds.) Operations Research Proceedings 2021, OR 2021, Lecture Notes in Operations Research. Springer, Cham, 261-267, doi: 10.1007/978-3-031-08623-6_39
Gertheiss, J., F. Scheipl, T. Lauer, and H. Ehrhardt (2022). Statistical inference for ordinal predictors in generalized additive models with application to Bronchopulmonary Dysplasia. BMC Research Notes 15(1), 112, doi: 10.1186/s13104-022-05995-4
Hoshiyar, A., Gertheiss, J. (2022). Fusion, Smoothing and Model Selection for Item-on-Item Regression. In: Proceedings of the 35th International Workshop on Statistical Modelling, Trieste, Italy, 467–471.
Morais, M.C., P. Wittenberg, and C.J. Cruz (2022). The np-chart with 3-sigma limits and the ARL-unbiased np-chart revisited. Stochastics and Quality Control 37(2), 107-116, doi: 10.1515/eqc-2022-0032
Neumann, L. and J. Gertheiss (2022). Covariate-adjusted Association of Sensor Outputs for Structural Health Monitoring. In: dtec.bw-Beiträge der Helmut-Schmidt-Universität / Universität der Bundeswehr Hamburg: Forschungsaktivitäten im Zentrum für Digitalisierungs- und Technologieforschung der Bundeswehr dtec.bw – Band 1, 287-291, doi: 10.24405/14566
Selk, L. and J. Gertheiss (2022). Nonparametric regression and classification with functional, categorical, and mixed covariates. Advances in Data Analysis and Classification, doi: 10.1007/s11634-022-00513-7
Ugba, E.R. (2022). gofcat: An R package for goodness-of-fit of categorical response models. Journal of Open Source Software 7(76), 4382, doi: 10.21105/joss.04382
Vogel, F., N.M. Vahle, J. Gertheiss, and M.J. Tomasik (2022). Supervised learning for analysing movement patterns in a virtual reality experiment. Royal Society Open Science 9(4), 211594, doi: 10.1098/rsos.211594
Weiß, C.H., F. Zhu, and A. Hoshiyar (2022). Softplus INGARCH Models. Statistica Sinica 32, 1099-1120, doi: 10.5705/ss.202020.0353
Wittenberg, P., M.C. Morais, and W.H. Woodall (2022). Comments on “On scale parameter monitoring of the Rayleigh distributed data using a new design”. IEEE Access 10, 84622-84625, doi: 10.1109/ACCESS.2022.3196664
Hesselmann, C., J. Gertheiss, and J.P. Müller (2021). Ride sharing & data privacy: How data handling affects the willingness to disclose personal information. Findings, November, doi: 10.32866/001c.29863
Hoshiyar, A. (2021). ordPens: An R package for Selection, Smoothing and Principal Components Analysis for Ordinal Variables. Journal of Open Source Software 6(68), 3828, doi: 10.21105/joss.03828
Rohweder, N.O., J. Gertheiss, and C. Rembe (2021). Sub-micron pupillometry for optical EEG measurements. tm-Technisches Messen 88 (7-8), 473-480, doi: 10.1515/teme-2021-0030
Ugba, E.R. (2021). serp: An R package for smoothing in ordinal regression. Journal of Open Source Software 6(66), 3705, doi: 10.21105/joss.03705
Ugba, E.R., D. Mörlein, and J. Gertheiss (2021). Smoothing in ordinal regression: An application to sensory data. Stats 4 (3), 616-633, doi: 10.3390/stats4030037
Aipperspach, C., J. Gertheiss, and C. Jahn (2020). CO2-Ausstoß auf See: Sind genauere Schätzungen möglich? Potentiale eines Stichproben-basierten Modells. Internationales Verkehrswesen 72 (3), 65-71
Alhaji, B., J. Beecken, R. Ehlers, J. Gertheiss, F. Merz, J. Müller, M. Prilla , A. Rausch, A. Reinhardt, D. Reinhardt, C. Rembe, N.-O. Rohweder, C. Schwindt, S. Westphal, and J. Zimmermann (2020). Engineering human-machine teams for trusted collaboration. Big Data and Cognitive Computing 4, 35, doi: 10.3390/bdcc4040035
Hoshiyar, A. (2020). Analyzing Likert-type data using penalized non-linear principal components analysis. In: Proceedings of the 35th International Workshop on Statistical Modelling, Vol. I, 337-340
Lauer, T., J. Behnke, F. Oehmke, J. Bäcker, K. Gentil, T. Chakraborty, M. Schloter, J. Gertheiss, and H. Ehrhardt (2020). Bacterial colonization within the first 6 weeks of life and pulmonary outcome in preterm infants < 1000g. Journal of Clinical Medicine 9, 2240, doi: 10.3390/jcm9072240
Vogel, F., N. Vahle, J. Gertheiss, and M. J. Tomasik (2020). Neural network classification of movement patterns in a virtual reality experiment. Proceedings of the 35th International Workshop on Statistical Modelling, Vol. I, 442-445