Le professeur assistant Paul Parker développe des méthodes statistiques et d'apprentissage automatique pour analyser les enquêtes complexes produites par les agences statistiques fédérales, grâce à une subvention de 337 000 $ de la National Science Foundation.
Saviez-vous que les méthodes modernes d'apprentissage automatique ont permis des avancées majeures dans l'analyse des mégadonnées, mais que la technologie actuelle ne convient pas pour les subtilités des enquêtes utilisant des méthodes d'échantillonnage complexes? C'est ici que l'assistant professeur de statistiques Paul Parker entre en jeu, avec le soutien d'une subvention de trois ans et 337 000 $ de la National Science Foundation, pour développer des méthodes statistiques et d'apprentissage automatique adaptées à l'analyse des enquêtes complexes produites par les agences statistiques fédérales.
Parker explique que les méthodes actuelles d'apprentissage automatique ne sont pas nécessairement utilisables directement pour ces types de jeux de données d'enquête, car elles supposent généralement un échantillon aléatoire simple de la population, ce qui n'est pas le cas avec ces types d'enquêtes. Ce projet se concentrera sur un groupe d'enquêtes produites par le National Center for Science and Engineering Statistics (NCSES), telles que l'enquête nationale sur les diplômés du collège et l'enquête sur les doctorats obtenus, qui contribuent à éclairer les estimations officielles de la population.
Le but de Parker est de tirer parti de la capacité de la technologie d'apprentissage automatique à créer des modèles de données flexibles qui peuvent souvent améliorer la précision des estimations de population. Cependant, de nombreux modèles d'apprentissage automatique ne sont souvent pas équipés pour fournir des estimations importantes d'incertitude dans les jeux de données. C'est un problème que Parker abordera à travers les cadres qu'il développera. En fin de compte, il espère que ces méthodes auront une applicabilité plus large pour d'autres agences statistiques fédérales ainsi que pour des domaines tels que l'économie et la sociologie qui traitent des ensembles de données d'enquête dépendants.