Il professore di statistica Paul Parker sta lavorando per sviluppare metodi statistici e di apprendimento automatico per analizzare i sondaggi complessi prodotti dalle agenzie di statistica federali, grazie al supporto di una sovvenzione di 337.000 dollari.

Le moderne metodologie di apprendimento automatico hanno permesso importanti progressi nell'analisi dei Big Data. Tuttavia, la tecnologia attuale non è adatta alle complessità dei sondaggi che utilizzano metodi di campionamento complessi. Grazie al supporto di una sovvenzione triennale del valore di 337.000 dollari da parte della National Science Foundation, il professore di statistica Paul Parker svilupperà metodi statistici e di apprendimento automatico adatti all'analisi di sondaggi complessi prodotti da agenzie di statistica federali. Attualmente, i metodi di analisi dei grandi dataset non sono adatti per l'uso di questi tipi di sondaggi. Infatti, i metodi di apprendimento automatico attuali presuppongono un campione casuale semplice dalla popolazione, il che non è il caso con questi tipi di sondaggi. Il progetto si concentrerà su un gruppo di sondaggi prodotti dal National Center for Science and Engineering Statistics (NCSES), come il National Survey of College Graduates e il Survey of Earned Doctorates, che contribuiscono a informare importanti stime ufficiali della popolazione. Parker creerà metodi statistici per modelli di apprendimento automatico appositamente progettati per tener conto del design del sondaggio e del modo unico in cui i dati vengono raccolti. L'obiettivo è sfruttare la capacità della tecnologia di apprendimento automatico di creare modelli di dati flessibili che possono spesso migliorare la precisione delle stime della popolazione. Tuttavia, molti modelli di apprendimento automatico non sono attrezzati per fornire stime importanti dell'incertezza nei dataset, una lacuna che Parker affronterà attraverso i framework che sviluppa.