In questo articolo viene discusso Automated Machine Learning (AutoML) attraverso uno studio di caso sulla predizione delle malattie cardiache.
Nel mondo di oggi, tutte le organizzazioni vogliono utilizzare l'apprendimento automatico per analizzare i dati che generano quotidianamente dagli utenti. Con l'aiuto di un algoritmo di apprendimento automatico o di deep learning, possono analizzare i dati e fare una previsione sui dati di testing in ambiente di produzione. Tuttavia, potremmo affrontare problemi come la costruzione e l'addestramento dei modelli di apprendimento automatico, poiché questo richiede tempo e competenze in domini come la programmazione, la statistica, la scienza dei dati, ecc. Per superare tali sfide, entra in gioco Automated Machine Learning (AutoML), che è emersa come una delle soluzioni più popolari in grado di automatizzare molte fasi del processo di apprendimento automatico. In questo articolo, discuteremo AutoML con Python attraverso uno studio di caso reale sulla predizione delle malattie cardiache.
Lo studio di caso riguarda la predizione delle malattie cardiache. Il problema correlato al cuore è la principale causa di morte in tutto il mondo. L'unico modo per ridurre tali tipi di impatto è quello di rilevare la malattia in modo tempestivo con alcuni dei metodi automatizzati in modo che ci sia meno tempo impiegato e, dopo averlo fatto, prendere alcune misure preventive per ridurne l'effetto. Quindi, tenendo presente questo problema, esploreremo uno dei dataset relativi alle cartelle cliniche dei pazienti per costruire un modello di apprendimento automatico dal quale possiamo prevedere la probabilità di un paziente con malattie cardiache. Questo tipo di soluzione può essere facilmente applicato negli ospedali per effettuare controlli in modo che i medici possano fornire alcuni trattamenti il prima possibile.
Il modello completo che abbiamo seguito in questo studio di caso è mostrato nell'immagine.
Fig.1 AutoML Model Pipeline | Image by Author
L'idea è quella di utilizzare una libreria di apprendimento automatico chiamata H2O.ai che ci aiuta a creare e addestrare il modello. Il principale vantaggio di questa piattaforma è che fornisce un'API di alto livello dalla quale possiamo facilmente automatizzare molte fasi del processo, tra cui Feature Engineering, Model selection, Data Cleaning, Hyperparameter Tuning, ecc., che riducono drasticamente il tempo necessario per addestrare il modello di apprendimento automatico per qualsiasi progetto di data science.
Per costruire il modello, utilizzeremo l'API della libreria H2O.ai, e per farlo dobbiamo specificare il tipo di problema, che sia un problema di regressione o di classificazione o qualche altro tipo con il tipo di algoritmo da utilizzare.