fbpx

Se c’è una cosa che la storia dell’Executive Master in Data Analysis For Marketing ci ha dimostrato è che sono le domande ad essere veramente fondamentali.

In questa lezione inaugurale del Modulo 4: Machine Learning e Predictive Analytics lo vediamo confermato ancora una volta.

Il Prof. Francesco Della Beffa, infatti, introduce il Machine Learning partendo dalle questioni a cui si pone l’obiettivo di rispondere.

In particolare, in un confronto con i modelli statistici:

Una volta compreso lo scopo del Machine Learning, è il momento di addentrarsi nei metodi supervisionati, ovvero quelli che si occupano della previsione dei valori di una variabile-risposta a partire da un insieme di variabili esplicative.

Per farlo utilizziamo immediatamente la metodologia learning by doing tipica del Master e apriamo lo strumento che sarà uno dei protagonisti del modulo formativo: Orange

Attraverso l’alternanza di spiegazione, esempi e pratica, in aula si fa conoscenza con alcuni dei principali metodi di previsione e classificazione, ad esempio:

  • k-Nearest Neighbors: il più semplice, in cui ogni unità è un punto in uno spazio a n dimensioni;
  • Alberi di regressione e classificazione: si utilizzano a seconda delle variabili risposta (numeriche o categoriche) e sono semplici da interpretare 

per poi passare a indagare un po’ più da vicino la storia, l’architettura e il funzionamento delle Reti Neurali Artificiali

In più, le Reti Neurali apprendono, addestrate attraverso un algoritmo iterativo: il MultiLayer Perceptron.

Ma come funziona l’algoritmo di MLP?

L’addestramento ad opera del MLP, di fatto, consiste nel calcolo dei pesi: da un’iniziale configurazione casuale, l’algoritmo calcola l’output, misura l’errore e modifica i pesi per diminuirne l’entità.

Questo processo di modifica si ripete in maniera iterativa, fino al verificarsi di una condizione d’arresto.

A questo punto, però, è necessario tornare alle domande che guidano il percorso dell’aula: 

Come si può valutare la bontà dei risultati dei modellI?

Come individuare il metodo migliore per risolvere il nostro problema specifico?

Per rispondere alla prima questione, suddividiamo il DB in training set e test set: l’addestramento apprenderà sul primo, per poi venire verificato sul secondo.

Il secondo tema, invece, ci obbliga a mettere in competizione con Orange i diversi algoritmi e misurare le loro performance sullo stesso test set: ogni algoritmo, infatti, sfrutta in modo differente le proprietà dei dati.

Anche attraverso l’approfondimento delle Random Forest, del tema dell’Overfitting e del suo controllo arriviamo alla stessa conclusione: 

per classificare correttamente casi mai visti non esiste l’algoritmo migliore in assoluto

Dobbiamo sempre testare e, innanzitutto e ogni volta, avere ben chiaro qual è l’obiettivo, qual è la domanda alla base del nostro processo di analisi.

Richiedi la Ricerca

Indagine sul livello di adozione e utilizzo dell'Intelligenza Artificiale in Italia

Privacy Policy

You have Successfully Subscribed!