Publications by Valerio Ferdinando Calà
XGBoost
Spesso vogliamo spiegare la relazione tra una variabile di interesse \(Y\) ed un vettore di variabili esplicative \(X\), oppure vogliamo fare una previsione di \(Y\) sulla base dei valori noti di \(X\). Shmueli spiega meglio di me la distinzione tra i due approcci: to explain or to predict? (Reference: https://www.stat.berkeley.edu/~aldous/157...
3894 sym 6 img
Research Notes
Intro My research focuses on exploring the application of non-parametric methods, specifically tree-based methods like XGBoost, in the field of Economics. I aim to investigate their effectiveness in situations where traditional regression-based methods may fall short. To begin my research, I will write an R script to simulate three different r...
6780 sym 6 img
Document
DataCamp career track in Data Scientist with R: Download certificate_DataScientistWithR.pdf career track in Data Analyst with R: Download certificate_DataAnalystWithR.pdf SQL Server Fundamentals: Download certificate_SQL_Server_Fundamentals.pdf Data Manipulation with R: Download certificate_DataManipulationWithR.pdf SNA: Scuola Nazionale dell�...
659 sym
Generare numeri pseudo-casuali
Metodo MIDDLE - SQUARE di Von Neumann L’idea è di considerare un numero iniziale, detto SEED, indicato con X; X è composto di N cifre e viene scelto in modo arbitrario. Eleva X al quadrato e considera come nuova simulazione le sue N cifre centrali; poi ripeti a partire dal numero così simulato. Il limite del metodo sta nel fatto che è molto...
2538 sym R (3550 sym/31 pcs) 3 img
Monte Carlo Simulation Methods
Metodi Monte Carlo (MC) Abbiamo una v.c. Y con funzione di probabilità g(y). L’obiettivo è calcolare la media di una sua trasformazione: E[m(Y)] Anziché calcolare l’integrale nel supporto di Y di m(y)g(y) in modo analitico, ricorriamo alla simulazione Monte Carlo: si generano R valori y da g() e si calcola la media empirica 1/R*sum(m(y))...
2944 sym R (3926 sym/33 pcs) 4 img
Random Sampling from (almost) any distribution
Obiettivo imparare a generare da qualunque distribuzione di probabilità continua e discreta univariata. Metodo dell’Inversione della fdr (ITM) Vediamo il caso Y~f , U = F(Y) con f pdf della v.c. Y ed F la sua fdr. Vale che U=F(Y)~U(0,1) motivo per cui campiono n valori da U(0,1) e calcolo l’inversa F^-1 che mi riporta a y = F^-1(u) # Y~ Exp...
2045 sym R (5136 sym/18 pcs) 12 img
Ridge, Lasso & Best Subset Selection
Constrained and Penalized problems Consideriamo tre tipi di norme (anche se in realtà la prima di queste non è una norma) \(l_0\), \(l_1\), \(l_2\) definite rispettivamente come: \[\|\boldsymbol{\beta} \|_0 = \sum_{j=1}^{p}1\{\beta_j\neq 0\}, \quad \|\boldsymbol{\beta} \|_1 = \sum_{j=1}^{p} |\beta_j |, \quad \|\boldsymbol{\beta} \|_2 =\Big( \su...
3588 sym R (1733 sym/11 pcs)
kNN and CARET package
1. k-nearest neighbors Si tratta di un metodo di stima non-parametrico: non si fanno ipotesi esplicite sulla forma funzionale di \(f()\) ma si lasciano parlare i dati, in modo più flessibile per catturare forme anche strane della relazione funzionale. Il lato negativo, invece, è che occorrono molte più osservazioni per stimare \(f()\) in quant...
5150 sym R (3383 sym/15 pcs) 5 img
Optimism and Information Criteria
1. Optimism L’ottimismo (Opt) è definito come la differenza attesa tra il Mean Squared Error del test set e quello del training set. Si tratta di una quantità informativa dell’over-ottimismo dovuto alla stima sul training set (che avrà sempre errore inferiore rispetto al test) e permette di calcolare il forecast error (valore atteso del t...
5593 sym R (1784 sym/3 pcs) 3 img
Cross Validation
1. Validation Set Approach Usare gli stessi dati per addestrare e testare il modello porta a dei risultati troppo ottimisti, che difficilmente resterebbero tali di fronte un nuovo insieme di dati. Per questo motivo seguiamo un approccio di validazione in cui splittiamo l’universo dei dati in 2 insiemi disgiunti: uno di questi verrà usato come ...
4691 sym R (2863 sym/12 pcs) 3 img