Publications by Valerio Ferdinando Calà

XGBoost

31.05.2023

Spesso vogliamo spiegare la relazione tra una variabile di interesse \(Y\) ed un vettore di variabili esplicative \(X\), oppure vogliamo fare una previsione di \(Y\) sulla base dei valori noti di \(X\). Shmueli spiega meglio di me la distinzione tra i due approcci: to explain or to predict? (Reference: https://www.stat.berkeley.edu/~aldous/157...

3894 sym 6 img

Research Notes

18.05.2023

Intro My research focuses on exploring the application of non-parametric methods, specifically tree-based methods like XGBoost, in the field of Economics. I aim to investigate their effectiveness in situations where traditional regression-based methods may fall short. To begin my research, I will write an R script to simulate three different r...

6780 sym 6 img

Document

06.04.2023

DataCamp career track in Data Scientist with R: Download certificate_DataScientistWithR.pdf career track in Data Analyst with R: Download certificate_DataAnalystWithR.pdf SQL Server Fundamentals: Download certificate_SQL_Server_Fundamentals.pdf Data Manipulation with R: Download certificate_DataManipulationWithR.pdf SNA: Scuola Nazionale dell�...

659 sym

Generare numeri pseudo-casuali

20.10.2020

Metodo MIDDLE - SQUARE di Von Neumann L’idea è di considerare un numero iniziale, detto SEED, indicato con X; X è composto di N cifre e viene scelto in modo arbitrario. Eleva X al quadrato e considera come nuova simulazione le sue N cifre centrali; poi ripeti a partire dal numero così simulato. Il limite del metodo sta nel fatto che è molto...

2538 sym R (3550 sym/31 pcs) 3 img

Monte Carlo Simulation Methods

20.10.2020

Metodi Monte Carlo (MC) Abbiamo una v.c. Y con funzione di probabilità g(y). L’obiettivo è calcolare la media di una sua trasformazione: E[m(Y)] Anziché calcolare l’integrale nel supporto di Y di m(y)g(y) in modo analitico, ricorriamo alla simulazione Monte Carlo: si generano R valori y da g() e si calcola la media empirica 1/R*sum(m(y))...

2944 sym R (3926 sym/33 pcs) 4 img

Random Sampling from (almost) any distribution

20.10.2020

Obiettivo imparare a generare da qualunque distribuzione di probabilità continua e discreta univariata. Metodo dell’Inversione della fdr (ITM) Vediamo il caso Y~f , U = F(Y) con f pdf della v.c. Y ed F la sua fdr. Vale che U=F(Y)~U(0,1) motivo per cui campiono n valori da U(0,1) e calcolo l’inversa F^-1 che mi riporta a y = F^-1(u) # Y~ Exp...

2045 sym R (5136 sym/18 pcs) 12 img

Ridge, Lasso & Best Subset Selection

20.10.2020

Constrained and Penalized problems Consideriamo tre tipi di norme (anche se in realtà la prima di queste non è una norma) \(l_0\), \(l_1\), \(l_2\) definite rispettivamente come: \[\|\boldsymbol{\beta} \|_0 = \sum_{j=1}^{p}1\{\beta_j\neq 0\}, \quad \|\boldsymbol{\beta} \|_1 = \sum_{j=1}^{p} |\beta_j |, \quad \|\boldsymbol{\beta} \|_2 =\Big( \su...

3588 sym R (1733 sym/11 pcs)

kNN and CARET package

20.10.2020

1. k-nearest neighbors Si tratta di un metodo di stima non-parametrico: non si fanno ipotesi esplicite sulla forma funzionale di \(f()\) ma si lasciano parlare i dati, in modo più flessibile per catturare forme anche strane della relazione funzionale. Il lato negativo, invece, è che occorrono molte più osservazioni per stimare \(f()\) in quant...

5150 sym R (3383 sym/15 pcs) 5 img

Optimism and Information Criteria

20.10.2020

1. Optimism L’ottimismo (Opt) è definito come la differenza attesa tra il Mean Squared Error del test set e quello del training set. Si tratta di una quantità informativa dell’over-ottimismo dovuto alla stima sul training set (che avrà sempre errore inferiore rispetto al test) e permette di calcolare il forecast error (valore atteso del t...

5593 sym R (1784 sym/3 pcs) 3 img

Cross Validation

20.10.2020

1. Validation Set Approach Usare gli stessi dati per addestrare e testare il modello porta a dei risultati troppo ottimisti, che difficilmente resterebbero tali di fronte un nuovo insieme di dati. Per questo motivo seguiamo un approccio di validazione in cui splittiamo l’universo dei dati in 2 insiemi disgiunti: uno di questi verrà usato come ...

4691 sym R (2863 sym/12 pcs) 3 img