Publications by Miguel Arquez Abdala
Análisis de redes
library("igraph") Un gráfico de redes representa interconexiones entre individuos. La presencia o ausencia de cada interconexión puede indicar si existe alguna relación entre cada par de individuos Vertices o nodos hace referencia individuos vertex Las interconexiones entre invididuos son llamados límites (edges) La visualización de la red...
8335 sym R (41166 sym/130 pcs) 21 img
Clasificadores
Este documento incluye los clasificadores KNN, Naive Bayes, regresión logística y una breve implementación de arboles de decisión. KNN - K Nearest Neighbors Algoritmo de aprendizaje supervisado basado en distancias (euclidianas normalmente) para determinar, basado en un número “k” de vecinos, a quién se parece más la observación que ...
6913 sym R (17407 sym/76 pcs) 6 img
Cluster Analysiss
library("purrr") library("dplyr") library("fastDummies") library("ggplot2") library("dendextend") library("cluster") library("tidyr") library("factoextra") library("gridExtra") # Datasets lineup <- readRDS("lineup.rds") oes <- readRDS("oes.rds") ws_customers <- readRDS("ws_customers.rds") df <- USArrests Conjunto de técnicasmediante ...
11165 sym R (16418 sym/69 pcs) 26 img 1 tbl
Random Forest
Un problema de los modelos bagging es que sufren de alta correlación entre arboles (es decir, casi todos los arboles llegan a la misma conclusión de predicción!!), disminuyendo el desempeño total del modelo. El modelo de bosque aleatorio surge como una modificación del modelo de bagging, construyendo una gran colección de arboles no correla...
4039 sym R (9651 sym/27 pcs) 3 img
regression trees and bagging
Arboles de Regresión Los arboles de regresión invoucran métodos de segmentación de los datos en grupos más pequeños y luego estimar un modelo simple para cada subgrupo. Aunque los arboles de decisión simples suelen tener un poder predictivo pobre y ser muy inestables (alta varianza). Para ellos hay soluciones como los modelos de agregació...
5551 sym R (6344 sym/22 pcs) 5 img
Resampling methods
Las técnicas de re-sampling son bastante utiles y poderosas cuando la cantidad de información no es limitada o si se quiren hacer modelos con resultados más robustos. library("dplyr") library("boot") library("purrr") library("ggplot2") library("MASS") auto <- as_tibble(ISLR::Auto) Existen desventaja con el enfoque de train-test para modelo...
4209 sym R (6234 sym/42 pcs) 5 img
Métodos de Regularización
El objetivo de la regularización es la reducción de la varianza del modelo agregando penalizaciones a los coeficientes estimados. library("rsample") library("dplyr") library("glmnet") library("dplyr") library("ggplot2") # Creamos las muestras train test y plantamos una semilla pra reproducibildiad set.seed(123) ames_split <- initial_split...
3857 sym R (5345 sym/39 pcs) 10 img
ShinyDashBoard
library("shiny") library("shinydashboard") Dashboard structure Header SideBar Body header <- dashboardHeader( dropdownMenu(type = "messages") ) sidebar <- dashboardSidebar() body <- dashboardBody() ui <- dashboardPage(header, sidebar, body) server <- function(input, output){} shinyApp(ui, server) Input functions actionButton() ...
1069 sym R (587 sym/3 pcs)
Introduction to Machine learning
libraries <- c("ggplot2", "dplyr", "caTools", "party", "randomForest", "nnet", "e1071") lapply(libraries, library, character.only = TRUE) Cross validation techniques Bootstrap cross-validation Bootstrap 632 cross validation k-fold cross valadation repeated cross-validation leave-one-out cross validation leave-group-out cross-v...
6480 sym R (11715 sym/51 pcs) 7 img
Functional programming in R with Purrr
R Markdown library(purrr) library(dplyr) library(repurrrsive) library(data.table) library(ggplot2) files <- list.files("simulated_data_from_1990_to_2005", pattern = "*.csv") # Loop solution all_csv <- list() init_time <- Sys.time() for (file in files) { all_csv[[file]] <- fread(paste0("simulated_data_from_1990_to_2005/", ...
155 sym R (9037 sym/44 pcs) 11 img