Publications by Jairo A. Ayala Godoy

KNN

20.04.2020

K-NN El método K-NN es un métodos más importantes de clasificación supervisada. En el proceso de aprendizaje no se hace ninguna suposición acerca de la distribución de las variables predictoras, es por ello que es un método de clasificación no paramétrico, que estima el valor de la función de densidad de probabilidad o directamente l...

9453 sym R (7112 sym/45 pcs) 3 img

ROC

31.03.2020

Preliminares El aprendizaje supervisado es una técnica usada en minería de datos, en la que se genera una función de pronóstico a partir del entrenamiento previo sobre datos etiquetados. Es decir, aprendemos a partir de casos reales y extrapolamos el resultado a los casos futuros. El proceso habitual consiste en dividir la muestra en dos c...

7479 sym R (4170 sym/37 pcs) 6 img 2 tbl

CMP

24.03.2020

Continuación de métodos de particionamiento Como vimos en la sección anterior, los algoritmos de particionamiento son enfoques de agrupamiento que dividen los conjuntos de datos, que contienen \(n\) observaciones, en un conjunto de \(k\) grupos (es decir, conglomerados). Los algoritmos requieren que el analista especifique el número de cl�...

6272 sym R (6346 sym/33 pcs) 21 img

Métodos de particionamiento

19.03.2020

Métodos de particionamiento Suponemos ahora que tenemos una idea de cuántos grupos hay. Esto es, si tenemos una base de datos pequeña o si es muy grande, tomamos una muestra aleatoria significativa y en cualquiera de los dos casos, realizamos un análisis jerárquico previo con todos estos datos. Por lo tanto, tenemos alguna idea de cuánto...

16996 sym R (7157 sym/24 pcs) 13 img

Análisis de Conglomerados

12.03.2020

Análisis de Conglomerados En la literatura estadística recibe el nombre de Cluster Analysis, o en español Análisis de Conglomerados. En la literatura de Inteligencia Artificial se utiliza la expresión clasificación no supervisada. La idea general es que tenemos una muestra de observaciones multivariada, y deseamos agruparla en grupos. Muy...

17873 sym R (1919 sym/18 pcs) 17 img 7 tbl

Document

03.03.2020

Introducción En el proceso Analisis en grandes volúmenes de datos, es vital importancia escoger las variables y características más adecuadas para presentar un buen algoritmo de minería de datos. Este problema se puede ver de diferentes enfoques, entre los más destacados: escoger los mejores atributos de los datos a partir de su análisis ...

5974 sym

CCA

17.02.2020

Introducción El Análisis de Correlación Canónica es una técnica estadística de análisis multivariante. El análisis de correlación canónica se utiliza cuando un conjunto de variables se puede dividir en dos grupos homogéneos en función de algún criterio ya sea económico, demográfico, social etc. y se desea estudiar la relación en...

10225 sym R (13519 sym/71 pcs) 12 img 3 tbl

LDA y QDA

17.02.2020

Análisis discriminante lineal (LDA) El Análisis Discriminante Lineal o Linear Discrimiant Analysis (LDA) es un método de clasificación supervisado de variables cualitativas en el que dos o más grupos son conocidos a priori y nuevas observaciones se clasifican en uno de ellos en función de sus características. Haciendo uso del teorema de ...

16557 sym R (16078 sym/101 pcs) 24 img 3 tbl

Reducción de dimensionalidad (PCA)

14.02.2020

Introducción Los métodos de reducción de dimensionalidad son técnicas estadísticas que mapean el conjunto de los datos a subespacios derivados del espacio original, de menor dimensión, que permiten hacer una descripción de los datos a un menor costo. Estas técnicas cobran importancia ya que muchos algoritmos de diversos campos tales com...

9911 sym R (4744 sym/34 pcs) 12 img

Preliminares del análisis exploratorio de datos en R

14.02.2020

Primeros pasos Revisamos los procedimientos para el tratamiento preliminar de los datos antes de comenzar con el Análisis exploratorio necesario para generar conocimiento sobre nuestros datos. Dichos procedimientos pueden ser selección o filtrado de observaciones, también pueden ser recodificar factores para una mejor visualización de result...

5494 sym R (11116 sym/37 pcs)