Publications by Jairo A. Ayala Godoy
KNN
K-NN El método K-NN es un métodos más importantes de clasificación supervisada. En el proceso de aprendizaje no se hace ninguna suposición acerca de la distribución de las variables predictoras, es por ello que es un método de clasificación no paramétrico, que estima el valor de la función de densidad de probabilidad o directamente l...
9453 sym R (7112 sym/45 pcs) 3 img
ROC
Preliminares El aprendizaje supervisado es una técnica usada en minería de datos, en la que se genera una función de pronóstico a partir del entrenamiento previo sobre datos etiquetados. Es decir, aprendemos a partir de casos reales y extrapolamos el resultado a los casos futuros. El proceso habitual consiste en dividir la muestra en dos c...
7479 sym R (4170 sym/37 pcs) 6 img 2 tbl
CMP
Continuación de métodos de particionamiento Como vimos en la sección anterior, los algoritmos de particionamiento son enfoques de agrupamiento que dividen los conjuntos de datos, que contienen \(n\) observaciones, en un conjunto de \(k\) grupos (es decir, conglomerados). Los algoritmos requieren que el analista especifique el número de cl�...
6272 sym R (6346 sym/33 pcs) 21 img
Métodos de particionamiento
Métodos de particionamiento Suponemos ahora que tenemos una idea de cuántos grupos hay. Esto es, si tenemos una base de datos pequeña o si es muy grande, tomamos una muestra aleatoria significativa y en cualquiera de los dos casos, realizamos un análisis jerárquico previo con todos estos datos. Por lo tanto, tenemos alguna idea de cuánto...
16996 sym R (7157 sym/24 pcs) 13 img
Análisis de Conglomerados
Análisis de Conglomerados En la literatura estadística recibe el nombre de Cluster Analysis, o en español Análisis de Conglomerados. En la literatura de Inteligencia Artificial se utiliza la expresión clasificación no supervisada. La idea general es que tenemos una muestra de observaciones multivariada, y deseamos agruparla en grupos. Muy...
17873 sym R (1919 sym/18 pcs) 17 img 7 tbl
Document
Introducción En el proceso Analisis en grandes volúmenes de datos, es vital importancia escoger las variables y características más adecuadas para presentar un buen algoritmo de minería de datos. Este problema se puede ver de diferentes enfoques, entre los más destacados: escoger los mejores atributos de los datos a partir de su análisis ...
5974 sym
CCA
Introducción El Análisis de Correlación Canónica es una técnica estadística de análisis multivariante. El análisis de correlación canónica se utiliza cuando un conjunto de variables se puede dividir en dos grupos homogéneos en función de algún criterio ya sea económico, demográfico, social etc. y se desea estudiar la relación en...
10225 sym R (13519 sym/71 pcs) 12 img 3 tbl
LDA y QDA
Análisis discriminante lineal (LDA) El Análisis Discriminante Lineal o Linear Discrimiant Analysis (LDA) es un método de clasificación supervisado de variables cualitativas en el que dos o más grupos son conocidos a priori y nuevas observaciones se clasifican en uno de ellos en función de sus características. Haciendo uso del teorema de ...
16557 sym R (16078 sym/101 pcs) 24 img 3 tbl
Reducción de dimensionalidad (PCA)
Introducción Los métodos de reducción de dimensionalidad son técnicas estadísticas que mapean el conjunto de los datos a subespacios derivados del espacio original, de menor dimensión, que permiten hacer una descripción de los datos a un menor costo. Estas técnicas cobran importancia ya que muchos algoritmos de diversos campos tales com...
9911 sym R (4744 sym/34 pcs) 12 img
Preliminares del análisis exploratorio de datos en R
Primeros pasos Revisamos los procedimientos para el tratamiento preliminar de los datos antes de comenzar con el Análisis exploratorio necesario para generar conocimiento sobre nuestros datos. Dichos procedimientos pueden ser selección o filtrado de observaciones, también pueden ser recodificar factores para una mejor visualización de result...
5494 sym R (11116 sym/37 pcs)