Publications by 장성환

SVM

28.12.2019

SVM 장성환 2018 7 1. 지도학습 알고리즘 1.1 ROC & AUC ROC 이상적인 모델의 ROC커브는 높은 기준값에서도 TP가 높다면 좋은 모델이다. -컷트라인이 높은데도 불구하고 많은 행이 실제도 TRUE, 모델도 TRUE로 예측했기 때문이다 오분류율인 FP는 높은 기준값에서는 그 값이 �...

1724 sym R (6527 sym/46 pcs) 6 img

descriptive statistics

28.12.2019

기술통계 장성환 2018 7 9 1.기술 통계 빅데이터 분석이란 대량의 데이터를 대상으로 다양한 분석기법을 적용하여 새로운 통찰이나 새로운 가치를 발견하고, 새로운 데이터 혹은 미래의 상황을 예측하는 일련의 과정을 말한다. 빅데이터 분석을 위해서는 기존 사실...

1850 sym R (11610 sym/135 pcs) 15 img

inferential statistics 1

28.12.2019

추론통계 장성환 2018 7 10 1 추론통계 1.1 추론통계의 의의 통계 조사에서 조사대상이 되는 전체 집단을 모집단이라 하고, 모집단에서 뽑은 일부 자료를 표본이라고 한다. 모집단에서 추출된 표본으로 부터 모수와 관련된 통계량들의 값을 계산하고, 이것을 이용하...

2197 sym R (8040 sym/76 pcs) 1 img

Regression

28.12.2019

R을 이용한 회귀분석 장성환 2018 7 1 회귀분석 회귀분석은 변수들 간의 관계를 설명하는 통계적 모형을 생성하는 기법 1.1 변수들의 관계 회귀분석은 변수들 간의 관계를 설명하는 통계적 모형을 생성하는 기법. 결정적 모형 : 오차를 허용하지 않는 모형 통계적 �...

1516 sym R (19695 sym/90 pcs) 7 img

Data cleansing 1

28.12.2019

1. 전처리 데이터를 분석하기에 적합한 형태로 만드는 작업 1.1 변수조작 1.1.1 scaling 비교되는 변수의 범주가 다른 경우 정규화로 비슷하게 맞출 수 있다. pampas <- c(283, 288, 205, 204, 287, 300, 310) milk <- c(33, 31, 31, 32, 33, 34, 29) tissue <- c(2500, 2450, 2490, 2750, 2800, 2350, 2450) ...

3829 sym R (32432 sym/237 pcs) 12 img

R 기초

27.12.2019

R 기초 장성환 2018 7 3 1.R기초 1.1 주석과 도움말 함수, 패키지 등에 대한 설명을 얻고 싶을 때는 ?, help를 이용할 수 있다. ?print help(print) 1.2 패키지 설치 install.packages("randomForest") library("randomForest") update.packages("rpart") 1.3 기본 연산자 2+2 2-2 2*2 2/2 3/2 2%%2 # 나머...

688 sym R (6529 sym/91 pcs)

Data cleansing 2

28.12.2019

전처리2 장성환 2018 7 12 2. 전처리 2 2.1 행/열의 계산 - apply 계열 함수 입력된 데이터 전체에 같은 계산을 수행하게 하는 함수로 apply 계열의 함수가 있다. 이들은 벡터 연산을 수행하므로 결과를 빠르게 도출한다. 2.1.1 apply() 행 또는 열 방향으로 계산한다. 열 방�...

2596 sym R (59564 sym/191 pcs)

Data cleansing 3

28.12.2019

전처리 3 장성환 2018 7 13 3. 전처리3 빠른처리 3.1 Tidy Data ‘간결한 데이터’ 3.1.1 Tidy Data의 필요성 데이터의 각 행에는 분류 처리에 필요한 기준이 필요하다 아래의 데이터에는 분류 기준이 없기 때문에 Tidy data로 변환한다. 예로 doBy::summaryBy()는 summaryBy(value ~ cate...

2031 sym R (28175 sym/148 pcs) 3 img

inferential statistics 2

28.12.2019

추론통계 2 - 상관분석 장성환 2018 7 10 2. 상관분석 2.1상관계수 상관 분석은 두 변수 사이의 관련성을 파악하는 방법이다. 대표적으로는 피어슨 상관 계수로 상관 분석을 한다. 피어슨 상관 계수는 한 변수가 커질 때 다른 변수가 함께 커지는 공분산을 표준편차로...

1552 sym R (6555 sym/50 pcs) 4 img

로지스틱 회귀분석

28.12.2019

로지스틱 회귀분석 장성환 2018 7 1.5 로지스틱 회귀분석 목표 변수가 이분형이거나 범주형인 경우, 로지스틱 회귀분석 수행 독립 변수가 하나이고 X이며, 목표 변수 Y가 이분형으로 값을 0 또는 1을 가지는 경우의 승산비 1.5.1 데이터 준비 autoparts <- read.csv("autoparts.c...

1056 sym R (142707 sym/61 pcs) 3 img