Publications by 장성환

구종분류

06.01.2020

1 분류 1.1 자료준비 정규시즌 구종 데이터 # savant_t_all.csv PitchSample <- read.csv(file.choose(), header = T, stringsAsFactors = F) X <- PitchSample X$pitch_type <- as.factor(X$pitch_type) X <- cbind(X[1], as.data.frame(scale(X[2:19]))) set.seed(1) indexes = sample(1:nrow(X), size = 0.7*nrow(X)) train = X[indexes,] te...

646 sym R (11953 sym/48 pcs)

크롤링 & 스크래핑

06.01.2020

웹 스크래핑 & 웹 크롤링 장성환 2019 웹 스크래핑과 웹 크롤링 1 웹 스크래핑(Web Scraping) 웹 사이트의 내용을 가져와 원하는 형태로 가공하는 것을 의미함. 어느 웹 사이트(주소)에서 어디의 정보를 가져올 것인 가를 먼저 정해야 함. 결국 해당 ‘웹 문서를 전체’�...

341 sym R (2105 sym/7 pcs)

형태소분석

06.01.2020

형태소분석 장성환 2018 8 형태소분석 1.1 자료 가져오기 (1) 뉴스샘플 데이터 활용 txt <- readLines("sample_news.txt") noun <- lapply(txt, extractNoun) noun ## [[1]] ## [1] "정부" "내수" "회복" ## [4] "하반기" "경제운용" "방향" ...

270 sym R (12885 sym/22 pcs) 1 img

감성분석

06.01.2020

감성분석 장성환 2018 9 1 감성분석 1.1 기사 가져오기 url <- "https://news.naver.com/main/ranking/read.nhn?mid=etc&sid1=111&rankingType=popular_day&oid=003&aid=0008737816&date=20180802&type=1&rankingSeq=8&rankingSectionId=100" page <- read_html(url) partMain <- page %>% html_nodes("#articleBodyContents") %>% html_text() Encod...

411 sym R (8881 sym/35 pcs) 1 img

Corpus

06.01.2020

Corpus in R 장성환 2018 8 2 1. Corpus ‘말뭉치’ R에서의 Corpus는 Content와 Meta를 가지는 특정한 형태의 텍스트데이터 뭉치 코퍼스 살펴보기 library(tm) ## Warning: package 'tm' was built under R version 3.5.1 ## Loading required package: NLP data("crude") summary("crude") ## Length Class Mode ...

1429 sym R (9126 sym/42 pcs)

워드클라우드 (2)

06.01.2020

wordcloud form Naver news 장성환 2018 8 워드클라우드 (2) 기사 긁어오기 & 워드클라우드 스포츠기사 가져옴 url <- "https://sports.news.naver.com/wfootball/news/read.nhn?oid=109&aid=0003834601" page <- read_html(url, encoding = "UTF-8") partMain <- page %>% html_nodes("#newsEndContents") %>% html_text() partMain ...

93 sym R (21637 sym/7 pcs) 1 img

워드클라우드 (1)

06.01.2020

wordcloud from twit 장성환 2018 8 워드 클라우딩(word clouding) 1.1 뉴스 샘플을 이용한 워드클라우딩 getwd() ## [1] "C:/Users/94tjd/data/rpubs/text function" library(RHINO) ## Loading required package: rJava initRhino() txt <- readLines("sample_news.txt") noun <- lapply(txt, getMorph, "noun") nounVec <- unlist(noun) nou...

236 sym R (20141 sym/19 pcs) 2 img

텍스트처리함수

29.12.2019

텍스트 처리함수 장성환 2018 8 1. 텍스트 처리 함수 1.1 기본 함수 1.1.1 nchar() 문자의 수를 세어준다 nchar("한국") ## [1] 2 nchar(c("Korea", "한국")) ## [1] 5 2 1.1.2 length() 원소의 수를 세어준다 length("한국") ## [1] 1 length(c("한국", "Korea")) ## [1] 2 1.1.3 substr() 문자열을 추출 ...

2861 sym R (6177 sym/108 pcs)

Unsupervised learning 2

29.12.2019

비지도학습 알고리즘2 장성환 2018 7 비지도학습 알고리즘 (2) 2 연관규칙 2.1 연관규칙 연관규칙과 장바구니 분석 어떤 일들이 함께 발새하는 지 판단 - 쇼핑카드 장바구니 분석 - 상품 진열, 상품 패키징 데이터로부터 규칙 생성 - 주말에 기저귀를 사면 맥주를 산�...

2388 sym R (12455 sym/82 pcs) 12 img

Tree / KNN / ANN

28.12.2019

지도학습 2 장성환 2018 7 2. 지도학습 알고리즘 2.1 의사결정나무 모형(Decision Tree) 의사결정나무 모형이란 특정 항목에 대한 의사결정규칙을 나무 형태로 분류해 나가는 분석 기법을 말한다. 조건문 형식을 가지는 것으로서 조건에 맞는지 여부에 따라 가지를 반복...

2646 sym R (15809 sym/84 pcs) 14 img