Publications by 장성환
구종분류
1 분류 1.1 자료준비 정규시즌 구종 데이터 # savant_t_all.csv PitchSample <- read.csv(file.choose(), header = T, stringsAsFactors = F) X <- PitchSample X$pitch_type <- as.factor(X$pitch_type) X <- cbind(X[1], as.data.frame(scale(X[2:19]))) set.seed(1) indexes = sample(1:nrow(X), size = 0.7*nrow(X)) train = X[indexes,] te...
646 sym R (11953 sym/48 pcs)
크롤링 & 스크래핑
웹 스크래핑 & 웹 크롤링 장성환 2019 웹 스크래핑과 웹 크롤링 1 웹 스크래핑(Web Scraping) 웹 사이트의 내용을 가져와 원하는 형태로 가공하는 것을 의미함. 어느 웹 사이트(주소)에서 어디의 정보를 가져올 것인 가를 먼저 정해야 함. 결국 해당 ‘웹 문서를 전체’�...
341 sym R (2105 sym/7 pcs)
형태소분석
형태소분석 장성환 2018 8 형태소분석 1.1 자료 가져오기 (1) 뉴스샘플 데이터 활용 txt <- readLines("sample_news.txt") noun <- lapply(txt, extractNoun) noun ## [[1]] ## [1] "정부" "내수" "회복" ## [4] "하반기" "경제운용" "방향" ...
270 sym R (12885 sym/22 pcs) 1 img
감성분석
감성분석 장성환 2018 9 1 감성분석 1.1 기사 가져오기 url <- "https://news.naver.com/main/ranking/read.nhn?mid=etc&sid1=111&rankingType=popular_day&oid=003&aid=0008737816&date=20180802&type=1&rankingSeq=8&rankingSectionId=100" page <- read_html(url) partMain <- page %>% html_nodes("#articleBodyContents") %>% html_text() Encod...
411 sym R (8881 sym/35 pcs) 1 img
Corpus
Corpus in R 장성환 2018 8 2 1. Corpus ‘말뭉치’ R에서의 Corpus는 Content와 Meta를 가지는 특정한 형태의 텍스트데이터 뭉치 코퍼스 살펴보기 library(tm) ## Warning: package 'tm' was built under R version 3.5.1 ## Loading required package: NLP data("crude") summary("crude") ## Length Class Mode ...
1429 sym R (9126 sym/42 pcs)
워드클라우드 (2)
wordcloud form Naver news 장성환 2018 8 워드클라우드 (2) 기사 긁어오기 & 워드클라우드 스포츠기사 가져옴 url <- "https://sports.news.naver.com/wfootball/news/read.nhn?oid=109&aid=0003834601" page <- read_html(url, encoding = "UTF-8") partMain <- page %>% html_nodes("#newsEndContents") %>% html_text() partMain ...
93 sym R (21637 sym/7 pcs) 1 img
워드클라우드 (1)
wordcloud from twit 장성환 2018 8 워드 클라우딩(word clouding) 1.1 뉴스 샘플을 이용한 워드클라우딩 getwd() ## [1] "C:/Users/94tjd/data/rpubs/text function" library(RHINO) ## Loading required package: rJava initRhino() txt <- readLines("sample_news.txt") noun <- lapply(txt, getMorph, "noun") nounVec <- unlist(noun) nou...
236 sym R (20141 sym/19 pcs) 2 img
텍스트처리함수
텍스트 처리함수 장성환 2018 8 1. 텍스트 처리 함수 1.1 기본 함수 1.1.1 nchar() 문자의 수를 세어준다 nchar("한국") ## [1] 2 nchar(c("Korea", "한국")) ## [1] 5 2 1.1.2 length() 원소의 수를 세어준다 length("한국") ## [1] 1 length(c("한국", "Korea")) ## [1] 2 1.1.3 substr() 문자열을 추출 ...
2861 sym R (6177 sym/108 pcs)
Unsupervised learning 2
비지도학습 알고리즘2 장성환 2018 7 비지도학습 알고리즘 (2) 2 연관규칙 2.1 연관규칙 연관규칙과 장바구니 분석 어떤 일들이 함께 발새하는 지 판단 - 쇼핑카드 장바구니 분석 - 상품 진열, 상품 패키징 데이터로부터 규칙 생성 - 주말에 기저귀를 사면 맥주를 산�...
2388 sym R (12455 sym/82 pcs) 12 img
Tree / KNN / ANN
지도학습 2 장성환 2018 7 2. 지도학습 알고리즘 2.1 의사결정나무 모형(Decision Tree) 의사결정나무 모형이란 특정 항목에 대한 의사결정규칙을 나무 형태로 분류해 나가는 분석 기법을 말한다. 조건문 형식을 가지는 것으로서 조건에 맞는지 여부에 따라 가지를 반복...
2646 sym R (15809 sym/84 pcs) 14 img