Publications by Shin Lee
ITM: Week9
텍스트 데이터를 이용한 지도기계학습? 텍스트 문서 차원의 특성(종속 변인)을 텍스트 내용의 특성(독립 변인)으로 예측하는 방법 예) 뉴스 기사의 편향성을 텍스트의 특성으로 분류: 어떤 언론사의 기사인지 표식되어 있는 자료에서 공통적으로 발견되는 어휘들�...
5885 sym R (958301 sym/102 pcs) 8 img
ATA W9-2
library(dplyr) library(textdata) # AFINN lexicon uses the `value` feature ## Number of words by value lexicon_afinn() %>% count(value) ## # A tibble: 11 x 2 ## value n ## * <dbl> <int> ## 1 -5 16 ## 2 -4 43 ## 3 -3 264 ## 4 -2 966 ## 5 -1 309 ## 6 0 1 ## 7 1 208 ## 8 ...
1093 sym R (14516 sym/73 pcs) 10 img
DM_BD_W7
뉴스기사 분석 예시 질문: 코로나 백신과 관련한 뉴스보도에서 중요하게 다뤄지는 의제 혹은 이슈는 무엇인가? 방법: “코로나 백신” 관련 뉴스기사를 수집한 후 헤드라인에서 자주 등장하는 단어들을 추출하여 내용을 분석한다. 데이터 프레임 이용하기 빅카�...
2976 sym R (26572 sym/105 pcs) 10 img
ATA W9-1
Ch14. Sentiment Analysis Learning Objectives Understand the tasks of subjectivity and sentiment analysis Learn about resources for subjectivity and sentiment analysis, specifically addressing lexicon-based sentiment analysis Learn about tidy text approach to lexicon-based sentiment analysis What is Sentiment Analysis? Sentiment analysis is the...
8328 sym 1 img
ATA: W10-1
Ch11. Text Classification Learning Objectives Understand the task of text classification and learn about its applications Learn about a basic automated way of text classification Practice the lexicon-based analysis for sentiment classification of COVID-19 Tweets The Logic of Text Classification Text classification refers to the task of assigni...
6470 sym 2 img
ATA: W10-2
R Practice for Tweet Sentiment Classification Lexicon-based Sentiment Analysis II library(dplyr) library(tidytext) text <- data_frame(id = c(1,2,3,4,5,6,7,8,9), word = c("holiday","makes","me","happy","but","this","song","is","sad")) ## Warning: `data_frame()` was deprecated in tibble 1.1.0. ## Please use `tibble()` inst...
4056 sym R (143333 sym/114 pcs) 15 img
DM_BD_W9
데이터 불러오기 library(readxl) cv <- read_excel("bigkinds_corona_vaccine.xlsx", sheet = 1) 데이터 준비하기 library(tidyverse) ## -- Attaching packages --------------------------------------- tidyverse 1.3.0 -- ## √ ggplot2 3.3.3 √ purrr 0.3.4 ## √ tibble 3.1.0 √ dplyr 1.0.4 ## √ tidyr 1.1.2 √ stri...
1523 sym R (29444 sym/83 pcs) 4 img
ATA-W12
Information extraction by counting the words Last time, we practiced with R to map the frequency of tweets into the U.S. But doing so does not allow us to know what is being discussed on Twitter in the country. So today we are going to learn about how to reveal what’s being said importantly among tweets posted in the U.S. So we want to examine ...
10285 sym R (18133 sym/54 pcs) 3 img
ITM: Week10
Text Classification Workflow Problem Identification Corpus Preparation Labeled Outcome Data Cleaning Exploratory data analysis with tidy data Vector Representation (DFM) Feature Engineering (tf-idf weighting, trimming, Distributed representation) Choosing an machine learning algorithm Split into training and test data sets Training, validation, ...
6532 sym R (2855458 sym/74 pcs) 14 img
DM_BD_W12
의미 연결망 분석 <출처: 김영우, “Do it! 쉽게 배우는 R 텍스트 마이닝”, 2021, 이지스퍼블리싱> 단어의 의미는 문장에 함께 사용된 단어에 따라 달라집니다. 단어의 빈도를 분석하면 중요한 단어가 무엇인지는 알 수 있지만, 단어가 어떤 맥락에서 사용됐는지는 알 ...
2677 sym R (11881 sym/49 pcs) 4 img