Publications by Shin Lee

ATA W4-1

22.03.2021

R Base Functions for Text Pre-Processing Text mining begins with understanding text data in natural language. It is the act of pre-processing text into data that are appropriate to analysis. Today, we will see how R can be used for text pre-processing. However, we will not install any package for text analysis, nothing but a couple of ones for pr...

3593 sym R (52626 sym/87 pcs) 1 img

ATA W3-2

17.03.2021

Before we start… Please be noted that you will work with R Markdown documents. R Markdown consists of three parts: 1) contents; 2) codes; 3) outputs (results). First, the content parts describe what you are learning about and asked to work on. Second, the code parts are in grey boxes and are what you can enter in the source window of RStudio. T...

3234 sym R (8374 sym/115 pcs)

DM_BD_W2

15.03.2021

사회과학적 빅데이터 연구란? 전통적 양적연구방법 설문조사 실험 내용분석 디지털 시대의 새로운 기회들 디지털 기술과 기기 확산 정보의 기록과 축적 정보의 수집, 처리, 분석 기술의 발전과 쉬운 접근성 빅데이터 방법론 디지털 미디어 / 인터넷을 도구로 �...

3970 sym R (5993 sym/96 pcs) 2 img

2021-ITM-W2

10.03.2021

R에서 프로젝트 사용하기 RStudio 프로젝트를 사용하면 작업 공간과 문서를 쉽게 관리 할 수 있습니다. 프로젝트 만들기 RStudio 프로젝트는 R 작업 디렉토리와 연결됩니다. RStudio 프로젝트를 다음과 같은 곳에 만들 수 있습니다. 새로운 디렉토리에서 또는 이미 R 코�...

3518 sym R (5330 sym/90 pcs) 3 img

ITM: Week3

17.03.2021

사회과학 연구를 위한 텍스트 마이닝 목표: 이론에 대한 추론 이끌어 내기 개인과 사회(공동체)에 대한 데이터에서 특정 패턴을 발견하기 추론이란 데이터로부터의 결론이 어떻게 그리고 왜 합당한지를 보여주는 것 데이터 분석을 통해 사회적 현상들 간의 연관�...

4365 sym R (25155 sym/112 pcs) 3 img

DM_BD_W3

22.03.2021

R 객체는 문자열로도 지정될 수 있다. class <- "text mining" print(class) ## [1] "text mining" class = "digital media" # R is an object-oriented programming language; everything can be assinged to an object fruits <- c("Apple","Grape","Pear","Apple","Mango","Orange","Mango","Strawberry","Grape","Apple") fruits ## [1] "Apple" ...

2918 sym R (2329680 sym/50 pcs) 4 img 1 tbl

ATA W4-2

23.03.2021

Characters and Strings A character vector is a collection of characters (e.g. letters/symbols). A typical use is to store letter or words as a character vector, such as CV1 <- c("T","e","x","t") But a piece of text can be also represented as a sequence of characters (letters, numbers, and symbols): CV2 <- c("Text","mining","is","interesting!")...

2602 sym R (3533 sym/8 pcs) 1 tbl

DM_BD_W4

29.03.2021

문자열 데이터를 다루기 위한 기본적인 R 사용 방법 R은 통계 프로그래밍 언어이다. # Simple addition and subtraction 10+5 ## [1] 15 10-5 ## [1] 5 # Creating vectors: A sequence of numbers/integers, characters, Booleans c(1, 3, 5) # Join elements into a vector ## [1] 1 3 5 1:5 # An integer sequence ## [1] 1 2 3 4 5...

947 sym R (7616 sym/78 pcs) 3 img

ATA W5-1-1

29.03.2021

Basic String Operations The package stringr provides functions for both 1) basic manipulations and 2) regular expression operations. First, we are going to cover those functions that have to do with basic manipulations. The following table shows some stringr functions for basic string operations: Function Description Similar Base Functions str_...

1916 sym R (11211 sym/31 pcs) 1 tbl

ATA-W5-2

29.03.2021

Metacharacters Now, we are going to learn about metacharacters. The most basic type of regex is the literal characters that match themselves. But not all characters match themselves. Any character that does not match itself is a metacharacter. This type of characters has a special meaning and they allow us to transform literal characters in very ...

10759 sym R (3129 sym/40 pcs) 5 tbl