Publications by Shin Lee
ATA W7-2
Learnig Objectives Understand the task of supervised machine learning, and learn about feature representation. Learn about the way in which textual data are applied to machine learning algorithms. Introduce tidy data principles and see how to make data tidy with the functions from the magrittr and dplyr packages. See how the tidytext package app...
3348 sym R (41741 sym/60 pcs) 1 img
DM_BD_W6
뉴스기사 분석 예시 질문: 코로나 백신과 관련한 뉴스보도에서 중요하게 다뤄지는 의제 혹은 이슈는 무엇인가? 방법: “코로나 백신” 관련 뉴스기사를 수집한 후 헤드라인에서 자주 등장하는 단어들을 추출하여 내용을 분석한다. 텍스트 전처리 태그 혹은 머�...
4347 sym R (52837 sym/144 pcs) 4 img
ATA W7-1
Learnig Objectives Understand the task of supervised machine learning, and learn about feature representation Learn about the way in which textual data are applied to machine learning algorithms Introduce tidy data principles and see how to make data tidy with the functions from the magrittr and dplyr packages. See how the tidytext package appli...
11098 sym R (19906 sym/37 pcs) 1 img 3 tbl
ITM: Week6
텍스트 처리 HTML, URL, etc.. 토큰화 (띄어쓰기, 구두점 등) 불용어 제거 표준화 (stemming, lemmatization) POS tagging (형태소 분석), Named Entity Recognition (NER) Zipf’s law, TF-IDF 빅카인즈 데이터 전처리 예시 데이터 프레임 구조화 수집한 뉴스기사를 분석을 위한 데이터 프레임�...
3881 sym R (37074 sym/138 pcs) 2 img
ATA W6-2
Ch 5: Basic Text Processing Learning Goals Understand some of the basic text processing steps such as tokenization, stop word removal, stemming, and lemmatization Basic Text (Pre-)Processing Automated text analysis always requires some form of text processing. Consider the following example of a tweet: Today’s the day, ladies and gents. Mr. ...
5781 sym
ATA W6-1
Character classes Regex provides another useful constructs called character classes that are used to match a certain class of characters. The most common character classes in most regex engines are: Character Matches Same as \\d any digit [0-9] \\D any nondigit [^0-9] \\w any character considered part of a word including the underscore charac...
2251 sym R (1140 sym/16 pcs) 5 tbl
DM_BD_W5
연구계획서 작성 주장 - 원인과 결과 근거 - 이론과 방법 8주차 수업 시간에 학생 개인은 자신의 연구 프로젝트를 수행하기 위한 계획서를 작성하여 제출하고 (5장 내외) 이에 대한 발표를 진행합니다. 연구계획서의 구성은 다음과 같습니다. 서론: 프로젝트 연구�...
6342 sym R (51647 sym/127 pcs) 3 img
ITM: Week5
코퍼스 과제 7주차 수업 전까지 한 학기 동안 분석할 언어 (한국어 또는 영어) 코퍼스를 구성하여 데이터 처리 할 수 있도록 구조화 후 요약과 함께 제출합니다. 연구계획서 작성 주장 - 원인과 결과 근거 - 이론과 방법 8주차 수업 시간에 학생 개인은 자신의 연구...
6242 sym R (22136 sym/107 pcs) 4 img
ATA-W5-1-2
Ch. 4: Lexical Resources Learning Objectives Learn about the representation and content of two lexical resources, LIWC and Bing Learn about how to tokenize texts into words using the stringr package Learn about what regex is and how it is used for tokenization What is a lexicon resource Lexical resource is a collection of lexical items such as...
10728 sym R (1509 sym/8 pcs)
ITM: Week4
CSV 데이터 데이터 프레임 빅카인즈에서 CSV 형태의 뉴스 데이터를 불러온다. # 코로나 백신 관련 뉴스: 키워드 검색 - "코로나" & "백신" # 중앙지, 지역종합지, 방송사 # 지난 6개월 기간 # 제목에 키워드 포함 # 중복 기사 제거 (분석제외) # 엑셀파일 다운로드 �...
12175 sym R (77395 sym/202 pcs) 1 img 4 tbl