Publications by Nguyen Chi Dung
Data Pre-processing: Case of VES (Vietnam Enterprise Survey)
Our Problem Tiền xử lí số liệu (Data Pre-processing) là một khâu mất nhiều thời gian. Post này sử dụng bộ dữ liệu VES - Vietnam Enterprise Survey (download tại đây). Giải nén và đọc bộ dữ liệu này: #=================================================================== # Data Processing Project with ...
15487 sym R (5155 sym/28 pcs) 2 img 7 tbl
Population Pyramids of Vietnam in 1999 (Minnesota Population Center)
R Codes #=========================== # Pepare data for ploting #=========================== # Import Data: rm(list = ls()) library(readstata13) read.dta13("ipumsi_00002.dta") -> ipumsi_raw # The dataset of 2368167 observations and 92 columns. # Prepare data for ploting: library(tidyverse) ipumsi_raw %>% mutate_if(is.facto...
6634 sym R (4380 sym/1 pcs) 1 img
Mastering Apache Spark with R (Chapter 2)
Prerequisites Để sử dụng được Apache Spark cần cài đặt: Cài đặt Java JDK. R + R Studio. Thư viện sparklyr. Sau khi cài đặt xong kiểm tra một số thông tin về phiên bản: library(sparklyr) spark_installed_versions() ## spark hadoop dir ## 1 2.4...
9478 sym R (2973 sym/23 pcs) 2 img
Alcohol Project: VHLSS Data from GSO
Common Household Codes from 2016 to 2012 Nếu sử dụng Panel Data thì việc xác định mỗi một cá thể (hộ gia đình hay doanh nghiệp) từ năm này qua năm khác là quan trọng. Điều này đã được giải thích với R Codes tại đây. Nhắc lại rằng mỗi một hộ gia đình có ID được hình thành t...
16413 sym R (5698 sym/10 pcs)
The urban-rual gap in expenditure for health care by household, VHLSS 2018
Data pre-processing and Visualization # Clear R environment: rm(list = ls()) # Load some R packages (download from https://www.mediafire.com/file/ojayuymg68eraei/HO1_remove_some_columns.dta/file): library(dplyr) library(stringr) library(haven) #========================================== # Data set: HO1_remove_some_columns.dta #=====...
9419 sym R (6394 sym/1 pcs) 2 img
Quantitative Finance: Compare Portfolio Performance using Backtesting
R Codes and Results #============================== # Portfolio Backtesting #============================== #-------------------- # Prepare data #-------------------- # Clear workspace: rm(list = ls()) # Collect price data from Yahoo: symbols <- c("FB", "AMZN", "NFLX", "GOOG", "^IXIC") # Note that ^IXIC is NASDAQ Composite. ...
8015 sym R (4093 sym/2 pcs) 1 tbl
Household Investment and Income: Some Insights from VHLSS 2018
Introduction Bộ số liệu VHLSS (Household Living Standards Survey) được GSO - cơ quan thống kê quốc gia của Việt Nam tiến hành khảo sát cứ mỗi hai năm một lần. Gần đây nhất là năm 2018 gồm 44 files dữ liệu (đuôi là .dta của phần mềm Stata, tham khảo thêm thông tin về VHLSS 2018 tại ...
21296 sym R (6682 sym/13 pcs) 1 img 4 tbl
Gaps in Household Income From VHLSS 2018
Introduction Post trước cho thấy Đà Nẵng là tỉnh có thu nhập trung vị hộ gia đình cao nhất nước (450 triệu). Kết quả đó được tính toán dựa vào biến thunhap từ bộ dữ liệu HO3.dta: Theo dữ liệu ở bảng này thì hộ ở tinh = 96, huyen = 973, xa = 32239 , diaban = 19, hoso = 1 xuất hi...
15472 sym R (5636 sym/6 pcs) 2 img 1 tbl
Prepare Panel Data for Econometric Analysis from VHLSS
Introduction Panel Data là form dữ liệu thường được sử dụng trong nhiều phân tích và nghiên cứu. Tuy vậy, việc xử lí - chuẩn bị (Data Pre-processing) dữ liệu cho các mô hình phân tích sử dụng Panel Data có thể gây bối rối và lúng túng. Post này hướng dẫn việc khai thác, chuẩn b...
17898 sym R (6438 sym/15 pcs) 1 img 3 tbl
Data Wrangling: A Real-World Case
Introduction Bài giảng này giới thiệu một số hàm cơ bản của thư viện dplyr cho mục đích làm sạch - chuẩn bị dữ liệu. Các hàm cơ bản này cover hầu hết các tình huống thường gặp trong thực tế về làm sạch và chuẩn bị dữ liệu với một bộ dữ liệu từ Department of Healt...
14157 sym R (14900 sym/113 pcs) 2 img