Publications by Nguyen Chi Dung
Mastering Apache Spark with R (Chapter 2)
Prerequisites Để sử dụng được Apache Spark cần cài đặt: Cài đặt Java JDK. R + R Studio. Thư viện sparklyr. Sau khi cài đặt xong kiểm tra một số thông tin về phiên bản: library(sparklyr) spark_installed_versions() ## spark hadoop dir ## 1 2.4...
9478 sym R (2973 sym/23 pcs) 2 img
Alcohol Project: VHLSS Data from GSO
Common Household Codes from 2016 to 2012 Nếu sử dụng Panel Data thì việc xác định mỗi một cá thể (hộ gia đình hay doanh nghiệp) từ năm này qua năm khác là quan trọng. Điều này đã được giải thích với R Codes tại đây. Nhắc lại rằng mỗi một hộ gia đình có ID được hình thành t...
16413 sym R (5698 sym/10 pcs)
The urban-rual gap in expenditure for health care by household, VHLSS 2018
Data pre-processing and Visualization # Clear R environment: rm(list = ls()) # Load some R packages (download from https://www.mediafire.com/file/ojayuymg68eraei/HO1_remove_some_columns.dta/file): library(dplyr) library(stringr) library(haven) #========================================== # Data set: HO1_remove_some_columns.dta #=====...
9419 sym R (6394 sym/1 pcs) 2 img
Quantitative Finance: Compare Portfolio Performance using Backtesting
R Codes and Results #============================== # Portfolio Backtesting #============================== #-------------------- # Prepare data #-------------------- # Clear workspace: rm(list = ls()) # Collect price data from Yahoo: symbols <- c("FB", "AMZN", "NFLX", "GOOG", "^IXIC") # Note that ^IXIC is NASDAQ Composite. ...
8015 sym R (4093 sym/2 pcs) 1 tbl
Household Investment and Income: Some Insights from VHLSS 2018
Introduction Bộ số liệu VHLSS (Household Living Standards Survey) được GSO - cơ quan thống kê quốc gia của Việt Nam tiến hành khảo sát cứ mỗi hai năm một lần. Gần đây nhất là năm 2018 gồm 44 files dữ liệu (đuôi là .dta của phần mềm Stata, tham khảo thêm thông tin về VHLSS 2018 tại ...
21296 sym R (6682 sym/13 pcs) 1 img 4 tbl
Gaps in Household Income From VHLSS 2018
Introduction Post trước cho thấy Đà Nẵng là tỉnh có thu nhập trung vị hộ gia đình cao nhất nước (450 triệu). Kết quả đó được tính toán dựa vào biến thunhap từ bộ dữ liệu HO3.dta: Theo dữ liệu ở bảng này thì hộ ở tinh = 96, huyen = 973, xa = 32239 , diaban = 19, hoso = 1 xuất hi...
15472 sym R (5636 sym/6 pcs) 2 img 1 tbl
Prepare Panel Data for Econometric Analysis from VHLSS
Introduction Panel Data là form dữ liệu thường được sử dụng trong nhiều phân tích và nghiên cứu. Tuy vậy, việc xử lí - chuẩn bị (Data Pre-processing) dữ liệu cho các mô hình phân tích sử dụng Panel Data có thể gây bối rối và lúng túng. Post này hướng dẫn việc khai thác, chuẩn b...
17898 sym R (6438 sym/15 pcs) 1 img 3 tbl
Data Wrangling: A Real-World Case
Introduction Bài giảng này giới thiệu một số hàm cơ bản của thư viện dplyr cho mục đích làm sạch - chuẩn bị dữ liệu. Các hàm cơ bản này cover hầu hết các tình huống thường gặp trong thực tế về làm sạch và chuẩn bị dữ liệu với một bộ dữ liệu từ Department of Healt...
14157 sym R (14900 sym/113 pcs) 2 img
Convolutional Neural Network (CNN) for Predicting Patients Infected Covid 19 from CT Scan Image
Motivation and Problem Cuộc thi VinBigData Chest X-ray Abnormalities Detection của Vingroup Big Data Institute với dữ liệu scan có dung lượng (đã nén) là hơn 200 GB. Khối dữ liệu này nằm ngoài khả năng của con máy Dell Precision T5610 chỉ với 64 GB RAM. Do vậy trong post này sử dụng bộ dữ liệu t...
11825 sym R (7912 sym/10 pcs) 3 img
Florence Nightingale’s Data On Deaths From Various Causes In The Crimean War (Updated Version)
Introduction In the history of data visualization, Florence Nightingale’s Rose Diagram has become one of the most famous data visualizations ever created. The story behind this diagram is fascinating. After witnessing deplorable sanitary conditions in the Crimea War, she wrote several influential texts (Nightingale, 1858, 1859), including polar...
11666 sym R (2584 sym/1 pcs) 3 img