Publications by Nguyen Chi Dung
Visualize Likert Scales
Motivations Likert Scales (còn gọi là thang đo Likert hay Likert Data) là loại dữ liệu thuộc kiểu Ordinal data. Đây là kiểu dữ liệu định tính có thứ bậc và do vậy hình ảnh hóa loại dữ liệu cũng cần phải được điều chỉnh theo thứ bậc để truyền tải insight sao cho người tiế...
9343 sym R (4061 sym/1 pcs) 1 img
Recommendation System (Part 1)
Introduction to Collaborative Filtering Recommender Hệ thống khuyến nghị (Recommendation System) là một Engine được sử dụng phổ biến ở nhiều công ti thương mại điện tử. Collaborative Filtering Recommender (CFR) là một cách tiếp cận (mô hình) dựa trên dữ liệu lịch sử về hành vi mua sắm...
28551 sym R (7953 sym/32 pcs) 7 img 4 tbl
Recommendation System (Part 3)
Different Types of Recommenders Các hệ thống khuyến nghị (Recommendation System / Recommender) được xây dựng dựa trên ba hướng tiếp cận dưới đây: Collaborative Filtering Content-Based Filtering Hybrid Recommendation Systems Collaborative Filtering (CF) là hướng tiếp cận mà chỉ dựa vào dữ liệu v�...
28894 sym R (9165 sym/26 pcs) 2 tbl
Misleading Charts by The Economist and Correction
Motivations Motivation 1. Mỗi tuần The Economist tạo ra chừng 40 graphs khác nhau cho các bài báo. Data visualization được sử dụng để đưa ra insight/fact tiềm ẩn trong dữ liệu. Bất cứ graph nào mà thất bại trong nhiệm vụ này như đưa ra các thông tin gây hiểu lầm, hiểu sai (misleading/con...
11692 sym R (4194 sym/1 pcs) 2 img
Benford law as a feature engineering technique for Machine Learning Models
Benford law Nếu chúng ta gặp câu hỏi “Tần suất xuất hiện các chữ số từ 1 đến 9 tại vị trí chữ số đầu tiên của bộ dữ liệu về thu nhập cá nhân của 9 triệu người là bao nhiêu?” thì chúng ta dễ bị lôi kéo bởi ý tưởng rằng tần suất đó tuân theo Uniform Distributio...
33793 sym R (10753 sym/18 pcs) 8 img
Crawl Data from Vietnam Job Websites
From timviecnhanh.com #======================================= # Collect data from timviecnhanh.com #======================================= rm(list = ls()) # Clear workspace. library(rvest) library(tidyverse) library(lubridate) library(stringi) # Helper function: read_html_NE <- function(x) { Page.src <- try(read_html(x), sil...
16507 sym R (11730 sym/3 pcs)
Understand ROC Curve and Search Threshold that maximizes Profit
Introduction I will write something … rm(list = ls()) library(tidyverse) # Load data: hmeq <- read_csv("http://www.creditriskanalytics.net/uploads/1/9/5/1/19511601/hmeq.csv") # Convert to factor for categorical columns and remove missing cases: hmeq_full <- hmeq %>% na.omit() %>% mutate_if(is.character, as.factor) # Split da...
10609 sym R (9409 sym/17 pcs) 3 img
Effect of Hyperparameter Optimization on Profit (Python)
Motivations Hầu hết các thuật toán học máy đều hướng đến tối ưu một tiêu chuẩn kiểu như ROC-AUC, Recall. Những tiêu chuẩn này có thể chưa phù hợp với mục tiêu mà hầu hết các tổ chức hoạt động vì lợi nhuận theo đuổi là Lợi Nhuận. Câu hỏi ở đây là quá trình tối...
9691 sym R (4961 sym/1 pcs) 1 img
Effect of AUC on maximum profit (Python)
Motivations Trong post trước chúng ta đã so sánh và khảo sát vai trò của tiêu chuẩn AUC như là một điều kiện cần của việc lựa chọn mô hình phù hợp gắn liền với mục tiêu của các tổ chức hoạt động vì lợi nhuận như Ngân Hàng. Trong post này chúng ta sẽ tìm hiểu tác động...
15580 sym R (9295 sym/3 pcs) 2 img
Profit Criterion for selecting Machine Learning Classifier (Python)
Motivations Tinh chỉnh các tham số để tối ưu hóa một tiêu chuẩn truyền thống (ROC-AUC, Recall), lựa chọn các mô hình thì nên dựa vào các tiêu chuẩn này hay chúng chỉ đóng vai trò tham khảo mà thôi? Thử nghiệm dưới đây sẽ làm sáng tỏ một phần nhằm tìm kiếm câu trả lời th�...
12174 sym R (4871 sym/3 pcs) 1 img