Publications by Nguyen Chi Dung
Data Imputation: A case from Kaggle Competition (Part 1)
Motivations Tiền xử lí số liệu (Pre-processing) là một khâu chiếm nhiều thời gian và công sức nhất. Một trong những vấn đề thường phải đối mặt ở bước này chính là xử lí số liệu trống (Missing Data Problem). Dữ liệu của cuộc thi Home Credit Default Risk cũng không ngoại lệ ...
10451 sym R (2894 sym/1 pcs)
Math Score Distribution by Ha Giang
Introduction Vụ gian lận thi cử trong năm 2018 đã được nhiều báo chí đưa tin (ví dụ, ở đây). Với dữ liệu có được và cũng chỉ bằng hình ảnh hóa dữ liệu chúng ta có thể có cơ sở để nghi ngờ rằng có gian lận, ví dụ, ở điểm thi môn Toán ở Hà Giang: Plot này chỉ ra r...
9399 sym R (3488 sym/3 pcs) 1 img
Why You Should Not Use Pie Chart
Statisticians generally regard pie charts as a poor method of displaying information, and they are uncommon in scientific literature. One reason is that it is more difficult for comparisons to be made between the size of items in a chart when area is used instead of length and when different items are shown as different shapes Motivations Pie Ch...
7710 sym R (1618 sym/1 pcs) 1 img
U.S. Unemployment
About the Plot You can see some Economist-style graphs here. By using R we can replicate one of these graphs as follows: R Codes R codes for this plot: # Clear workspace: rm(list = ls()) # Some colors have been used by The Economist: economistColors <- c("#7b2713", "#eb9e84", "#00a4dc", "#f15a40", "#00526d") my_colors1 <- c("#A8A9AD", "#5...
7426 sym R (4619 sym/1 pcs) 1 img
2019 Kaggle ML & DS Survey (Part 1)
Introduction This year Kaggle is launching the second annual Data Science Survey Challenge, where we will be awarding a prize pool of $30,000 to notebook authors who tell a rich story about a subset of the data science and machine learning community. Data and other information you can download here. Some Insights R Codes # Clear workspace: rm...
12793 sym R (8329 sym/1 pcs) 3 img
Recommendation System (Part 4)
Introduction Về Recommendation System và xây dựng Recommender trong các tình huống thường phát sinh trong thực tế (có ratings, không có ratings cũng như đánh giá hiệu quả của Recommender) các bạn có thể tham khảo Part 1, Part 2 và Part 3. Trong phần này chúng ta sẽ xây dựng Recommender Engine dự...
21432 sym R (7229 sym/26 pcs)
Bar Chart Race Animation
Bar Chart Race Animation R Codes for Bar Chart Race Animation: # https://medium.com/@korkmazarda1/creating-a-sliding-animated-bar-plot-with-python-and-r-2329f52f0269 # https://www.r-graph-gallery.com/288-animated-barplot-transition.html # https://github.com/corydonbaylor/barchart-race # https://dataatomic.com/r/ggplot2-waffle/ rm(list = ls()...
3611 sym R (2123 sym/1 pcs) 1 img
Streetmap of Ho Chi Minh City
Mapping Streetmap of Ho Chi Minh City # Load some packages: library(tidyverse) library(osmdata) library(extrafont) # Area that we want to collect spatial data: city_location <- "Ho Chi Minh city Vietnam" # OSM objects that we want to get spatial: all_street_types <- c("motorway", "primary", "secondary", "tertiary") secondary_stre...
3546 sym R (2055 sym/1 pcs) 1 img
Ages through Time and Space
R Codes # Clear R Environment: rm(list = ls()) # ARDESTINE font used in this post can be download from https://fontzone.net/download/ar-destine # Install and use external fonts in R: https://rpubs.com/chidungkt/392841 # Reference: https://twitter.com/hashtag/TidyTuesday?src=hashtag_click, # https://github.com/MaiaPelletier/tid...
7088 sym R (4372 sym/1 pcs) 1 img
Recommendation System (Part 2)
Our Challenges Trong post trước chúng ta đã làm quen với việc xây dựng một Recommender Engine từ khâu xử lí dữ liệu - chuẩn bị dữ liệu đến huấn luyện Recommender Engine. Là một case thuộc kiểu Toy Example nên bộ dữ liệu được lựa chọn một cách cố ý theo hướng đẹp và rất ...
19883 sym R (3309 sym/14 pcs) 1 img 3 tbl