Publications by Nguyen Chi Dung

Data Imputation: A case from Kaggle Competition (Part 1)

21.04.2020

Motivations Tiền xử lí số liệu (Pre-processing) là một khâu chiếm nhiều thời gian và công sức nhất. Một trong những vấn đề thường phải đối mặt ở bước này chính là xử lí số liệu trống (Missing Data Problem). Dữ liệu của cuộc thi Home Credit Default Risk cũng không ngoại lệ ...

10451 sym R (2894 sym/1 pcs)

Math Score Distribution by Ha Giang

09.06.2020

Introduction Vụ gian lận thi cử trong năm 2018 đã được nhiều báo chí đưa tin (ví dụ, ở đây). Với dữ liệu có được và cũng chỉ bằng hình ảnh hóa dữ liệu chúng ta có thể có cơ sở để nghi ngờ rằng có gian lận, ví dụ, ở điểm thi môn Toán ở Hà Giang: Plot này chỉ ra r...

9399 sym R (3488 sym/3 pcs) 1 img

Why You Should Not Use Pie Chart

06.08.2020

Statisticians generally regard pie charts as a poor method of displaying information, and they are uncommon in scientific literature. One reason is that it is more difficult for comparisons to be made between the size of items in a chart when area is used instead of length and when different items are shown as different shapes Motivations Pie Ch...

7710 sym R (1618 sym/1 pcs) 1 img

U.S. Unemployment

01.08.2020

About the Plot You can see some Economist-style graphs here. By using R we can replicate one of these graphs as follows: R Codes R codes for this plot: # Clear workspace: rm(list = ls()) # Some colors have been used by The Economist: economistColors <- c("#7b2713", "#eb9e84", "#00a4dc", "#f15a40", "#00526d") my_colors1 <- c("#A8A9AD", "#5...

7426 sym R (4619 sym/1 pcs) 1 img

2019 Kaggle ML & DS Survey (Part 1)

31.07.2020

Introduction This year Kaggle is launching the second annual Data Science Survey Challenge, where we will be awarding a prize pool of $30,000 to notebook authors who tell a rich story about a subset of the data science and machine learning community. Data and other information you can download here. Some Insights R Codes # Clear workspace: rm...

12793 sym R (8329 sym/1 pcs) 3 img

Recommendation System (Part 4)

22.07.2020

Introduction Về Recommendation System và xây dựng Recommender trong các tình huống thường phát sinh trong thực tế (có ratings, không có ratings cũng như đánh giá hiệu quả của Recommender) các bạn có thể tham khảo Part 1, Part 2 và Part 3. Trong phần này chúng ta sẽ xây dựng Recommender Engine dự...

21432 sym R (7229 sym/26 pcs)

Bar Chart Race Animation

17.07.2020

Bar Chart Race Animation R Codes for Bar Chart Race Animation: # https://medium.com/@korkmazarda1/creating-a-sliding-animated-bar-plot-with-python-and-r-2329f52f0269 # https://www.r-graph-gallery.com/288-animated-barplot-transition.html # https://github.com/corydonbaylor/barchart-race # https://dataatomic.com/r/ggplot2-waffle/ rm(list = ls()...

3611 sym R (2123 sym/1 pcs) 1 img

Streetmap of Ho Chi Minh City

17.07.2020

Mapping Streetmap of Ho Chi Minh City # Load some packages: library(tidyverse) library(osmdata) library(extrafont) # Area that we want to collect spatial data: city_location <- "Ho Chi Minh city Vietnam" # OSM objects that we want to get spatial: all_street_types <- c("motorway", "primary", "secondary", "tertiary") secondary_stre...

3546 sym R (2055 sym/1 pcs) 1 img

Ages through Time and Space

16.07.2020

R Codes # Clear R Environment: rm(list = ls()) # ARDESTINE font used in this post can be download from https://fontzone.net/download/ar-destine # Install and use external fonts in R: https://rpubs.com/chidungkt/392841 # Reference: https://twitter.com/hashtag/TidyTuesday?src=hashtag_click, # https://github.com/MaiaPelletier/tid...

7088 sym R (4372 sym/1 pcs) 1 img

Recommendation System (Part 2)

13.07.2020

Our Challenges Trong post trước chúng ta đã làm quen với việc xây dựng một Recommender Engine từ khâu xử lí dữ liệu - chuẩn bị dữ liệu đến huấn luyện Recommender Engine. Là một case thuộc kiểu Toy Example nên bộ dữ liệu được lựa chọn một cách cố ý theo hướng đẹp và rất ...

19883 sym R (3309 sym/14 pcs) 1 img 3 tbl