Publications by CHUNJIE NAN

Seurat-Guided Clustering Tutorial

10.04.2024

This tutorial is only for practice purpose. This tutorial is from Satijalab - always thank you for sharing a great tool vignettes. Setup the seurat object The dataset of Peripheral Blood Mononuclear Cells(PBMC) freely available from 10X Genomics. There 2,700 single cell that were sequenced on the ILLumina NextSeq500. start by reading in the data....

7650 sym R (12657 sym/80 pcs) 14 img

Hands on Machine Learning with R - Chapter 5 Logistic Regression

16.01.2023

5.1 Prerequisites # Helper packages library(dplyr) # for data wrangling ## Warning: 패키지 'dplyr'는 R 버전 4.2.2에서 작성되었습니다 ## ## 다음의 패키지를 부착합니다: 'dplyr' ## The following objects are masked from 'package:stats': ## ## filter, lag ## The following objects are masked from 'package:base': ...

2114 sym R (36461 sym/70 pcs) 3 img

계층적,k-평균

25.01.2023

군집분석 군집분석: 각 개체에 대해 관측된 여러 개의 변수 값들로부터 n개의 개체를 유사한 성격을 가지는 몇 개의 군집으로 집단화하고, 형성된 군집들의 특석을 파악하여 군집들 사이의 관계를 분석하는 비지도 학습 기법이며 지식발견 그 자체 혹은 알려지지 �...

1026 sym R (3440 sym/15 pcs) 11 img

Chapter 6. 분류분석

27.10.2022

0.1 6.1 데이터 마이닝 0.2 6.1.1 데이터 마이니의 개념 데이터 마이닝은 대용량 데이터에서 쉽게 드러나지 않는 유용한 정보를 찾아내는 과정이다. 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법이라 할 수 있다. 통계 분석은 �...

123430 sym Python (49300 sym/384 pcs) 17 img

Chapter 7. 분류분석 모델 평가

28.10.2022

0.1 7.1 정오분류표 모델 평가의 기준은 크게 일반화의 가능성, 효율성, 예측과 분류의 정확성 으로 구분한다. 정오분류표: 분류자의 결정을 떼어내어 이 계층이 다른 계층과 어떻게 분류되는지를 명확히 보여준다. TP: 실제값과 예측값이 모두 TRUE인 빈도 TN: 실제값�...

42614 sym Python (29936 sym/159 pcs) 4 img

Chapter 8. 군집분석과 연관분석

31.10.2022

0.1 8.1 군집분석 계층적 군집분석은 전통적인 군집 방법으로 가장 유사한 개체를 군집해 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법이다. k-평균 군집분석은 주어진 군집 수(k)로 각 개체를 가까운 초기값에 할당하여 군집을 형성하고, 각 군집의 �...

38276 sym Python (22452 sym/132 pcs) 20 img

How to Estimate Accuracy of a Model in R

05.12.2022

When building a predictive model, you need a way to evaluate the capability of the model on unseen data. this typically done by estimating accuracy using data that was not used to train the model such as a test set or using cross validation. In this post, there are 5 approaches for estimating model performance on unseen data. There are as fol...

2382 sym R (6715 sym/21 pcs)

Hands on Machine Learning with R - Chapter 4 Linear Regression

10.01.2023

4.1 Prerequistes library(dplyr) ## Warning: 패키지 'dplyr'는 R 버전 4.2.2에서 작성되었습니다 ## ## 다음의 패키지를 부착합니다: 'dplyr' ## The following objects are masked from 'package:stats': ## ## filter, lag ## The following objects are masked from 'package:base': ## ## intersect, setdiff, setequal, u...

7798 sym R (13968 sym/77 pcs) 7 img

DATA 624 HW1

05.09.2020

Please submit exercises 2.1, 2.2, 2.3 and 2.6 from the Hyndman online Forecasting book. Please submit both your Rpubs link as well as attach the .rmd file with your code. 2.1 Use the help function to explore what the series gold, woolyrnq and gas represent. help(gold) # Daily morning gold prices in US dollars. 1 January 1985 – 31 March 1989. h...

3567 sym R (2839 sym/55 pcs) 31 img

DATA 624 HW3

21.09.2020

Do exercises 6.2 and 6.3 in the Hyndman book. Please submit your Rpubs link as well as your .rmd file with your code. 6.2 The plastics data set consists of the monthly sales (in thousands) of product A for a plastics manufacturer for five years. Plot the time series of sales of product A. Can you identify seasonal fluctuations and/or a trend-cy...

1583 sym R (6411 sym/29 pcs) 10 img