Publications by 東京国際大学 データサイエンス教育研究所 竹田 恒

Google マップ

24.10.2023

1 キャパス所在地(緯度・経度)データ d <- read.csv(file = 'https://stats.dip.jp/01_ds/data/campus_location_TIU.csv') library(DT) datatable(d) 次のようにRチャンクのヘッダーで地図のサイズを指定できる。 {r, fig.height = 4, fig.width = 8} 2 GoogleMap #install.packages('leaflet') library(leaflet) l...

208 sym R (396 sym/3 pcs)

Google マップ

23.10.2023

1 キャパス所在地(緯度・経度)データ d <- read.csv(file = 'https://stats.dip.jp/01_ds/data/campus_location_TIU.csv') library(DT) datatable(d) 次のようにRチャンクのヘッダーで地図のサイズを指定できる。 {r, fig.height = 4, fig.width = 8} 2 GoogleMap #install.packages('leaflet') library(leaflet) l...

208 sym R (396 sym/3 pcs)

データクレンジング2

23.10.2023

次のダーティデータに含まれる異常値を可視化しながら見つける。 1 ダーティデータ set.seed(1) # 乱数シード n <- 100000 # データサイズ # 正常値 rv <- runif(n = n, min = 0, max = 1) # 一様乱数 # 異常値1(負の値) size <- 3 # ランダムサンプルサイズ ii <- sample(n, size)...

140 sym R (2402 sym/21 pcs) 5 img

主成分分析

26.09.2023

主成分分析は,高次元(3次元以上)のデータを 2次元のグラフで可視化するのに良く使用される。 場合よっては主成分に分析上有益な意味を見いだすことができる。 多次元データを分析する際は一度この分析手法を試すこと推奨する。 参考:Rのprcomp()関数�...

1517 sym R (4101 sym/33 pcs) 13 img 1 tbl

分類(ロジスティック回帰2)

18.09.2023

次のデータを用いて新車購入の確率を予測する。 NAデータは含まない。 新車購入の有無は,既に2値(バイナリ)化されている。 1 データ お客様番号 性別(男性,女性) 年齢 年収(US$) 購入判断(1:購入,0:購入せず) options(digits = 2) # 表示の有効桁...

1090 sym R (5708 sym/33 pcs) 1 img

データクレンジング

31.08.2023

1 データクレンジング 1.1 ダーティデータ1(dirty data 1) 次のデータはメーカー本社ビルのお昼の天候情報である(仮想データ)。 このデータのデータクレンジングを行う。 d0 <- read.csv(file = 'https://stats.dip.jp/01_ds/data/dirty_data1.csv') summary(d0) # 要約統計値 NA's:1 ...

380 sym R (2845 sym/20 pcs) 2 tbl

交差検証法

27.08.2023

1 データ 約500の町の心臓病患者の人口割合(heart.disease)(%)と喫煙割合(smoking)(%),自転車通勤割合(biking)(%)について調べたデータ 出典:Scribbr,‘Multiple Linear Regression | A Quick Guide (Examples)’ d <- read.csv('https://stats.dip.jp/01_ds/data/heart.data.csv')[, -1] li...

859 sym R (5001 sym/28 pcs) 4 img 1 tbl

決定木

23.08.2023

1 データ タイタニック号の乗客データ 【kaggle】Titanic: cleaned data(一部竹田改変) 説明変数 内容 乗客番号 生死 {生存,死亡} 客室等級 {1, 2, 3}等 乗客名 性別 {男性,女性} 年齢 兄弟配偶者数 同乗している兄弟・配偶者の数 親子数 同乗している�...

311 sym R (1837 sym/12 pcs) 8 img 1 tbl

回帰分析(VIF)

26.06.2023

分散拡大係数(VIF)と相関係数Rの関係 一般的に,10以上で多重共線性(マルチコ)があると判断される。 この場合,回帰係数が不安定になり分析結果は信頼できない。 説明変数間の相関係数とVIFとの関係は次のグラフのとおり。 options(digits = 2) VIF <- seq(1, 15...

431 sym R (1505 sym/9 pcs) 2 img 1 tbl

回帰分析(変数選択法)

17.06.2023

車の燃費データを使って回帰分析する。 1 データ 単位はオリジナル(出典参照)から馴染みのあるものに変換した。 出典:【UCI Machine Learning Repository】Auto MPG Data Set 説明変数 内容(単位) 燃費 燃費(km/L) 気筒数 気筒数(本) 排気量 排気量(cc) 馬力 �...

708 sym R (860 sym/6 pcs) 5 tbl