Publications by Ei Taguchi
アソシエーション分析
バスケット分析 準備 普通に読み込むと1行目の購買数に影響を受けてしまう library(readr) groceries <- read_csv("groceries.csv", col_names = F) ## ## ─ Column specification ──────────────────────────── ## cols( ## X1 = col_character(), ## X2 = col_characte...
1195 sym R (9982 sym/39 pcs) 7 img
回帰法
線形回帰 重回帰により, 医療費を予測する # データ収集 insurance <- read.csv("insurance.csv", stringsAsFactors = T) ## 基本統計量 ### 要約 summary(insurance) ## age sex bmi children smoker ## Min. :18.00 female:662 Min. :16.00 Min. :0.000 no :1064 ## 1st Qu...
864 sym R (15923 sym/57 pcs) 7 img
分割統治 - 決定木と分類ルール
決定木 融資データから焦げつくかどうかを予測する # データ収集 credit <- read.csv("credit.csv") %>% mutate(default = as.factor(default)) glimpse(credit) ## Rows: 1,000 ## Columns: 17 ## $ checking_balance <chr> "< 0 DM", "1 - 200 DM", "unknown", "< 0 DM", "<… ## $ months_loan_duration <int> 6, 48, 12, 42, 24, 36...
620 sym R (64396 sym/42 pcs) 1 img
ナイーブベイズ
ナイーブベイズ分類 ナイーブベイズを用いてスパムメールの判別を行う データ収集 # データ収集 ## 1列目にhamかspamか, 2列目にメール本文 sms_raw <- read.csv("sms_spam.csv", stringsAsFactors = FALSE) head(sms_raw) ## type ## 1 ham ## 2 ham ## 3 ham ## 4 spam ## 5 spam ## 6 ham ## ...
374 sym R (6907 sym/32 pcs) 3 img
k-最近傍法
k最近傍法 概念 k個の最近傍を用いて分類する kを大きくするとノイズを抑えられるが, 小さくても重要なパターンを無視してしまう kを小さくしすぎるとノイズだらけのデータになる 一般的に訓練データ数の平方根で設定するとよい(16種類ならk=4) データ間�...
500 sym R (5831 sym/19 pcs)
効果検証入門 - 第2章 介入効果を測るための回帰分析 - (後編)
2.3 回帰分析を利用した探索的な効果検証 PACESによる学費の割引券配布の概要 コロンビアで行われた教育に関する実証実験をここでは扱う ランダムに学費割引券を配ることで, (コロンビアでは)より良い教育を受けるための効果的な手段である私立高校に通�...
2771 sym R (10755 sym/25 pcs) 5 img
効果検証入門 - 第3章 傾向スコアを用いた分析
3.1 傾向スコアのしくみ(P92~P96) 傾向スコアのアイデア 回帰分析では共変量の選択が難しく, 推定される効果もサンプルの特徴によって異なる場合とそうでない場合で異なってしまう ここでは, 傾向スコア(Propensity Score)という介入の割当確率を用いて, 介入グル...
4518 sym R (10774 sym/49 pcs) 7 img
効果検証入門 - 第4章 差分の差分法(DID)とCausalImpact -
4.1 DID(差分の差分法) DIDが必要になる状況 ある地域で何らかの介入(広告配信, 条例の施行など)があった際に, ほかの地域を非介入グループとして扱い, 介入前後の比較を行いたいが, 地域特性がバイアスとして発生してしまう それに対する解決策の一つとして...
4390 sym R (11716 sym/55 pcs) 5 img 1 tbl
センチメント分析
辞書作成 ## 辞書の読み込み dic <- read.table("http://www.lr.pi.titech.ac.jp/~takamura/pubs/pn_ja.dic", sep = ":", stringsAsFactors = FALSE, fileEncoding = "CP932", encoding = "UTF-8") library(tidyverse) ## ── Attaching packages ──────────────────────�...
390 sym R (9096 sym/36 pcs) 2 img
kmeans
マーケティングセグメントの特定 ティーンのSNSページのテキストからクラスタリングする データ収集 30,000人分のアメリカの高校生の, 性別・年齢・SNSの友達数・関心分野 teens <- read.csv("snsdata.csv", header = T, stringsAsFactors = T) str(teens) ## 'data.frame': 30000 obs. of 40 ...
277 sym R (8591 sym/41 pcs)