plotには
matplot ts.plot ggplot2
が使える。
Rでソーシャルネットワーク分析
自殺者のSNS利用傾向など
ソーシャルネットワーク:リンク、エッジ
有向ネットワーク:twitterなどのフォロー
無向ネットワーク:mixi, Facebookなどの認証相互
計算量が変わってくる。
友達の数は次数になる。
次数分布:ロングテール、つまり友達が少ない人は多く、友達が多い人は少ない。
クラスター係数:三角形の数。多いと密と言われる。
グローバルクラスター係数とローカルクラスター係数
ホモフィリー
library(igraph) library(sna)
Suicide ideation of individuals in online social networks
mixi 2700万人の登録者
SNSとしての特異性として、コミュニティがある。
単回帰、重回帰
VIF:vif
ピアソン、スピアマン、ケンドール相関:cor
ROC-AUC:colAC
ネットワーク分析は大きくなりがち
PythonのNumpy/Scipy
パネルディスカッション「実ビジネスにおけるRとの上手な付き合い方」
Rの扱い方は情報が溢れているが実ビジネスで使うとうまくいかないことが多々ある。
Rの日本語情報がこの10年で増えてきた。
他言語であまり見ないdata.frame
ビジネスでのR解析例
エクセルが主流なのは否めない。現場はエクセルがおおい。
αでもっと肉付け、きれいなグラフをつけるならいい。
便利な計算機。もっと気軽に使う感じがいいかと。
クロス集計
失敗例:データ容量が大きすぎて読み込めないことが多々ある。
競馬予測をしようと思ったのだが…オンメモリ動作なのでうまくいかず…
library(DatABEL)
「なんでもできる」と思っていたのだが…集計するところは得意だが、リアルタイムな描出をしようと思うとまだまだ難しい。
Rstudioのemulate?
R用のGUI
Rとエクセルはどちらもspread sheet
Rでのモデル構築
売上の確認など→Web上のJava script
predict関数
データはどこで入手しているの?無料だったり有料だったり。
競馬データ
業種によって使うpackageがかなり異なる
金融:時系列
品質:生存解析
など。幅広く知る必要がある。異分野での勉強会に行くと面白いpackageにときどき出会う。
解析のアプローチも違う?
サンプルサイズが違う。対象もサンプルか母集団どちらを対象にしているか。
統計学的な差と実務的な差の解離
生物・医療の世界では、SASだった:ログの重要性、統計法
Rとのつきあい方
これからRを始める人へのアドバイス
実データはirisとは違う。解析前のデータQCが重要。分布も正規分布であることを信用できない。
書籍、ネットなど情報はたくさんあるので、とにかく手を動かす。
コミュニティを活用する。人に聞く。#tokyor でつぶやく。
ログは取っておく。
計算結果の信頼性
(例)FDAは標準packageならソースコードは提出を求めない。
でも、プログラムを書く以上は、ソースコードを提出する義務はあると思う。
packageを使うとき、何をもって信頼しているのか?
LT
#1 Rの壁
Rが難しいのは、統計の知識。
調べたらすぐわかること。エラーを調べる。
#2 3Dプリンタ
医療、手術シミュレーション
材料を現地調達
嫁をRで実装する
アンパンマン関数
library(R2stl)
#3 Octave
coursera
OctaveでやったことをRで行列演算
library(MASS) ginv
擬似逆行列
#4 Snapeee
プリクラ素材アプリだが、そのリコメンド
集計ってなに?
データサイエンティスト
#5 びっぐでぇた解析環境
オンメモリなのでビッグデータは扱いにくい。
Revolution R
RevoscaleR(商用)
HDD上にXDF形式でデータを置くと使えるらしい。
アカデミアの人はフリー。
Data Expo 2009
#6 Julia
R言語が知るべき第二言語という話で何がいい?
Julia??
めちゃくちゃ速いらしい。
2^31-1のメモリ問題を回避できる。はずだったのだが…
#7 公的統計擬似ミクロデータのRへの読み込み
統計調査の集計表から、乱数を用いて再現したデータ
統計センター
エクセルファイルとtxtとの照合
エクセルで作ったCSVファイルの最後にはよくゴミがある。
list.files(path=, pattern="*")
#8 RをAWSで使う話
Amazon Web Srvice
処理のスケール、sshで接続可能。
時間で課金される。
Linuxが充実しているが、Windowsも可能。
Rインストールに必要なライブラリがないときがある。
#9 とある戦士の爆死過程
某アニメの売上解析
library(xts)
時系列解析
#10 じゃあ俺も異常検知
時系列変化の異常点検出に触発されてやってみた。
隠れマルコフモデルを使ってみる。
観測変数(見える情報)と潜在変数(見えない情報)
見える情報だけから、見えない情報を当てたい。
観測変数だけから、潜在変数の異常点を検出したい。
librar(RHmm)
株価から会社状態の予測
#11 Rを用いたCBBEモデルに基づくブランド資産の測定
CBBEモデルを唱えたお偉いさんがいるらしいのだが。