2014年10月10日金曜日

Kobe.R #10 dplyr データの集計に便利なパッケージ

Kobe.R #10を開催しました。
URL: http://kobexr.doorkeeper.jp/events/15060
日時: 2014/10/4 Sat. 10:00-12:00
場所: 三ノ宮駅周辺

Kobe.Rは関西で毎月定期的に開催している、統計用プログラミング言語 R の勉強会です。最初の発表「dplyr & xts を使った時系列データの簡単集計」についてご紹介します。


dplyrはデータの集計に便利なパッケージです


基本的な使い方

library(dplyr)

data(iris)

iris.sum <- summarise(group_by(iris, Species), 
                      avg_SL=mean(Sepal.Length), 
                      avg_PL=mean(Petal.Length)) 

head(iris.sum)

Source: local data frame [3 x 3]

     Species avg_SL avg_PL
1     setosa  5.006  1.462
2 versicolor  5.936  4.260
3  virginica  6.588  5.552


pipe演算子を使うと

summarise(group_by(data, A, B), sumA=sum(A), sumB=sum(B))
と書くところを
data %.% group_by(A, B) %.% summarise(sumA=sum(A), sumB=sum(B))
と左から右へ流れるように書けます。

irisをdplyrで集計してみるとこのようになります。

data(iris)
iris.sum <- iris %.% group_by(Species) %.% 
  summarise(avg_SL=mean(Sepal.Length), avg_PL=mean(Petal.Length))



0 件のコメント:

コメントを投稿