微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

与na.action = na.pass聚合会给出意想不到的答案

我使用以下data.frame作为示例:

d <- data.frame(x=c(1,NA),y=c(2,3))

我想用变量x来总结y的值.由于没有x的共同值,我希望聚合只是给我原始的data.frame back,其中NA被视为一个组.但聚合给了我以下结果.

>aggregate(y ~ x,data=d,FUN=sum)
  x y
1 1 2

我已经阅读了有关更改na.action认操作的文档,但它似乎没有给我任何有意义的信息.

>aggregate(y ~ x,FUN=sum,na.action=na.pass)
  x y
1 1 2

到底是怎么回事?我似乎不明白na.pass在这种情况下做了什么.有没有选择在R中完成我想要的东西?任何帮助将不胜感激.

解决方法

aggregate使用tapply,而tapply又利用其分组变量的因子.

但是,看一下因子中NA值会发生什么:

factor(c(1,2,NA))
# [1] 1    2    <NA>
# Levels: 1 2

注意水平.您可以使用addNA来保持NA:

addNA(factor(c(1,NA)))
# [1] 1    2    <NA>
# Levels: 1 2 <NA>

因此,您可能需要执行以下操作:

aggregate(y ~ addNA(x),d,sum)
#   addNA(x) y
# 1        1 2
# 2     <NA> 3

或类似的东西:

d$x <- addNA(factor(d$x))
str(d)
# 'data.frame': 2 obs. of  2 variables:
#  $x: Factor w/ 2 levels "1",NA: 1 2
#  $y: num  2 3
aggregate(y ~ x,sum)
#      x y
# 1    1 2
# 2 <NA> 3

(或者,升级到类似“data.table”的东西,这不仅比聚合更快,而且还会给你更一致的NA值行为.不需要注意你是否是using the formula method of aggregate or not.)

library(data.table)
as.data.table(d)[,sum(y),by = x]
#     x V1
# 1:  1  2
# 2: NA  3

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐