如何提取每个组的前n行并使用该子集计算函数？

作者：萌萌美人鱼 | 来源：互联网 | 2022-12-01 17:15

如何解决《如何提取每个组的前n行并使用该子集计算函数？》经验，为你挑选了1个好方法。

我的问题与这个问题非常相似：如何提取每个组的前n行？

dt
         date age     name       val
1: 2000-01-01   3   Andrew  93.73546
2: 2000-01-01   4      Ben 101.83643
3: 2000-01-01   5  Charlie  91.64371
4: 2000-01-02   6     Adam 115.95281
5: 2000-01-02   7      Bob 103.29508
6: 2000-01-02   8 Campbell  91.79532

我们有一个dt，我添加了一个名为的额外列val。首先，我们要提取每个组中的前n行。提供的链接中的解决方案是：

dt[, .SD[1:2], by=date] # where 1:2 is the index needed
dt[dt[, .I[1:2], by = date]$V1] # for speed

我的问题是，如果该函数取决于子集信息，那么该如何将函数应用于每个组的前n行。我正在尝试应用这样的事情：

  # uses other columns for results/ is dependent on subsetted rows
  # but keep it simple for replication
do_something <- function(dt){
  res <- ifelse(cumsum(dt$val) > 200, 1, 0)  
  return(res)
}
# first 2 rows of dt by group=date
x <- dt[, .SD[1:2], by=date]
# apply do_something to first 2 rows of dt by group=date
x[, list('age'=age,'name'=name,'val'=val, 'funcVal'= do_something(.SD[1:2])),by=date]

          date age   name       val funcVal
1: 2000-01-01   3 Andrew  93.73546       0
2: 2000-01-01   4    Ben 101.83643       1
3: 2000-01-02   6   Adam 115.95281       0
4: 2000-01-02   7    Bob 103.29508       1

我要解决这个错误吗？有没有更有效的方法可以做到这一点？我似乎无法弄清楚如何为此应用“速度”解决方案。有没有一种方法，而不必先保存子集结果并立即按日期将函数应用于前两行？

感谢您的任何帮助，下面是产生上面数据的代码：

date <- c("2000-01-01","2000-01-01","2000-01-01",
          "2000-01-02","2000-01-02","2000-01-02")
age <- c(3,4,5,6,7,8)
name <- c("Andrew","Ben","Charlie","Adam","Bob","Campbell")
val <- val <- rnorm(6,100,10)
dt <- data.table(date, age, name,val)

Frank.. 5

如果分组列不止一个，则将其折叠为一个可能更有效：

m = dt[, .(g = .GRP, r = .I[1:2]), by = date]
dt[m$r, v := ff(.SD), by=m$g, .SDcols="val"]

这只是@eddi方法（保持行号.I，在@akrun的答案中可见）的扩展，它也保持组计数器.GRP。

Re OP的评论是，他们更关注功能，好吧，从@akrun借用，有...

ff = function(x) as.integer(cumsum(x[[1]]) > 200)

假设所有值均为非负数，则可以在C语言中更有效地进行处理，因为一旦达到阈值，累积和就可以停止。不过，对于两行的特殊情况，这无关紧要。

我的印象是，这是一个伪函数，因此毫无意义。我通常想到的许多效率改进取决于功能和数据。

1> Frank..：

如果分组列不止一个，则将其折叠为一个可能更有效：

m = dt[, .(g = .GRP, r = .I[1:2]), by = date]
dt[m$r, v := ff(.SD), by=m$g, .SDcols="val"]

这只是@eddi方法（保持行号.I，在@akrun的答案中可见）的扩展，它也保持组计数器.GRP。

Re OP的评论是，他们更关注功能，好吧，从@akrun借用，有...

ff = function(x) as.integer(cumsum(x[[1]]) > 200)

假设所有值均为非负数，则可以在C语言中更有效地进行处理，因为一旦达到阈值，累积和就可以停止。不过，对于两行的特殊情况，这无关紧要。

我的印象是，这是一个伪函数，因此毫无意义。我通常想到的许多效率改进取决于功能和数据。

推荐阅读

get
有没有一种方法可以在反应/观察中使用嵌套的reactPoll来绘制依赖于DB和UI更改的图

对于我当前的需求，我需要绘制一些我从mongodb中获取的数据的图表，并且我正在使用reactPo ... [详细]

蜡笔小新 2023-10-11 18:49:23
get
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
join
Python 集合(set) 介绍

集合set集合是可变的容器集合内的数据对象都是唯一的（不能重复多次的）集合是无序的存储结构，集合中的数据没有先后关系集合内的元素必须是不可 ... [详细]

蜡笔小新 2023-10-11 12:32:45
get
【leetcode】solution in java——Easy1

转载请注明原文地址：http:www.cnblogs.comygj0930p6409067.html1：HammingdistanceTheHammin ... [详细]

蜡笔小新 2023-10-11 12:18:12
get
CSS3选择器的使用方法详解，提高Web开发效率和精准度

本文详细介绍了CSS3新增的选择器方法，包括属性选择器的使用。通过CSS3选择器，可以提高Web开发的效率和精准度，使得查找元素更加方便和快捷。同时，本文还对属性选择器的各种用法进行了详细解释，并给出了相应的代码示例。通过学习本文，读者可以更好地掌握CSS3选择器的使用方法，提升自己的Web开发能力。 ... [详细]

蜡笔小新 2023-12-14 14:37:52
spring
SpringJdbcTemplate的使用详解

本文详细介绍了Spring的JdbcTemplate的使用方法，包括执行存储过程、存储函数的call()方法，执行任何SQL语句的execute()方法，单个更新和批量更新的update()和batchUpdate()方法，以及单查和列表查询的query()和queryForXXX()方法。提供了经过测试的API供使用。 ... [详细]

蜡笔小新 2023-12-13 14:27:11
get
Java中闭包的争论以及闭包的定义和特性

闭包一直是Java社区中争论不断的话题，很多语言都支持闭包这个语言特性，闭包定义了一个依赖于外部环境的自由变量的函数，这个函数能够访问外部环境的变量。本文以JavaScript的一个闭包为例，介绍了闭包的定义和特性。 ... [详细]

蜡笔小新 2023-12-13 10:46:54
list
第四章高阶函数（参数传递、高阶函数、lambda表达式）（python进阶）的讲解和应用

本文主要讲解了第四章高阶函数（参数传递、高阶函数、lambda表达式）的相关知识，包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念，并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说，本文将是一个不错的学习资料。 ... [详细]

蜡笔小新 2023-12-12 15:52:48
sum
hdu 5439（找规律）的数列求和问题

本文讨论了一个数列求和问题，该数列按照一定规律生成。通过观察数列的规律，我们可以得出求解该问题的算法。具体算法为计算前n项i*f[i]的和，其中f[i]表示数列中有i个数字。根据参考的思路，我们可以将算法的时间复杂度控制在O(n)，即计算到5e5即可满足1e9的要求。 ... [详细]

蜡笔小新 2023-12-12 14:05:58
sum
Which is more efficient: char str[] or char *str?

This article discusses the efficiency of using char str[] and char *str and whether there is any reason to prefer one over the other. It explains the difference between the two and provides an example to illustrate their usage. ... [详细]

蜡笔小新 2023-12-12 10:13:35
spring
SpringMVC接收请求参数的方式总结

本文总结了在SpringMVC开发中处理控制器参数的各种方式，包括处理使用@RequestParam注解的参数、MultipartFile类型参数和Simple类型参数的RequestParamMethodArgumentResolver，处理@RequestBody注解的参数的RequestResponseBodyMethodProcessor，以及PathVariableMapMethodArgumentResol等子类。 ... [详细]

蜡笔小新 2023-12-11 19:55:40
get
编写可保护的代码的重要性及优化方法

本文讨论了编写可保护的代码的重要性，包括提高代码的可读性、可调试性和直观性。同时介绍了优化代码的方法，如代码格式化、解释函数和提炼函数等。还提到了一些常见的坏代码味道，如不规范的命名、重复代码、过长的函数和参数列表等。最后，介绍了如何处理数据泥团和进行函数重构，以提高代码质量和可维护性。 ... [详细]

蜡笔小新 2023-12-11 18:32:44
instance
InnoDB存储引擎——内存

上图是InnoDB存储引擎的结构。1、缓冲池InnoDB存储引擎是基于磁盘存储的，并将其中的记录按照页的方式进行管理。因此可以看作是基于磁盘的数据库系统。在数据库系统中，由于CPU速度 ... [详细]

蜡笔小新 2023-12-10 19:47:18
sum
steps/train_mono.sh

定义拓扑结构、参数初始化$gmm-init-mono--shared-phones$langphonessets.int--train-feats$featssubset-fe ... [详细]

蜡笔小新 2023-10-11 13:39:20
byte
CF809A：Do you want a date?（数学思维）

A.Doyouwantadate?timelimitpertest2secondsmemorylimitpertest256megabytesinputstandardinputo ... [详细]

蜡笔小新 2023-10-10 18:41:30

萌萌美人鱼

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章