如何保存data.frame-to-model.matrix的映射并将其应用于新观察值？

作者：艹尛鱈_695 | 来源：互联网 | 2023-02-05 19:14

如何解决《如何保存data.frame-to-model.matrix的映射并将其应用于新观察值？》经验，为你挑选了1个好方法。

一些建模功能，例如glmnet()，要求（或仅允许）将数据作为预测器矩阵和响应矩阵（或向量）传递，如使用公式所示。在这些情况下，通常情况是该predict()方法（例如predict.glmnet()）要求newdata参数提供一个预测器矩阵，该矩阵具有与训练模型相同的特征。

当数据框具有因子（R的分类数据类型）时，创建预测变量矩阵的便捷方法是使用该model.matrix()函数，该函数会自动为分类变量创建虚拟特征：

# this is the dataframe and matrix I want to use to train the model
set.seed(1)
df <- data.frame(x1 = factor(sample(LETTERS[1:5], replace = T, 20)),
                 x2 = rnorm(20, 100, 5),
                 x3 = factor(sample(c("U","L"), replace = T, 20)),
                 y = rnorm(20, 10, 2))

mm <- model.matrix(y~., data = df)

但是，当我引入一个带有新观察结果的数据框时，它仅包含原始数据框中因子水平的一个子集，model.matrix()（可预测地）返回一个具有不同虚拟特征的矩阵。无法使用此新矩阵，predict.glm()因为它没有模型期望的相同功能：

# this is the dataframe and matrix I want to predict on
set.seed(1)
df_new <- data.frame(x1 = c("B", "C"),
                     x2 = rnorm(2, 100, 5),
                     x3 = c("L","U"))

mm_new <- model.matrix(~., data = df_new)

有没有一种方法可以保存从数据帧到模型矩阵的转换（创建所有必要的虚拟特征），以便我可以将该转换重新应用于将来的观察？在我上面的示例中，理想情况下这将导致mm_new具有相同的功能名称，mm以便predict()可以接受mm_new。

我想补充一点，我知道这种方法，它实质上建议在调用之前包括df_newin中的观察结果。如果我有所有的观察结果，并且我只是训练和测试模型，那么这个工作很好。但是，新的观察只能在将来（在生产预测管道中）访问，并且我想避免为新的预测重新加载整个训练数据帧的开销。dfmodel.matrix()

1> ishak..：

我发现正是我的文档中需要可model.matrix和model.frame，并希望分享。在中有一个参数，它model.matrix称为xlev“用作被调用的model.frame数据的参数model.frame”。

如果model.matrix调用model.frame，则xlev期望数据帧中每个因子的字符向量列表（列表元素名称为因子名称）；否则为0。每个字符向量都包含构建model.matrix具有与原始特征相同的虚拟特征的新特征所需的全套因子水平model.matrix。

这是一个工作示例：

set.seed(1)
df <- data.frame(x1 = factor(sample(LETTERS[1:5], replace = T, 20)),
                 x2 = rnorm(20, 100, 5),
                 x3 = factor(sample(c("U","L"), replace = T, 20)),
                 y = rnorm(20, 10, 2))

mm <- model.matrix(y~., data = df)

# this is a list of levels for each factor in the original df
xlevs <- lapply(df[,sapply(df, is.factor), drop = F], function(j){
  levels(j)
})

# this is a new df with only a subset of the levels of the original factors
df_new <- data.frame(x1 = c("B", "C"),
                     x2 = rnorm(2, 100, 5),
                     x3 = c("U","U"))

# calling "xlev = " builds out a model.matrix with identical levels as the original df
mm_new <- model.matrix(~., data = df_new[1,], xlev = xlevs)

请注意，此解决方案仅处理作为原始因子水平的子集的因子水平。它并非旨在处理新的因子水平。

推荐阅读

ip
MooTools和JQuery并排 - MooTools and JQuery Side by Side

IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]

蜡笔小新 2023-12-12 13:43:58
include
C++Builder实现获取USB优盘序列号的方法

本文介绍了使用C++Builder实现获取USB优盘序列号的方法，包括相关的代码和说明。通过该方法，可以获取指定盘符的USB优盘序列号，并将其存放在缓冲中。该方法可以在Windows系统中有效地获取USB优盘序列号，并且适用于C++Builder开发环境。 ... [详细]

蜡笔小新 2023-12-09 08:17:53
window
vue使用

关键词： ... [详细]

蜡笔小新 2023-12-14 19:14:56
io
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
io
Java面经整理及相关概念解析

本文整理了Java面试中常见的问题及相关概念的解析，包括HashMap中为什么重写equals还要重写hashcode、map的分类和常见情况、final关键字的用法、Synchronized和lock的区别、volatile的介绍、Syncronized锁的作用、构造函数和构造函数重载的概念、方法覆盖和方法重载的区别、反射获取和设置对象私有字段的值的方法、通过反射创建对象的方式以及内部类的详解。 ... [详细]

蜡笔小新 2023-12-10 22:17:08
window
【爬虫】关于企业信用信息公示系统加速乐最新反爬虫机制

(￣▽￣)~又得半夜修仙了，作为一个爬虫小白，花了3天时间写好的程序，才跑了一个月目标网站就更新了，是有点悲催，还是要只有一天的时间重构。升级后网站的层次结构并没有太多变化，表面上 ... [详细]

蜡笔小新 2023-10-17 19:24:48
main
在Java中将文件路径作为参数传递 - Passing file path as an argument in Java

Ihavebeenworkingwithbufferingafileonmylocaldrivetoparseandobtaincertaindata.Forte ... [详细]

蜡笔小新 2023-10-17 18:12:58
io
有没有一种方法可以在反应/观察中使用嵌套的reactPoll来绘制依赖于DB和UI更改的图

对于我当前的需求，我需要绘制一些我从mongodb中获取的数据的图表，并且我正在使用reactPo ... [详细]

蜡笔小新 2023-10-11 18:49:23
io
org.apache.commons.collections4.ListUtils.unmodifiableList()方法的使用及代码示例

本文整理了Java中org.apache.commons.collections4.ListUtils.unmodifiableList()方法的一些代码示例，展示了 ... [详细]

蜡笔小新 2023-10-10 18:53:09
less
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
copy
PHP图片截取方法及应用实例

本文介绍了使用PHP动态切割JPEG图片的方法，并提供了应用实例，包括截取视频图、提取文章内容中的图片地址、裁切图片等问题。详细介绍了相关的PHP函数和参数的使用，以及图片切割的具体步骤。同时，还提供了一些注意事项和优化建议。通过本文的学习，读者可以掌握PHP图片截取的技巧，实现自己的需求。 ... [详细]

蜡笔小新 2023-12-14 16:44:09
config
Gitlab接入公司内部单点登录的安装和配置教程

本文介绍了如何将公司内部的Gitlab系统接入单点登录服务，并提供了安装和配置的详细教程。通过使用oauth2协议，将原有的各子系统的独立登录统一迁移至单点登录。文章包括Gitlab的安装环境、版本号、编辑配置文件的步骤，并解决了在迁移过程中可能遇到的问题。 ... [详细]

蜡笔小新 2023-12-10 14:38:53
ip
监听器 (Listener)

1.Listener是Servlet的监听器，它可以监听客户端的请求、服务端的操作等。通过监听器，可以自动激发一些操作，比如监听在线的用户的数量。当增加一个HttpSession时 ... [详细]

蜡笔小新 2023-10-17 20:14:13
config
Summarize function is doing alignment without timezone ?

Hi.Imtryingtogetsummarizefrom00:00otfirstdayofthismonthametric, ... [详细]

蜡笔小新 2023-10-17 20:11:29
include
codeigniter技巧——防止model-controller名字冲突

使用这个技巧要达到的目标：一般来说，模型和控制器你都不会有相同的类名字。让我先创建一个取名为post的model。classPostextendsModel{}现在 ... [详细]

蜡笔小新 2023-10-17 19:12:02

艹尛鱈_695

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章