当前位置: 开发笔记 > 后端 > 正文

数据分析/机器学习模型无法部署的八大原因

作者：boybeta | 来源：互联网 | 2023-07-15 20:37

数据分析机器学习模型无法部署的八大原因不要成为一个模型无法部署的数据科学家举一个典型的模型部署失败的实例：Netflix大奖竞赛。简单来说，这是一个面向

数据分析/机器学习模型无法部署的八大原因

不要成为一个模型无法部署的数据科学家

举一个典型的模型部署失败的实例&＃xff1a;Netflix大奖竞赛。简单来说&＃xff0c;这是一个面向大众开放的竞赛&＃xff0c;参与者需要写一个协同过滤算法来预测电影的用户评级。胜出者获得了1000万美元的大奖。然而最后&＃xff0c;这个完整的模型却没有得到部署。

不仅仅是Netflix&＃xff0c;大多数公司都发生过这种戏剧性的事件。就在最近&＃xff0c;我与许多一流数据分析公司的公司高管进行了交流&＃xff0c;而他们最大的担忧就是公司50%的预测模型都得不到实现。

为什么要建立一个在现实世界中无法使用的模型呢&＃xff1f;这就好像你做一个蛋糕&＃xff0c;尝试过后发现很美味&＃xff0c;但却永远不让任何人吃一个道理。

在本文中&＃xff0c;我列出了在建立模型时你应当谨记的所有可能原因。在我的职业生涯中&＃xff0c;我曾多次遇到过这种情况。因此&＃xff0c;我认为在我经验的帮助下&＃xff0c;可以帮助你克服这种情况。

模型部署失败的8个原因

1、高假正性&＃xff08;FP&＃xff09;&＃xff1a;这看上去似乎有点专业&＃xff0c;而目前最重要的是了解什么是假正。假设在一个分类模型中&＃xff0c;我们想要预测客户是应答者&＃xff08;给出答案的人&＃xff09;还是非应答者&＃xff08;不给出答案的人&＃xff09;

想象一下&＃xff0c;如果你预测一个人X会是一个应答者&＃xff0c;但实际上他并不会给出任何答案。这种情况下&＃xff0c;X就被称为假正。那么在现实世界中这会造成什么影响&＃xff0c;我知道你想要问这个问题。

举个例子&＃xff0c;例如你需要为1000个客户建立一个保留活动&＃xff0c;在这1000个客户中会有100个客户流失&＃xff08;离开&＃xff09;。你创建一个了不起的模型&＃xff0c;在这个模型中前十个人中有四个人会离开&＃xff08;相等的十大部分&＃xff09;

这就意味着&＃xff0c;从你预测的前100个客户中&＃xff0c;40个客户会流失。所以&＃xff0c;你推荐企业专为这100个客户提供一个吸引人的购物方案&＃xff0c;这样可以阻止他们流失。但是&＃xff0c;这仍有很大问题。

问题就是你花费在那些客户身上的每一美元中&＃xff0c;只有0.4美元被用来阻止客户流失。剩下的0.6美元都浪费在那些并不是真心想要离开的假正&＃xff08;FP&＃xff09;客户身上。

2、不了解基本业务模型&＃xff1a;最近&＃xff0c;对于使用机器学习算法和更加复杂的模型建立技术的需求正在日益增长。换句话说&＃xff0c;各企业正在逐渐减少使用传统的模型技术。

毫无疑问&＃xff0c;使用机器学习技术可以加大预测能力。但是企业仍不是太接受这种黑盒技术。以我经验而言&＃xff0c;这将导致实施一个预测策略时会需要更长的前置时间。由于大多数的应用程序业务上是高度动态的&＃xff0c;该模型也会由于较长的前置时间变得越来越冗余

3、对业务问题不够了解&＃xff1a;创建过预测模型对分析师或者业务同行而言都会在其履历上添加浓墨重彩的一笔。然而&＃xff0c;这并不是你建立模型的目的。在某些情况下&＃xff0c;分析师进入创建模型阶段&＃xff0c;并会试图削减本应分配给了解业务问题的时间。

4、模型实施过于复杂&＃xff1a;预测能力是这些模型实施的灵魂&＃xff0c;但是一般情况下&＃xff0c;预测能力是以模型的复杂度为代价的。为使模型更加健壮我们开始引入双变量和三变量&＃xff0c;不论这些变量对业务来说有没有意义。这样的模型在书本上可能是十分精彩的&＃xff0c;然而就因如此&＃xff0c;他们也只能停留在书本上&＃xff0c;并不能在现实世界中实现。

5、不能解决根本原因&＃xff0c;仅仅试图提高一个过程的影响。我们为什么做模型&＃xff1f;最重要的原因是为找到一个特定响应的驱动程序。这些驱动程序又是什么&＃xff1f;驱动程序往往是响应率的根本原因。如果你引进所有影响当做输入变量&＃xff0c;然后这些变量也会作为重要输出时将会发生什么&＃xff1f;这将没有任何用处&＃xff0c;因为你没有改变任何可能带来变化的事情。

6、训练人口与得分人口完全不同&＃xff1a;在很多情况下&＃xff0c;我们最终是在一个与实际人口完全不同的人口中建立模型。举例来说&＃xff0c;如果你正在创建一个针对人口的活动&＃xff0c;并且以前没有类似的活动。在这种情况下&＃xff0c;我们先从基本假设开始&＃xff0c;假设该人口具有高响应率&＃xff0c;且有可能有高增量响应率。但是这种假设很少是真实的&＃xff0c;因此该模型将很难使用。

7、不稳定模型&＃xff1a;高性能模型通常是高度不稳定的&＃xff0c;并且不在同一时间内执行。在这种情况下&＃xff0c;业务可能需要高频的模型修正。随着模型创建的前置时间越来越长&＃xff0c;业务可能会开始回到基于直觉的策略。

8、依赖于高动态变量的模型&＃xff1a;动态变量给模型带来真正的预测能力。然而&＃xff0c;你也可能会有这样的变量&＃xff0c;它的赋值永远不会显示在训练窗口。

例如&＃xff0c;你可能得到一些工作日的销售量作为重要变量来预测一个分支的月销售量。我们就说这种变量具有高预测性。但是对于我们的评分窗口而言&＃xff0c;有一些月份仅仅有10-15天的工作日。如果你的训练数据没有这样的月份&＃xff0c;你的模型可能无法进行准确预测。http://www.cda.cn/view/17998.html

转:https://www.cnblogs.com/amengduo/p/9587448.html

推荐阅读

go
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
go
云原生边缘计算之KubeEdge简介及功能特点

本文介绍了云原生边缘计算中的KubeEdge系统，该系统是一个开源系统，用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建，并为网络应用程序提供基础架构支持。同时，KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外，KubeEdge还支持跨平台工作，在私有、公共和混合云中都可以运行。同时，KubeEdge还提供数据管理和数据分析管道引擎的支持。最后，本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]

蜡笔小新 2023-12-14 16:49:01
mysql
MySQL表分区的创建、增加和删除方法详解

本文详细介绍了MySQL表分区的创建、增加和删除方法，包括查看分区数据量和全库数据量的方法。欢迎大家阅读并给予点评。 ... [详细]

蜡笔小新 2023-12-13 12:26:11
mysql
Java项目管理工具及配置教程推荐

本文介绍了一些Java开发项目管理工具及其配置教程，包括团队协同工具worktil，版本管理工具GitLab，自动化构建工具Jenkins，项目管理工具Maven和Maven私服Nexus，以及Mybatis的安装和代码自动生成工具。提供了相关链接供读者参考。 ... [详细]

蜡笔小新 2023-12-13 06:45:16
mysql
使用nodejs爬取b站番剧数据，计算最佳追番推荐

本文介绍了如何使用nodejs爬取b站番剧数据，并通过计算得出最佳追番推荐。通过调用相关接口获取番剧数据和评分数据，以及使用相应的算法进行计算。该方法可以帮助用户找到适合自己的番剧进行观看。 ... [详细]

蜡笔小新 2023-12-14 20:44:52
mysql
【译】发送表单数据

这是原文链接：sendingformdata许多情况下，我们使用表单发送数据到服务器。服务器处理数据并返回响应给用户。这看起来很简单，但是 ... [详细]

蜡笔小新 2023-12-14 16:19:10
mysql
如何去除Win7快捷方式的箭头

本文介绍了如何去除Win7快捷方式的箭头的方法，通过生成一个透明的ico图标并将其命名为Empty.ico，将图标复制到windows目录下，并导入注册表，即可去除箭头。这样做可以改善默认快捷方式的外观，提升桌面整洁度。 ... [详细]

蜡笔小新 2023-12-14 16:17:05
go
数据库的存储结构及其重要性

本文介绍了数据库的存储结构及其重要性，强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离，可以实现对物理存储的重新组织和数据库的迁移，而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构，并介绍了表空间的概念和作用。 ... [详细]

蜡笔小新 2023-12-14 16:00:02
touch
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
touch
禁止程序接收鼠标事件的工具_VNC Viewer for Mac(远程桌面工具)免费版

VNCViewerforMac是一款运行在Mac平台上的远程桌面工具，vncviewermac版可以帮助您使用Mac的键盘和鼠标来控制远程计算机，操作简 ... [详细]

蜡笔小新 2023-12-14 12:55:15
touch
Windows下配置PHP5.6的方法及注意事项

本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项，包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法，如下载缺失的msvcr110.dll文件等。通过本文的指导，读者可以轻松地在Windows系统下配置PHP5.6，并解决一些常见的配置问题。 ... [详细]

蜡笔小新 2023-12-14 12:37:25
yii
Linux下Perl的安装及第一个程序运行

本文介绍了在Linux下安装Perl的步骤，并提供了一个简单的Perl程序示例。同时，还展示了运行该程序的结果。 ... [详细]

蜡笔小新 2023-12-13 18:29:11
mysql
解决VS写C#项目导入MySQL数据源报错“You have a usable connection already”问题的正确方法

本文介绍了在VS写C#项目导入MySQL数据源时出现报错“You have a usable connection already”的问题，并给出了正确的解决方法。详细描述了问题的出现情况和报错信息，并提供了解决该问题的步骤和注意事项。 ... [详细]

蜡笔小新 2023-12-13 16:31:57
mysql
词袋模型的通俗介绍

词,袋, ... [详细]

蜡笔小新 2023-12-12 08:20:03
注入
绕过WAF的XSS检测机制及构建XSS payload的方法

本文介绍了绕过WAF的XSS检测机制的方法，包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法，该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型（DOM）接收器和源、实施适当的跨域资源共享（CORS）策略和其他安全策略，可以有效阻止XSS漏洞。但是，WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制，构建与正则表达式不匹配的XSS payload。 ... [详细]

蜡笔小新 2023-12-11 19:42:30

boybeta

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章