热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

python拓展库丰富吗_这5个Python库太难搞!每位数据科学家都应该了解

全文共3708字,预计学习时长10分钟图源:unsplashPthon之所以能成为世界上最受欢迎的编程语言之一,与其整体及其相关库的生态系

全文共3708字,预计学习时长10分钟

图源:unsplash

Pthon之所以能成为世界上最受欢迎的编程语言之一,与其整体及其相关库的生态系统密不可分,这些强大的库让Python保持着生命力和高效力。作为数据科学家免不了会使用一些Python库用于项目和研究,除却那些常见的库,还有很多库能够增强你的数据科学研究能力。

本文将介绍五大难懂的Python库,理解起来并不容易,但搞定它们你就能功力大增!

1.Scrapy

每位数据科学家的项目都是从处理数据开始的,而互联网就是最大、最丰富、最易访问的数据库。但可惜的是,除了通过pd.read_html函数来获取数据时,一旦涉及从那些数据结构复杂的网站上抓取数据,数据科学家们大多都会毫无头绪。

Web爬虫常用于分析网站结构和存储提取信息,但相较于重新构建网页爬虫,Scrapy使这个过程变得更加容易。

Scrapy用户界面非常简洁使用感极佳,但其最大优势还得是效率高。Scrapy可以异步发送、调度和处理网站请求,也就是说:它在花时间处理和完成一个请求的同时,也可以发送另一个请求。Scrapy通过同时向一个网站发送多个请求的方法,使用非常快的爬行,以最高效的方式迭代网站内容。

除上述优点外,Scrapy还能让数据科学家用不同的格式(如:JSON,CSV或XML)和不同的后端(如:FTP,S3或local)导出存档数据。

图源:unsplash

2.Statsmodels

到底该采用何种统计建模方法?每位数据科学家都曾对此犹豫不决,但Statsmodels是其中必须得了解的一个选项,它能实现Sci-kit Learn等标准机器学习库中没有的重要算法(如:ANOVA和ARIMA),而它最有价值之处在于其细节化处理和信息化应用。

例如,当数据科学家要用Statsmodels算一个普通最小二乘法时,他所需要的一切信息,不论是有用的度量标准,还是关于系数的详细信息,Statsmodels都能提供。库中实现的其他所有模型也是如此,这些是在Sci-kit learn中无法得到的。

OLSRegressionResults

==============================================================================

Dep. Variable: Lottery R-squared: 0.348

Model: OLS Adj. R-squared: 0.333

Method: LeastSquares F-statistic: 22.20

Date: Fri, 21Feb2020 Prob (F-statistic): 1.90e-08

Time: 13:59:15 Log-Likelihood: -379.82

No. Observations: 86 AIC: 765.6

DfResiduals: 83 BIC: 773.0

DfModel: 2

CovarianceType: nonrobust

===================================================================================

coef std err t P>|t| [0.025 0.975]

-----------------------------------------------------------------------------------

Intercept 246.4341 35.233 6.995 0.000 176.358 316.510

Literacy -0.4889 0.128 -3.832 0.000 -0.743 -0.235

np.log(Pop1831) -31.3114 5.977 -5.239 0.000 -43.199 -19.424

==============================================================================

Omnibus: 3.713 Durbin-Watson: 2.019

Prob(Omnibus): 0.156 Jarque-Bera (JB): 3.394

Skew: -0.487 Prob(JB): 0.183

Kurtosis: 3.003 Cond. No. 702.

==============================================================================

对于数据科学家来说,掌握这些信息意义重大,但他们的问题是常常太过信任一个自己并不真正理解的模型。因为高维数据不够直观,所以在部署这些数据之前,数据科学家有必要深入了解数据与模型。如果盲目追求像准确度或均方误差之类的性能指标,可能会造成严重的负面影响。

Statsmodels不仅具有极其详细的统计建模,而且还能提供各种有用的数据特性和度量。例如,数据科学家们常会进行时序分解,它可以帮助他们更好地理解数据,以及分析何种转换和算法更为合适,或者也可以将pinguoin用于一个不太复杂但非常精确的统计函数。

图源:Statsmodels

3.Pattern

一些成熟完善的网站用来检索数据的方法可能更为具体,在这种情况下用Scrapy编写Web爬虫就有点“大材小用”了,而Pattern就是Python中更高级的Web数据挖掘和自然语言处理模块。

Pattern不仅能无缝整合谷歌、推特和维基百科三者的数据,而且还能提供一个不太个性化的Web爬虫和HTML DOM解析器。它采用了词性标注、n-grams搜索、情感分析和WordNet。不论是聚类分析,还是分类处理,又或是网络分析可视化,经Pattern预处理后的文本数据都可用于各种机器学习算法。

从数据检索到预处理,再到建模和可视化,Pattern可以处理数据科学流程中的一切问题,而且它也能在不同的库中快速传输数据。

图源:unsplash

4.Mlxtend

Mlxtend是一个任何数据科学项目都可以应用的库。它可以说是Sci-kit learn库的扩展,能自动优化常见的数据科学任务:

· 全自动提取与选择特征。

· 扩展Sci-kit learn库现有的数据转换器,如中心化处理和事务编码器。

· 大量的评估指标:包括偏差方差分解(即测量模型中的偏差和方差)、特征点检测、McNemar测试、F测试等。

· 模型可视化,包括特征边界、学习曲线、PCA交互圈和富集图绘。

· 含有许多Sci-kit Learn库中没有的内置数据集。

· 图像与文本预处理功能,如名称泛化器,可以识别并转换具有不同命名系统的文本(如:它能识别“Deer,John”,“J.Deer”,“J.D.”和“John Deer”是相同的)。

·

Mlxtend还有非常实用的图像处理功能,比如它可以提取面部标志:

图源:Mlxtend

再来看看它的决策边界绘制功能:

图源:Mlxtend

5.REP

与Mlxtend一样,REP也可以被看作是Sci-kit学习库的扩展,但更多的是在机器学习领域。首先,它是一个统一的Python包装器,用于从Sci-kit-learn扩展而来的不同机器学习库。它可以将Sci-kit learn与XGBoost、Pybrain、Neurolab等更专业的机器学习库整合在一起。

例如,当数据科学家想要通过一个简单的包装器将XGBoost分类器转换为Bagging分类器,再将其转换为Sci-kit-learn模型时,只有REP能做到,因为在其他库中无法找到像这种易于包装和转换的算法。

from sklearn.ensemble importBaggingClassifier

from rep.estimators importXGBoostClassifier, SklearnClassifier

clf =BaggingClassifier(base_estimator=XGBoostClassifier(), n_estimators=10)

clf =SklearnClassifier(clf)

除此之外,REP还能实现将模型从任何库转换为交叉验证(折叠)和堆叠模型。它有一个极快的网格搜索功能和模型工厂,可以帮助数据科学家在同一个数据集里有效地使用多个机器学习分类器。同时使用REP和Sci-kit learn,能帮助我们更轻松自如地构建模型。

图源:unsplash

这五个Python库绝对你为它付出时间!

留言点赞关注

我们一起分享AI学习与发展的干货

编译组:朱怡、高淳子

如转载,请私信小芯,遵守转载规范



推荐阅读
  • 本文详细分析了JSP(JavaServer Pages)技术的主要优点和缺点,帮助开发者更好地理解其适用场景及潜在挑战。JSP作为一种服务器端技术,广泛应用于Web开发中。 ... [详细]
  • 技术分享:从动态网站提取站点密钥的解决方案
    本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ... [详细]
  • 数据管理权威指南:《DAMA-DMBOK2 数据管理知识体系》
    本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释,构建了数据管理的总体框架,为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • 随着网络安全威胁的不断演变,电子邮件系统成为攻击者频繁利用的目标。本文详细探讨了电子邮件系统中的常见漏洞及其潜在风险,并提供了专业的防护建议。 ... [详细]
  • 本文详细介绍如何使用Python进行配置文件的读写操作,涵盖常见的配置文件格式(如INI、JSON、TOML和YAML),并提供具体的代码示例。 ... [详细]
  • 1:有如下一段程序:packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]
  • 本文将介绍由密歇根大学Charles Severance教授主讲的顶级Python入门系列课程,该课程广受好评,被誉为Python学习的最佳选择。通过生动有趣的教学方式,帮助初学者轻松掌握编程基础。 ... [详细]
  • 本文详细介绍了Akka中的BackoffSupervisor机制,探讨其在处理持久化失败和Actor重启时的应用。通过具体示例,展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]
  • DNN Community 和 Professional 版本的主要差异
    本文详细解析了 DotNetNuke (DNN) 的两种主要版本:Community 和 Professional。通过对比两者的功能和附加组件,帮助用户选择最适合其需求的版本。 ... [详细]
  • Python自动化处理:从Word文档提取内容并生成带水印的PDF
    本文介绍如何利用Python实现从特定网站下载Word文档,去除水印并添加自定义水印,最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]
  • 尽管某些细分市场如WAN优化表现不佳,但全球运营商路由器和交换机市场持续增长。根据最新研究,该市场预计在2023年达到202亿美元的规模。 ... [详细]
  • 将Web服务部署到Tomcat
    本文介绍了如何在JDeveloper 12c中创建一个Java项目,并将其打包为Web服务,然后部署到Tomcat服务器。内容涵盖从项目创建、编写Web服务代码、配置相关XML文件到最终的本地部署和验证。 ... [详细]
  • 本文探讨了领域驱动设计(DDD)的核心概念、应用场景及其实现方式,详细介绍了其在企业级软件开发中的优势和挑战。通过对比事务脚本与领域模型,展示了DDD如何提升系统的可维护性和扩展性。 ... [详细]
  • 深入解析 Apache Shiro 安全框架架构
    本文详细介绍了 Apache Shiro,一个强大且灵活的开源安全框架。Shiro 专注于简化身份验证、授权、会话管理和加密等复杂的安全操作,使开发者能够更轻松地保护应用程序。其核心目标是提供易于使用和理解的API,同时确保高度的安全性和灵活性。 ... [详细]
author-avatar
william浩浩_597
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有