热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

机器学习团队常用工具总结,人生苦短,我用Python!

▼更多精彩推荐,请关注我们▼来源:reddit编辑:科雨、白峰本文经授权转自公众号新智元【新智元导读】现在国外现初创公司最频繁使用的机器学

更多精彩推荐,请关注我们

来源:reddit

编辑:科雨、白峰

本文经授权转自公众号    新智元

【新智元导读】现在国外现初创公司最频繁使用的机器学习工具是什么?本篇文章详细总结,带你全方位了解,想快速坐上人工智能顺风车的小伙伴们,请抓稳了!

有想法有创意,想快速自行发起项目?还在海量的工具包、软件、平台、库和各种插件上毫无头绪地寻觅?想加入初创公司一展身手,却找不到补课切入点?

苦苦自学却最后发现竟然是冷门技术?总是发愁资料掌握并不齐全?感叹AI实战技术发展太快,自己总是落伍?那这篇文章或许就很适合你!       

机器学习工具,初创公司最爱哪款?

近日,Reddit上一则帖子火了:发帖者详细总结了近几年初创公司的机器学习团队在各个环节使用的机器学习工具,从软件开发设置IDE,机器学习框架,到实验管理,可视化工具等等。

 

评论区也一片火爆,大家纷纷作出补充,极大的丰富了现有最新主流资源。

 

小伙伴们都知道,挑选最佳的各种工具,为机器学习团队建立起良好的工作栈,对于提高项目工作效率以及按时交付工作来说,非常重要。

如果小伙伴中有人在初创公司工作过,就会对建立起一个可以随团队进步,用户需求来快速发展的机器学习环境有着更加深刻的体会。

 

这里我们正好为大家做个总结,将当前主流初创公司使用的,前沿的,时兴的各种软件和插件,平台,工具包,算法等等,分享给大家!

 

为了使结构更加清晰,接下来,我们会将内容分成下面几个主题,一一介绍:

 

  • 软件开发设置(Software Development Setup)

  • 机器学习框架(Machine Learning Frameworks)

  • 机器学习模型管理(MLOps)

  • 其他

 

软件开发工具Jupyter最热

相信大家都有这么一种感觉:开发环境是每个团队工作流程的基础,因此,如果能了解在世界范围内,大部分公司认为的最佳工具有哪些,那就最好不过了!

 

IDE(集成开发环境)

 

对于集成开发环境(IDE),主要有两个阵营:

 

1 Jupyter Lab+NB扩展(偶尔带有Neepnote)+Colab

                          

 

2 Pycharm/VScode

                                        

(PS:当然,R Studio显然是R用户的忠实选择)

 

版本控制(Version Control)

 

那当然是每个程序员的家园—Github啦哈哈哈!

              

机器学习语言

 

经过统计,Python成为了最经常使用的语言,同时,还有一部分开发者在使用R语言~

 

机器学习经典框架依然受欢迎

 

面对花样百出,种类繁多的选择,现在海外的主流初创公司最经常使用的机器学习框架和库都有什么呢?

 

             

 

可视化:Pandas+Matplotlib+Plotly

 

这三个大名鼎鼎的工具包就不需要过多介绍了吧~这些工具可真的称得上机器学习可视化利器了。

              

除此之外,研究者还经常使用Altair( Python )和Hiplot( R, 超参数可视化 )

         

              

经典算法库:Sklearn+XGBoost

 

这两款机器学习库,包含了初创公司最经常使用的经典算法,也算是爆款工具了。

                          

深度学习:Tensorflow+Keras 或Pytorch

 

大火的Tensorflow和Pytorch终于出场了~相信任何一个搞深度的朋友都已经无比熟悉了吧。有的时候,在同一家公司的深度学习项目中中,这两种框架会出现同时存在的情况。

              

在这里,值得注意的是,越来越多的正在更加频繁地使用Pytorch训练库,比如Lightning, Ignite, Catalyst, Fastai和Skorch。

 

善用编排工具,管理好你的机器学习模型

 

看到这里,你可能在想:「什么是MLOps」,或者「为什么要关心这个玩意儿??」

 

             

 

其实,这个术语其实在指DevOps,在这里,用来描述用于机器学习活动和操作的工具。

 

那下面就来看看初创公司到底在用什么工具来进行机器学习的DevOps吧:

 

编排工具:Kubeflow,Airflow,Amazon Sagemaker,Azure

                                 

              

模型封装&部署:Kubeflow, MLflow, Amazon SageMaker

              

从训练到推断:Pytest-benchmark, MLperf

 

当开发人员将训练好的模型用于实际情况下的推断时,就会主要使用这两个工具对模型进行分析和优化。

 

            

 

              

实验管理:MLflow, Comet, Neptune

 

为了进行实验跟踪,研究者常常使用这些工具,除此之外,我们还能看到TensorBorad和Scared等等之类的开源软件包。

                           

有小伙伴还在评论里补充了Google Sheet。

              

整个机器学习流程,还是人最重要

 

相信上面的很多工具,比如Pytorch和Pandas,Jupyter Lab等等,已经在大家的预期之内了,那在对初创公司的采访中,还有什么在预期之外呢?

 

             

 

Wetware

 

在我们说这个到底是个啥之前,大家可以往后退一步,跳脱出具体的某个库某个框架,来从大局来看看:

 

初创公司Trust Insights的Christopher Penn说到,任何机器学习团队都会使用一种相当有趣的“工具”

 

——"湿件(Wetware)"——它位于您两个耳朵之间,是硬件和软件的组合,这是您拥有的最重要,最有用,最强大的机器学习工具“

 

到目前为止,太多人们希望AI是一把无所不能的魔杖,在几乎不需要人类输入的情况下,它可以解决一切问题。但是,反之亦然,人工智能比以往任何时候,都需要更多的管理和审查,因为,我们对复杂模型缺乏足够的了解。

 

在网络上爆发大量关于偏见和歧视的丑闻之后,可解释性是人工智能研究人员当前面临的最大挑战。

人工智能供应商通常专注于模型的事后(post hoc)解释(和具有内在可解释性的模型相比,事后解释就好比先训练一个黑盒模型,比如一个深度网络,然后应用一些可解释的方法,比如度量特征重要性,来作出“解释”),而不是在模型中构建解释和检查点。

 

所以呢?湿件(Wetare)——也就是人类,将是2020年,以及未来人工智能发展中,最有用的工具。

 

那直接说“多用脑子”不得了,还发明一个专业名词,果然显得高大上了一些...嗯,硅谷某些初创公司的脑回路就是不一样!

 

好啦,看到这里,大家还有什么想补充的吗?如果大家还有什么在实操中觉得特别好用的,可以留言评论哦~

 


近期开班情况

2020年6月28日


推荐阅读
  • java ssm框架_Java SSM框架的简单搭建
    1.添加依赖包,可以通过properties统一框架版本UTF-81.71.75.0.8.RELEASEjunitjunit4.11testjavax.servlet ... [详细]
  • baresip android编译、运行教程1语音通话
    本文介绍了如何在安卓平台上编译和运行baresip android,包括下载相关的sdk和ndk,修改ndk路径和输出目录,以及创建一个c++的安卓工程并将目录考到cpp下。详细步骤可参考给出的链接和文档。 ... [详细]
  • Android Studio Bumblebee | 2021.1.1(大黄蜂版本使用介绍)
    本文介绍了Android Studio Bumblebee | 2021.1.1(大黄蜂版本)的使用方法和相关知识,包括Gradle的介绍、设备管理器的配置、无线调试、新版本问题等内容。同时还提供了更新版本的下载地址和启动页面截图。 ... [详细]
  • XML介绍与使用的概述及标签规则
    本文介绍了XML的基本概念和用途,包括XML的可扩展性和标签的自定义特性。同时还详细解释了XML标签的规则,包括标签的尖括号和合法标识符的组成,标签必须成对出现的原则以及特殊标签的使用方法。通过本文的阅读,读者可以对XML的基本知识有一个全面的了解。 ... [详细]
  • CF:3D City Model(小思维)问题解析和代码实现
    本文通过解析CF:3D City Model问题,介绍了问题的背景和要求,并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景,每个网格单元可以作为建筑的基础,建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路,并给出了相应的代码实现供读者参考。 ... [详细]
  • FeatureRequestIsyourfeaturerequestrelatedtoaproblem?Please ... [详细]
  • 本文介绍了Android 7的学习笔记总结,包括最新的移动架构视频、大厂安卓面试真题和项目实战源码讲义。同时还分享了开源的完整内容,并提醒读者在使用FileProvider适配时要注意不同模块的AndroidManfiest.xml中配置的xml文件名必须不同,否则会出现问题。 ... [详细]
  • Java学习笔记之面向对象编程(OOP)
    本文介绍了Java学习笔记中的面向对象编程(OOP)内容,包括OOP的三大特性(封装、继承、多态)和五大原则(单一职责原则、开放封闭原则、里式替换原则、依赖倒置原则)。通过学习OOP,可以提高代码复用性、拓展性和安全性。 ... [详细]
  • IjustinheritedsomewebpageswhichusesMooTools.IneverusedMooTools.NowIneedtoaddsomef ... [详细]
  • 本文介绍了RxJava在Android开发中的广泛应用以及其在事件总线(Event Bus)实现中的使用方法。RxJava是一种基于观察者模式的异步java库,可以提高开发效率、降低维护成本。通过RxJava,开发者可以实现事件的异步处理和链式操作。对于已经具备RxJava基础的开发者来说,本文将详细介绍如何利用RxJava实现事件总线,并提供了使用建议。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 上一章讲了如何制作数据集,接下来我们使用mmcls来实现多标签分类。 ... [详细]
  • S3D算法详解
    S3D论文详解论文地址:RethinkingSpatiotemporalFeatureLearning:Speed-AccuracyTrade-offsinVide ... [详细]
  • navicat生成er图_实践案例丨ACL2020 KBQA 基于查询图生成回答多跳复杂问题
    摘要:目前复杂问题包括两种:含约束的问题和多跳关系问题。本文对ACL2020KBQA基于查询图生成的方法来回答多跳复杂问题这一论文工作进行了解读 ... [详细]
  • PyTorch框架中有一个非常重要且好用的包:torchvision,该包主要由3个子包组成,分别是:torchvision.datasets、torchvision.models、torchv ... [详细]
author-avatar
阿都欧巴
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有