热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

全栈数据,主要技术点

生命之源0.缘起本文仅仅只是列出一些知识点,拟做为内部技术分享的点,只是对『全栈数据』技术点有一个概要性的了解。列出的点,99%都是自己的经验,或接触、或了解、或实战的内容。本文对

《全栈数据,主要技术点》 生命之源

0. 缘起

本文仅仅只是列出一些知识点,拟做为内部技术分享的点,只是对『全栈数据』技术点有一个概要性的了解。

列出的点,99%都是自己的经验,或接触、或了解、或实战的内容。

本文对你不一定有多大的技术提升,因为很多点都需要扩展开来介绍,才更有意思。

如果有想法,请提更多的意见。

1. 平台技术

  1. 分布式计算平台 (Hadoop)
  • Google的论文:hdfs与map-reduce
  • Yahoo实现的开源版本
  • 三大平台:Cloudera/Hortonworks/DataStax
  1. 深度学习平台(GPU)
  • Nvidia: 显卡
  • Linux环境
  • cuda环境
  • intel-mkl
  • cudnn

重点:环境搭建,部分做数据分析的人,可能会卡在环境的搭建上,主要需要Linux技能。

2. 全栈基础

  1. SQL技术
  2. Linux及Shell, vim/find/grep/sed/awk/git
  3. 统计、概率基础
  4. 编程能力(以工程为导向)
  5. 大数据框架
  6. 数据处理&算法
  7. 笔记与文档(markdown)

重点:全面的熟悉数据科学中的知识点。

3. 分布式技术

  1. hadoop(hdfs&mr)
  2. Hive(sql)
  3. Spark(rdd,df,sql)
  4. Sqoop
  5. Hbase/Cassandra
  6. 采集与消息队列:Flume/Kafka/Storm
  7. 全文索引(solr, elasticsearch)

重点:熟悉处理海量数据的常用工具,存储与分析,每个工具的适用场景

4. 数据库技术

  1. MySQL
  2. Postgresql
  3. MongoDB
  4. Redis

重点:数据库是数据分析中最常用的依托,熟悉SQL语句,以及如果使用Python来进行数据处理。

5. 语言技术

  1. SQL语句(常用join语句)
  2. python
    python2与python3的问题
    库:numpy, pandas, scikit-learn,nltk, pyltp, pyspark、anaconda
  3. R
    学术界,快速建模
  4. Scala、java

重点:学习语言,是自动化处理数据和建模的必备工具,SQL必备,Python与R至少需要熟悉一种。要工程应用,Python是必备。

6. 数据挖掘

  1. 数据采集:rsync, api, MQ, 爬虫(scrapy)
  2. 数据清洗:SQL,Linux,py,R
  3. 特征工程:特征选择,特征变换
  4. 算法建模:各种框架与算法
  5. 模型评估:precision,recall,f1,mse
  6. 应用与可视化

重点:了解数据处理的一些常用方法,理解特征工程的方法,熟悉主流挖掘算法的基本过程,会调用相应的库来建模,理解算法评估的常用指标。

7. 机器学习

  1. 聚类、分类、回归
    kmeans, knn, logistic regression, linear regression, navie bayes, 决策树、随机森林、神经网络、Xgboost

  2. 自然语言处理
    CRF、分词、实体识别、语义分析,word2vec,深度学习(cnn,rnn)

  3. 个性推荐,用户画像

  4. 深度学习
    应用(非结构化):图片,语音,视频,自然语言处理
    算法:auto encoder, cnn, rnn, lstm
    框架:tf/keras/mxnet/caffe/pytorch

  5. 遗传算法:优化,ga, gp

重点:理解主流算法的应用场景及其主要参数,熟悉自然语言处理中一些基本的方法,理解深度学习的主要思想,熟悉一、两个深度学习框架,能使用迁移学习做一些图片分类的任务。

8. Web与可视化

  1. Excel, matplotlib, seaborn
  2. Django/Flask,JS/Html5/css3(Web开发)
  3. superset(druid, mysql, postgresql, 简单易用的数据可视化界面)
  4. zeppelin(支持分布式环境的Web笔记)
  5. beakernotebook(ipython、jupyter,支持多种语言的Web笔记)
  6. Orange3(图形化的Web挖掘工具)
  7. airflow(Data pipeline监控)
  8. DataScienceStudio(基于Web的数据分析、建模工具)

重点:数据可视化工具,数据可视化挖掘工具,交互式笔记工具,事半功倍的工具,数据分析入门的好工具,个人珍藏收集。

9. Spark全栈

  1. RDD/DataFrame
  2. ML/MLLib
  3. SQL
  4. Streaming
  5. GraphX(PageRank)
  6. spark/pyspark/sparkR

重点:当今世界最流行、不可多得的、分布式的,全栈数据处理、分析、挖掘环境。

10. H2O框架

  1. h2o-flow(基于Web的自动化建模环境)
  2. 算法(drf, gbdt, word2vec,glrm)
  3. sparkling water(结合Spark的优势)
  4. deepwater(深度学习环境)
  5. steam(建模与部署一体化)

重点:如生命离不开水一般,简单、优雅的数据挖掘、深度学习环境。高效的算法执行速度,高精度的算法产出。

关注微信公众号『全栈数据』,回复:qzsjzsd,获取pdf版本下载地址与密码。

《全栈数据,主要技术点》 全栈数据 公众号


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文介绍了Linux系统中正则表达式的基础知识,包括正则表达式的简介、字符分类、普通字符和元字符的区别,以及在学习过程中需要注意的事项。同时提醒读者要注意正则表达式与通配符的区别,并给出了使用正则表达式时的一些建议。本文适合初学者了解Linux系统中的正则表达式,并提供了学习的参考资料。 ... [详细]
  • 动手写一个OpenVPN的wrapper来优化OpenVPN性能
    动手写一个OpenVPN的wrapper来优化OpenVPN性能 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • Linux如何安装Mongodb的详细步骤和注意事项
    本文介绍了Linux如何安装Mongodb的详细步骤和注意事项,同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库,适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作,能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 本文介绍了Python语言程序设计中文件和数据格式化的操作,包括使用np.savetext保存文本文件,对文本文件和二进制文件进行统一的操作步骤,以及使用Numpy模块进行数据可视化编程的指南。同时还提供了一些关于Python的测试题。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 知识图谱表示概念:知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说,知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Obj ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 2017亚马逊人工智能奖公布:他们的AI有什么不同?
    事实上,在我们周围,“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊,我们的世界正在变成一个机器 ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • BashShell作为Linux的指定合作伙伴我们已经再熟悉不过了,使用Bash可以快速编写简单的脚本方便我们的日常比如善用vim,awk和sed三剑客,也可以创建十分复杂的逻辑, ... [详细]
author-avatar
多米音乐_34084632
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有