热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

浅谈云计算大数据人工智能

背景2020年2月7日晚,由于武汉肺炎疫情影响,宅在家里即为国家贡献。此刻父亲在刷着抖音app,母亲在刷着快手app,而我作为一个it从业者开始思考互联网给我们带来了什么;概括总

背景

  2020年2月7日晚,由于疫情疫情影响,宅在家里即为国家贡献。此刻父亲在刷着抖音app,母亲在刷着快手app,而我作为一个it从业者开始思考互联网给我们带来了什么;概括总结起来互联网给人们带来了内容服务这两大块,其中内容以文本,图片,音频,视频的形式呈现,并提供给网民信息知识,或者让网民愉悦心情。而服务呢,全部包含了人们的衣(电商)、食(外卖,团购)、住(自如租房)、行(打车)、消费(支付宝,微信)、交流(微信)、游戏(腾讯);可以说互联网已经改变了我们的生活习惯,我们也离不开互联网;作为普通用户可以很简单的拥有一部手机,然后买些流量可上网,下载如上所说的app,便能够尽享当下互联网的繁荣;然而作为一名程序猿更应该知晓这背后的一个个复杂的系统是如何的运作起来,特别的是当用户量很大,或者某个时刻激增的时候系统能否依然稳健运行,针对这个问题,我想浅谈《云计算》,《大数据》,《人工智能》。(知识水平有限,如有错误表述,请批评指正)

part1-云计算

为什么要云计算

  基于合理高效利用计算资源的思想,将孤立的服务器通过云计算技术集中起来,虚拟化成一个云系统。这种云系统可类比为“金箍棒”,根据需要可灵活调节,如“针”,如“擎天柱”。

  这种资源的整合集中有如下的好处。

  1. 节约固定资产成本开销,初创公司在探索尝试阶段,不用先投入高昂资本到物理服务器上;
  2. 极高灵活性,包括时间灵活性,空间灵活性,计算服务可关可开,可大可小;
  3. 扩容效率高,在某个时间段需要大量计算服务的场景下,(如淘宝双11,春运火车票购买),通过云计算技术可以高效升级资源服务;

云计算是什么

  云计算的思想可类比为自来水厂集***水,用户按需使用并缴纳相应水费;云计算的目标是资源的管理,主要涉及到计算资源、网络资源、存储资源;

  

   云计算的前辈-虚拟机,虚拟机属于半自动化,因为需要专业工作者的人工配置;而且这种虚拟化技术能够实现最大集群规模不过百台物理机。

  以下是一些虚拟化的软件;

  1. vmware: 商业;稳定性强;花钱
  2. kvm:免费开源
  3. virtualbox:桌面级虚拟化;桌面级开源;对于生产并不适用

  云计算的产生

  1. 云计算领头羊亚马逊aws,亚马逊的电商业务也分淡季和旺季,淡季的时候就想使用少量的计算服务资源,而旺季的时候又必须很快使用到计算服务资源;此外使用商用的vmware需要花费高昂的费用。因此亚马逊基于开源的kvm虚拟化技术开发出aws云计算软件系统,并利用它赚了很多钱。

  2. 云计算的老二rackspace与美国航空航天局合作开源了openstack,意图集结全球之力一起干亚马逊的云计算

  云计算的分类

  1. 私有云:使用私有云的用户财大气粗,出于数据安全的考虑,只希望云厂商将云计算技术部署到自己的物理机器上;
  2. 公有云:云厂商自己提供物理机,并搭建维护起来的云服务,面向小微企业提供按需付费的服务;

  云计算的三种业务模式

  类比现实生活中“躺在家里床上,我想吃麦当劳汉堡”,这个汉堡如何能够出现在我的面前呢?(例子可能不太恰当)

  1. 汉堡从实体店里生产出,要有个麦当劳店铺,‘泥瓦匠们’装修了这个店铺(厨房、吧台、吊顶。。。)类比为laas,即基础设施服务
  2. 厨师在店铺里,揉面,热烤肠等制作出汉堡。类比为paas,即平台服务
  3. 我点了个外卖,获取了这个汉堡。支持送外卖的服务,类比为saas,即软件即服务

  以计算机的角度理解如下

  1. laas:云计算成功部署实现对计算,网络,存储资源的弹性控制后,出现的资源管理平台,即为基础设施服务,laas
  2. paas:有了laas之后,还需要使应用层弹性,应用可分为通用的程序和自己开发的业务程序
    1. 通用的程序不用安装,一般放到标准的paas层;如spark、redis、mysql、hadoop、elasticsearch
    2. 自己的程序自动安装,需要自己做一些自动化部署脚本的工作
      1. 自己开发的脚本在不同的环境中会千差万别,在这个环境work,另外一个环境可能就不work,基于此容器的思想应运而生
        1. docker技术
        2. k8s技术,管理docker的平台
        3. openstack、docker、k8s的关系:https://blog.csdn.net/dualvencsdn/article/details/79207281
  3. saas:软件即服务,是云计算最上层直接展现给用户的成品,用户按需进行付费使用

part2-大数据 

为什么要大数据

  1. 互联网发展,网民产出了海量的数据。
  2. 如何对海量数据进行价值提取,涉及到如下环节
    1. 海量数据收集
    2. 海量数据传输
    3. 海量数据存储
    4. 海量数据计算

大数据涉及的关键技术

  1. 数据收集:多台机器分工协作完成收集,最后再汇总。
  2. 数据传输:一个内存里面的队列肯定会被大量的数据挤爆掉,于是就产生了基于硬盘的分布式队列,这样队列可以多台机器同时传输,随你数据量多大,只要我的队列足够多,管道足够粗,就能够撑得住。
  3. 数据存储:一台机器的文件系统肯定是放不下的,所以需要一个很大的分布式文件系统来做这件事情,把多台机器的硬盘打成一块大的文件系统。
  4. 数据计算:一台机器处理大文件肯定耗时严重,采用分布式计算的思想,如hadoop、spark等,多台机器协作处理,大大提升了任务的效率。

part3-人工智能 

为什么要人工智能

 人类发明计算机的终极梦想是实现机器像人一样能够对知识有归纳,演绎的能力。当计算机赋有这样的能力后,就可以帮助人类做很多事情,例如(人脸识别,机器翻译,语音识别,个性化推荐等等)。

当前人工智能如何实现

  1. 对知识归纳:机器学习阶段,即是输入要学习的数据,进行模型训练,产出模型的过程;
  2. 对知识演绎:模型应用阶段,让模型能够很好的对新知识进行预测;

人工智能-对于文本处理完整的任务流程

  1. 模型
    1. 机器学习:LR、SVM 、LDA、GBDT、XGB、PCA、simhash、kmeans、knn、决策树、随机森林等
    2. 深度学习-文本分类:fasttext、textcnn、han、dpcnn
    3. 深度学习-文本相似:simnet(双塔网络)
    4. 深度学习-机器翻译:transformer
  2. 损失函数
    1. MSE(L2 loss)、L1 loss、交叉熵、log loss
  3. 优化器
    1. sgd、adam、adagrad
  4. 数据输入
    1. 样本构成
      1. 训练集合(针对二分类,一般正负样本量=1:1)
      2. 测试结合(同上)
    2. 数据样式
      1. 对于深度学习embeding过程:文本一般会look up词表,转成id数字
      2. 对于机器学习:往往构造特征
  5. 模型效果评估的常用指标(对于分类任务
    1. 训练集、测试集上的:准确率、召回率
    2. F1-score
    3. auc

参考

https://zhuanlan.zhihu.com/p/35996270?utm_source=wechat_session&utm_medium=social&utm_oi=696370488514998272


推荐阅读
  • ZooKeeper 学习
    前言相信大家对ZooKeeper应该不算陌生。但是你真的了解ZooKeeper是个什么东西吗?如果别人面试官让你给他讲讲ZooKeeper是个什么东西, ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 本文介绍了Python高级网络编程及TCP/IP协议簇的OSI七层模型。首先简单介绍了七层模型的各层及其封装解封装过程。然后讨论了程序开发中涉及到的网络通信内容,主要包括TCP协议、UDP协议和IPV4协议。最后还介绍了socket编程、聊天socket实现、远程执行命令、上传文件、socketserver及其源码分析等相关内容。 ... [详细]
  • 本文介绍了Hyperledger Fabric外部链码构建与运行的相关知识,包括在Hyperledger Fabric 2.0版本之前链码构建和运行的困难性,外部构建模式的实现原理以及外部构建和运行API的使用方法。通过本文的介绍,读者可以了解到如何利用外部构建和运行的方式来实现链码的构建和运行,并且不再受限于特定的语言和部署环境。 ... [详细]
  • 图解redis的持久化存储机制RDB和AOF的原理和优缺点
    本文通过图解的方式介绍了redis的持久化存储机制RDB和AOF的原理和优缺点。RDB是将redis内存中的数据保存为快照文件,恢复速度较快但不支持拉链式快照。AOF是将操作日志保存到磁盘,实时存储数据但恢复速度较慢。文章详细分析了两种机制的优缺点,帮助读者更好地理解redis的持久化存储策略。 ... [详细]
  • Oracle优化新常态的五大禁止及其性能隐患
    本文介绍了Oracle优化新常态中的五大禁止措施,包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB,并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况,并提出了解决方案。 ... [详细]
  • 本文介绍了操作系统的定义和功能,包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别,包括进程和线程的定义和作用。 ... [详细]
  • 一次上线事故,30岁+的程序员踩坑经验之谈
    本文主要介绍了一位30岁+的程序员在一次上线事故中踩坑的经验之谈。文章提到了在双十一活动期间,作为一个在线医疗项目,他们进行了优惠折扣活动的升级改造。然而,在上线前的最后一天,由于大量数据请求,导致部分接口出现问题。作者通过部署两台opentsdb来解决问题,但读数据的opentsdb仍然经常假死。作者只能查询最近24小时的数据。这次事故给他带来了很多教训和经验。 ... [详细]
  • Centos下安装memcached+memcached教程
    本文介绍了在Centos下安装memcached和使用memcached的教程,详细解释了memcached的工作原理,包括缓存数据和对象、减少数据库读取次数、提高网站速度等。同时,还对memcached的快速和高效率进行了解释,与传统的文件型数据库相比,memcached作为一个内存型数据库,具有更高的读取速度。 ... [详细]
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • ejava,刘聪dejava
    本文目录一览:1、什么是Java?2、java ... [详细]
  • 大坑|左上角_pycharm连接服务器同步写代码(图文详细过程)
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了pycharm连接服务器同步写代码(图文详细过程)相关的知识,希望对你有一定的参考价值。pycharm连接服务 ... [详细]
  • (九)Docker常用安装
    一、总体步骤1、搜索镜像2、拉取镜像3、查看镜像4、启动镜像5、停止镜像6、移除镜像二、安装tomcat1、dockerhub上面查找tomcat镜像 dockersearchto ... [详细]
  • Java和JavaScript是什么关系?java跟javaScript都是编程语言,只是java跟javaScript没有什么太大关系,一个是脚本语言(前端语言),一个是面向对象 ... [详细]
  • Redis的默认端口、数据库使用和多端口配置
    本文介绍了Redis的默认端口、数据库使用和多端口配置的方法。通过选择不同的数据库和使用flushdb命令可以实现对不同数据库的访问和清除数据。同时,本文还介绍了在同一台机器上启用多个Redis实例的方法,并讨论了配置认证密码的步骤和注意事项。 ... [详细]
author-avatar
后果搞活棵_654_962
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有