热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

coursera《机器学习》吴恩达-week1-01课程介绍

本系列翻译自该学习笔记:http:www.holehouse.orgmlclassindex.html课程地址:https:www.coursera.orgl

本系列翻译自该学习笔记:http://www.holehouse.org/mlclass/index.html
课程地址:https://www.coursera.org/learn/machine-learning/

课程介绍
  • 学习内容

    • 前沿动态
    • 如何实现
  • 机器学习应用范畴
    • 搜索引擎
    • 图片标记
    • 垃圾邮件过滤
  • 使AI像人类一样聪明的梦想
    • 许多人认为最好的方式是模仿人类如何学习
  • 课程涵盖内容
    • 了解最先进的算法
    • 但仅了解其中的算法和数学本身是不够的
    • 需要知道如何将理论运行到实际工作→练习
  • 为何机器学习如此流行?
    • 发源自人工智能领域
    • 计算机的新能力–构建智能机器
      • 你可以编程一台机器做一些简单的事情
        • 大部分硬布线AI太难了
      • 如果一台机器可以从输入中学习,
        • 那么它将为您做好艰苦的工作

例子

  • 数据库挖掘
    • 机器学习最近进展迅速,是因为可利用大量生成的数据
    • 来自自动化网络发展的大数据集
    • 数据来源包括
      • 网页数据(点击流或点击数据)
        • 我们得以更好地了解用户
        • 巨大的硅谷数据
      • 病历
        • 电子记录 - >转录记录
      • 生物数据
        • 基因序列,ML算法更好地了解人类基因组
      • 工程信息
        • 传感器数据,日志报告,照片等
  • 我们无法手工编程的应用程序
    • 自主飞行的直升机
    • 手写识别
      • 这是非常便宜的,因为当您写信封时,算法可以自动将信封路由到帖子中
    • 自然语言处理(NLP)
      • 语言相关的AI
    • 计算机视觉
      • 视觉分析的AI
  • 个性化推荐
    • Netflix公司
    • 亚马逊
    • iTunes天才
    • 获取用户信息
      • 根据用户个体的行为进行学习
  • 了解人类的学习和大脑
    • 如果我们可以建立模仿(或尝试模拟)大脑如何工作的系统,这可能会推动我们对相关神经生物学的理解

机器学习是什么?
  • Here we…
    • Define what it is
    • When to use it
  • 不是一个明确定义的定义
    • 几个例子,人们如何尝试定义它
  • 亚瑟·塞缪尔(1959)
    • 机器学习:“ 在进行特定编程的条件下给予计算机学习能力的领域”
      • 萨缪尔斯写了一个跳棋程序
        • 该程序自我对弈玩了10000场比赛
        • 根据获胜/损失,确定哪些走法是好的
  • 汤姆米歇尔(1999)
    • 良好的学习问题: “ 一个计算机程序被认为能从经验E中学习解决任务T,达到性能度量值P,经过P评判, 程序在处理T时的性能有所提升。”
    • 跳棋示例,
      • E = 10000多局游戏
      • T:下跳棋
      • P:赢还是输
  • 几种类型的学习算法
    • 监督学习
      • 教电脑如何做某事,然后让它使用它;新发现的知识做到这一点
    • 无监督学习
      • 让计算机学习如何做某事,并用它来确定数据中的结构和模式
    • 强化学习
    • 推荐系统
  • 这个课程
    • 看一下应用学习算法的实用建议
    • 学习一套工具以及如何应用它们

监督学习 - 介绍

  • 可能是机器学习中最常见的问题类型
  • 给出一个算法, 需要部分数据集已经有正确答案
  • 从一个例子开始
    • 我们如何预测房价
    • 收集关于房价的数据,以及它们与面积的关系

这里写图片描述

  • 示例问题: “鉴于这些数据,一个朋友有一个750平方英尺的房子 - 他们可以得到多少钱?
  • 我们可以用什么方法来解决这个问题?
    • 直线近似
      • 也许是15万美元
    • 二阶多项式
      • 也许是20万美元
    • 有一件事我们稍后讨论 - 如何选择直线或曲线?
    • 这些方法中的每一种代表着监督学习的一种方式
  • 这是什么意思?
    • 我们给出算法一个提供“正确答案”的数据集
    • 所以我们知道房子的实际价格
      • 这个想法是我们可以从训练集数据中获得使价格达到确定的某个价值的算法
      • 然后,该算法应该根据新的训练数据产生更多关于那些我们尚未知道的价格的正确答案,
        • 即预测价格
  • 我们也称之为回归问题
    • 预测连续性输出(价格)
    • 没有真正的离散描绘
  • 另一个例子
    • 我们可以根据肿瘤大小定义乳腺癌是恶性还是良性

这里写图片描述

  • 观察数据
    • 每种五个
    • 您可以根据肿瘤大小估计预后是否良性吗?
    • 这是一个分类问题的例子
      • 将数据分类为两个离散类之一 - 没有中间值,恶性,或者良性
      • 在分类问题中,可以有一个离散数量的输出可能的值
        • 例如可能有四个值
          • 0 - 良性
          • 1 - 类型1
          • 2 - 类型2
          • 3 - 类型4
  • 在分类问题中,我们可以用不同的方式绘制数据

这里写图片描述

  • 只使用一个属性(大小)
    • 其他问题可能有多个属性
    • 例如,我们也可能同时知道年龄和肿瘤大小

这里写图片描述

  • 基于该数据,您可以尝试通过以下方式定义单独的类
    • 在两组之间画一条直线
    • 使用更复杂的函数来定义两个组(稍后将讨论)
    • 然后,当您具有特定肿瘤大小,特定年龄的个体时,您可以希望使用该信息将其放入您的一个类别
  • 您可能需要考虑许多因素
    • 肿瘤团块厚度
    • 肿瘤细胞大小的均匀性
    • 肿瘤细胞形状均匀
  • 最令人兴奋的算法可以处理无限数量的特征
    • 您如何处理无限数量的功能?
    • 支持向量机的整齐数学技巧(稍后讨论)
      • 如果你有一个无限长的列表 - 我们可以开发和算法来处理
  • 总结
    • 受监督的学习让你得到“正确”的数据结果
      • 回归问题
      • 分类问题

无监督学习 - 介绍

  • 第二大问题类型
  • 在无监督的学习中,我们得到了未标记的数据
    • 仅仅被告知 - 这是一个数据集,你可以结构化它
  • 这样做的一种方法是将数据聚类到组中
    • 这是一个聚类算法

聚类算法

  • 聚类算法示例
    • 谷歌新闻
      • 将新闻报导成凝聚力集团
  • 用于任何其他问题
    • 基因组学
    • 微阵列数据
      • 有一组个体
      • 每个基因的测量表达
      • 运行算法将个体聚类成人类
        这里写图片描述
  • 组织计算机集群
    • 识别潜在的弱点或有效分配工作
  • 社交网络分析
    • 客户数据
  • 天文数据分析
    • 算法给出惊人的结果
  • 本质上
    • 你能自动生成结构
    • 因为我们不给它答案,这是无监督的学习

鸡尾酒派对算法

  • 鸡尾酒会问题
    • 很多重叠的声音 - 很难听到每个人都在说话
      • 两个人说话
      • 与扬声器不同距离的麦克风
        这里写图片描述
  • 根据麦克风的位置,记录不同版本的会话
    • 但是依然重叠严重
  • 录制来自每个麦克风的对话
    • 给他们一个鸡尾酒会的算法
    • 算法处理音频录音
      • 确定有两个音频源
      • 分离出两个来源
  • 这是一个非常复杂的问题
    • 算法可以用一行代码完成!
    • [W,s,v] = svd((repmat(sum(x。* x,1),size(x,1),1)。* x)* x’);
      • 不容易识别
      • 但是,程序可以很短!
      • 以octave(或MATLAB)为例
        • 通常在octave/ MATLAB中的原型算法进行测试,因为它非常快
        • 只有当你显示它工作迁移到C + +
        • 提供更快捷的敏捷开发
  • 了解这个算法
    • svd - 内置于octave的线性代数程序
      • 在C ++中这将非常复杂!
    • 说明使用MATLAB进行快速原型是一个很好的方式

推荐阅读
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析
    本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程,并分析了其所需的资源容量。通过解决错误提示和调整内存大小,成功存储了波形数据。然后,讨论了储存环逐束团信号的意义,以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大,每天需要近250G,一年需要90T。然而,储存环逐束团信号具有重要意义,可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]
  • 近年来,大数据成为互联网世界的新宠儿,被列入阿里巴巴、谷歌等公司的战略规划中,也在政府报告中频繁提及。据《大数据人才报告》显示,目前全国大数据人才仅46万,未来3-5年将出现高达150万的人才缺口。根据领英报告,数据剖析人才供应指数最低,且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示,未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中,60%以上的招聘职位都是针对大数据人才的。 ... [详细]
  • 本文介绍了使用postman进行接口测试的方法,以测试用户管理模块为例。首先需要下载并安装postman,然后创建基本的请求并填写用户名密码进行登录测试。接下来可以进行用户查询和新增的测试。在新增时,可以进行异常测试,包括用户名超长和输入特殊字符的情况。通过测试发现后台没有对参数长度和特殊字符进行检查和过滤。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 推荐 :以数据驱动的方式讲故事
    直觉vs数据首先,你有思考过一个问题吗?当你的直觉与你所掌握的数据矛盾的时候,你是听从于直觉还是相信你所掌握的数据呢?201 ... [详细]
  • 一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到,由于这个问题Google发明 ... [详细]
  • 云原生边缘计算之KubeEdge简介及功能特点
    本文介绍了云原生边缘计算中的KubeEdge系统,该系统是一个开源系统,用于将容器化应用程序编排功能扩展到Edge的主机。它基于Kubernetes构建,并为网络应用程序提供基础架构支持。同时,KubeEdge具有离线模式、基于Kubernetes的节点、群集、应用程序和设备管理、资源优化等特点。此外,KubeEdge还支持跨平台工作,在私有、公共和混合云中都可以运行。同时,KubeEdge还提供数据管理和数据分析管道引擎的支持。最后,本文还介绍了KubeEdge系统生成证书的方法。 ... [详细]
  • 本文介绍了数据库的存储结构及其重要性,强调了关系数据库范例中将逻辑存储与物理存储分开的必要性。通过逻辑结构和物理结构的分离,可以实现对物理存储的重新组织和数据库的迁移,而应用程序不会察觉到任何更改。文章还展示了Oracle数据库的逻辑结构和物理结构,并介绍了表空间的概念和作用。 ... [详细]
  • 本文介绍了一些好用的搜索引擎的替代品,包括网盘搜索工具、百度网盘搜索引擎等。同时还介绍了一些笑话大全、GIF笑话图片、动态图等资源的搜索引擎。此外,还推荐了一些迅雷快传搜索和360云盘资源搜索的网盘搜索引擎。 ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 负载均衡_Nginx反向代理动静分离负载均衡及rewrite隐藏路径详解(Nginx Apache MySQL Redis)–第二部分
    nginx反向代理、动静分离、负载均衡及rewrite隐藏路径详解 ... [详细]
  • 验证识别之你讲武德了吗?
    说说那个试用版的打包软件,既然是试用版肯定要加个试用期限,但是里面的pb模型并没有放识别率最好的那个,而是放了一个识别率中等 ... [详细]
author-avatar
数到我答应我937
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有