热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

lisp线性标注自动避让_《数据标注工程》第一章学习笔记及作业:数据标注概述...

第一章:数据标注概述一、数据标注的起源与发展1、人工智能行业的发展AI的概念:意指让机器具有像人一般的智能行为(1956年,

42edcd4b75d893b7cff727f805ba1b6b.png

第一章:数据标注概述

一、数据标注的起源与发展

1、人工智能行业的发展

  • AI的概念:意指让机器具有像人一般的智能行为(1956年,达特茅斯会议,由约翰·麦卡锡提出)
  • AI的发展:60多年来,浮浮沉沉、三起三落

6683149fcce7606a1ca0c3c656ee2f39.png

b256ad989d39285e2c240d1cd40a6909.png
人工智能发展史

2、数据标注的起源与发展

  • 前两次AI浪潮中,由于数据量级很小,数据标注主要由研究的工程师完成
  • 第三次浪潮后,数据标注需求逐渐增大
  • 2011年,数据标注的外包市场开启
  • 2017年,数据标注行业真正爆发

3、什么是数据标注

  • 概念:通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习的基础素材的过程。

4、数据标注分类概述

a. 图像标注:

  • 对汽车和行人进行筛选、分类、标框等
  • 对骨骼进行描点
  • 对病理切片标注

74a2cde4fafc04423ae49778d743575c.png
图像标注

b. 语音标注:

  • 发音人角色标注
  • 环境情景标注
  • 多语种标注
  • ToBI(Tones and Break Indices)韵律标注体系标注
  • 噪声标注等

534316593aa4df8b4ed2024974e4878b.png
语音标注

c. 文本标注:

  • 语句分词标注
  • 语义判定标注
  • 文本翻译标注
  • 情感色彩标注
  • 拼音标注
  • 多音字标注
  • 数字符号标注等

4c53ca04c55ffed5ff0b6129500b0b1e.png
文本标注

5、数据标注流程概述

df886a9b2c187e18d58c8a520798585a.png
数据标注流程

a. 数据采集:

采集来源:

    • 公开数据集
    • 专业数据集

获取方式:

    • 用SQL从内部数据库提取
    • 下载公开数据集
    • 编写网页爬虫自主收集

采集要求 :

    • 要考虑采集规模和预算
    • 要注重采集数据的多样性
    • 考虑是否适用于应用场景
    • 采集方法要合法合理

b. 数据清洗:

概念:

    • 清洗脏数据,将数据统一成适合于标注且与注意密切相关的标准格式,以帮助训练更为精确的数据模型和算法

方法:

    • 对所有采集的数据进行筛检,最大限度的纠正数据的不一致性和不完整性

举例:

    • 去除重复值
    • 去除无关值
    • 去除异常值
    • 补充缺失值
    • 平滑噪声数据

c. 数据标注:

先试标:

    • 需求方算法工程师给出标注样板
    • 详细阐述标注需求和标注规则

后标注:

    • 有数据标注员对不同素材的数据进行标注

d. 数据质检:

目的:

    • 提高输出数据的准确率

方法:

    • 排查
    • 抽查

二、数据标注的应用场景

1、出行行业

场景 :

  • 汽车自动驾驶研发
  • 规划出行路线
  • 优化驾驶环境

应用:

  • 矩形框或描点标注车辆
  • 矩形框或描点标注人体轮廓
  • 在地图上标记POI

2、金融行业

场景:

  • 身份验证
  • 智能投资顾问
  • 风险管理
  • 欺诈检测

应用:

  • 通过语义分析制作合同研发软件,大大缩短合同审查工作的时间,并显著降低错误率

3、医疗行业

场景:

  • 医学编码和注释
  • 远程医疗
  • 医疗机器人
  • 医疗影像
  • 药物挖掘
  • 疾病预测

应用:

  • 人体标框
  • 3D画框
  • 骨骼点标记
  • 病历转录

4、家居行业

场景:

  • 智能家居

应用:

  • 矩形标框标记人脸
  • 人脸精细分割
  • 对物品进行画框标记
  • 通过描点来区域划分
  • 采集语音进行标注处理

5、安防行业

场景:

  • 日常监控

应用:

  • 人脸标注
  • 视频分割
  • 语音采集
  • 行人标注

6、公共服务

场景:

  • 内容审核

应用:

  • 将同意语句归类的语义分析
  • 音频转化文字的语音转录

7、电子商务

场景:

  • 建立客户全生命周期数据
  • 预测需求趋势
  • 优化价格与库存
  • 精准营销

应用:

  • 搜索完善
  • 情绪分析
  • 人脸标注
  • 语音采集

三、有多少智能,就有多少人工

1、有监督的机器学习

AI体系的三大底层:

  • 数据
  • 算法
  • 应用

机器学习 :

  • 有监督学习
    • 核心在于“分类”
    • 主要用于实际产品应用
  • 无监督学习
    • 核心在于“聚类”
    • 主要用于探索研究
  1. 数据标注工作都是有监督学习

2、最后一批人工智能的“老师”

AI疯狂生长,标注岗位逐渐消亡:

  • 由弱人工智能,到强人工智能,直至超人工智能
  • 最终“学生“将超越”老师“,人工标注也将不复存在

目前阶段的AI辅助工具:

  • 例如“流体标注”

39e83b959a533762d76aa7e680db2a09.png
手动标注和流体标注的对比

四、数据越多,智能越好

深度学习的成功归功于:

  • 高容量的模型
  • 越来越强的计算能力
  • 可用的大规模标签数据

大规模数据有助于表征学习:

  • 模型性能与数据的数量级呈线性增长关系

1c037a92a5d8642eba771c50992137eb.png
测试性能随数据量呈线性增长
  • 随着感知智能向认知智能发展,对数据标注的维度和细化程度的要求也会增加

五、本章框架

b4ed7a5c3a1e54362eb5a4b22b8066c3.png

六、作业与练习

1、如何理解数据标注与人工智能的关系?

答:人工智能意指让机器具有像人一般的智能行为,目前阶段的人工智能技术主要通过机器学习算法来达到相应的目的,而数据标注工作通过对数据进行处理,标记对象的特征,为机器学习提供了基础素材,因此数据标注可以看做是部分人工智能算法的前期基础工作。

2、什么是数据标注?

答:通过分类、画框、标注、注释等方法,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习的基础素材的过程就是数据标注。

3、数据标注对象可以划分为哪几类?

答:按标注对象为分类基础,可分为:图像标注、语音标注和文本标注等。

4、数据标注流程包括哪些环节?

答:包括四个环节,即数据采集、数据清洗、数据标注和数据质检。

5、数据标注有哪些应用场景?

答:数据标注的应用场景随着人工智能行业的发展日趋多样化,深入各行各业。例如:出行行业中的自动驾驶研发、物联网数据、交通网络大数据、车载应用技术等;金融行业中的身份验证、智能投资顾问、风险管理、欺诈检测等;医疗行业中的远程医疗、医疗机器人、医疗影像、药物挖掘、高效诊断与治疗等;家居行业丰富的智能家居场景;安防行业的日常监控、出入境管理、刑侦案件侦查等;公共服务行业的内容审核、语义分析、语音转录、视频审核等;电子商务行业的精准营销、搜索完善、情绪分析等。

6、如何理解“有多少智能,就有多少人工”?

答:机器的智能程度与数据处理的量级和质量直接相关,而目前,数据的采集、清洗、标注、质检大多由人工完成,换言之,现在的弱人工智能阶段,有监督学习的机器智能是通过人工的“老师”“教”出来的。在向强人工智能甚至超人工智能的发展过程中,有监督学习会逐渐向无监督学习或迁移学习进行转变,到时,人工的部分可能将会大幅度削减。

7、数据量级与智能程度之间存在怎样的联系?

答:数据量级越高,智能水平越高,大规模数据有助于表征学习,随着训练数据的数量级增长,模型性能呈线性增长。



推荐阅读
  • 深度学习与神经网络——邱锡鹏
    深度学习与神经网络——邱锡鹏-一、绪论人工智能的一个子领域神经网络:一种以(人工))神经元为基本单元的模型深度学习:一类机器学习问题,主要解决贡献度分配问题知识结构:路线图:顶 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 干货 | 携程AI推理性能的自动化优化实践
    作者简介携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中性能优化组为AI模型提供全方位的优化方案,提升推理性能降低成本࿰ ... [详细]
  • 「爆干7天7夜」入门AI人工智能学习路线一条龙,真的不能再透彻了
    前言应广大粉丝要求,今天迪迦来和大家讲解一下如何去入门人工智能,也算是迪迦对自己学习人工智能这么多年的一个总结吧,本条学习路线并不会那么 ... [详细]
  • 拯救万千学子于水深火热之中!Facebook开源无梯度优化工具
    乾明发自凹非寺量子位出品|公众号QbitAI机器学习啥最苦?十有八九找参数!不少研究生,都被卡在这个环节上,久久不能毕业。现 ... [详细]
  • 近年来,大数据成为互联网世界的新宠儿,被列入阿里巴巴、谷歌等公司的战略规划中,也在政府报告中频繁提及。据《大数据人才报告》显示,目前全国大数据人才仅46万,未来3-5年将出现高达150万的人才缺口。根据领英报告,数据剖析人才供应指数最低,且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示,未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中,60%以上的招聘职位都是针对大数据人才的。 ... [详细]
  • 老牌医药收割AI红利:先投个15亿美元抢中国人才
    萧箫发自凹非寺量子位报道|公众号QbitAI没想到,一场大会把我的“刻板印象”攻破了。2021世界人工智能大会现场,能看见不少熟悉的身影, ... [详细]
  • 2017亚马逊人工智能奖公布:他们的AI有什么不同?
    事实上,在我们周围,“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊,我们的世界正在变成一个机器 ... [详细]
  • Two Sigma人均22万英镑~
    近期原创文章: ... [详细]
  • SLAM优秀开源工程最全汇总
    https:zhuanlan.zhihu.comp145750808 1、CartographerCartographer是一个系统,可跨多个平台和传感器配置以2D和3D形式提供实 ... [详细]
  • 本文介绍了adg架构设置在企业数据治理中的应用。随着信息技术的发展,企业IT系统的快速发展使得数据成为企业业务增长的新动力,但同时也带来了数据冗余、数据难发现、效率低下、资源消耗等问题。本文讨论了企业面临的几类尖锐问题,并提出了解决方案,包括确保库表结构与系统测试版本一致、避免数据冗余、快速定位问题等。此外,本文还探讨了adg架构在大版本升级、上云服务和微服务治理方面的应用。通过本文的介绍,读者可以了解到adg架构设置的重要性及其在企业数据治理中的应用。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • 智商狂飙,问了ChatGPT几个数据库问题后,我的眼镜掉了
    原标题:智商狂飙,问了ChatGPT几个数据库问题后,我的眼镜掉了最近,ChatGPT火爆全网,介绍其产品、公司、作者、技术和应用等方面信息,占据着整个互联网,似乎不谈GPT好像 ... [详细]
author-avatar
谷饶潮流服装HLGC
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有