AI进入“深水区”，算法是潜在偏见的最后解决方案？

作者：ngzhaicai9672364 | 来源：互联网 | 2023-01-11 16:08

人工智能本来并不存在偏见，它不会因为无法通过逻辑来解释的理由而“想”某些东西是真的或假的。不幸的是，从创建算法到解释数据，机器学习中存在着人类的偏见，并且直到现在，几乎没有人试图解

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

人工智能本来并不存在偏见，它不会因为无法通过逻辑来解释的理由而“想”某些东西是真的或假的。不幸的是，从创建算法到解释数据，机器学习中存在着人类的偏见，并且直到现在，几乎没有人试图解决这个严重的问题。

本周二，外媒表示，由谷歌前首席技术官Varun Kacholia和Facebook前搜索引擎工程师Ashutosh Garg一起创立的AI公司，近日完成了2400万美元的融资，投资方为Lightspeed Ventures和Foundation Capital。

这是一家旨在通过公开收集世界各地的劳动力的信息，解决雇佣、求职和晋升的信息鸿沟与招聘歧视问题的初创公司，依托于自主研发的软件收集处理招聘职位和应聘者的个人信息，人工智能系统的处理减轻了信息不对称的问题，匹配率比传统招聘的提高了八倍，同时还节约了90%的筛选成本。

将大数据和算法自动化决策应用于劳动力的筛选上无可厚非，庞大的数据基础也可以提高决策的效率。但算法的结果一定没有偏差吗？对此，Gary表示：“人们在招聘过程中也存在偏见，这是因为个体获取的信息是有限的。而数据算法为招聘人员提供了充足的信息和洞见，弥补了招聘人员可能因不了解某些技能或公司而产生的误差，从而大幅增加合格候选人的数量。”

640?wx_fmt=png&wxfrom=5&wx_lazy=1

按照该公司的说法，产品的筛选机制将消除任何潜在的人类偏见，使其完成符合平等就业机会委员会的规定，年龄、性别、种族、宗教、残疾等都不会成为算法的参考标准。消除人们固有的成见，使人事决策变得不那么“私人化”固然有可取之处，但前提是决策系统本身不受这些偏见的影响。对算法的监督和修正，必然成为算法运行的重中之重。

其实，对于人工智能的偏见问题，在2017年的时候，一篇来自MIT Technology Review的文章就曾针对这一问题发表过相关评论。

“在机器学习和人工智能发展的关键时刻，算法偏见正逐渐成为一个重大的社会问题。如果算法中潜在的偏见导致很重要的决策不被承认、不受控制，这可能会造成更严重的负面后果，尤其是对较贫穷的社区和少数群体。另外，最终的抗议可能会阻碍一项极其有用的技术的进步。”

而算法专家凯文·斯拉文（Kevin Slavin）也曾在TED演讲中表示，算法“提炼自这个世界，来源于这个世界”，而现在则“开始塑造这个世界”。在算法“塑造世界”的时代，我们应该思考的是：该如何突破算法的瓶颈，赋予AI正向的价值。

算法其实并不客观

在我们的认知里，算法最大的优势是能够根据用户的“数字自我”实现智能化、精准化推荐。换句话说，算法是人们在众多的信息中寻找自己所需材料的快速通道，这个过程的实现也是基于人们对算法的信任，即它具有“客观性”。

640?wx_fmt=png

不过，人们都忘了一点，AI算法及其决策程序是由开发者塑造的。开发者写入的代码，使用的训练数据以及对算法进行应力测试的过程，都会影响算法之后的选择。这就意味着开发者的价值观、偏见和人类缺陷都会反映在软件上。

就像Facebook一直过不去的“剑桥分析丑闻”事件，利用先进的计算技术或者AI技术，试图通过人们的隐私数据来操纵选举，其实质，就是基本数据伦理的问题。每个公司都有属于自己的一套算法，因为他们都有不同的目的和价值观。获取信息时，我们觉得自己有权利去做选择，但实际上，所有的选项都是算法给出的既定选项。

这么看来，算法并不客观。

在不客观中学会自救

对算法的质疑从其诞生起就一直存在，这种质疑反映出了人类的科学理性。在对算法的设计提出继续完善的同时，学会自救也是必要的，换句话说我们要学会自我保护。

就整体情况而言，算法的最大问题，在于其不透明性。对于这个复杂的领域，专业的技术人员至今也未能全部摸清楚，搞明白，更不用说普通人了。所以，在不确定其设计理念或者运行逻辑的情况下，我们要做的是明确“算法并不客观”的理念，时刻对其限制表示警惕。

或许，这个时候，较为激进的思维模式更受欢迎，我们要学会提问，从提问中了解算法发生的作用以及其最初的设计目的。比如，用传统网页方式浏览新闻，尽量不依靠智能搜索，虽然不一定能成功，但是还是要学着用自己的逻辑对抗算法可能带来的信息窄化，从而不被算法限制。

如何减少人工智能的偏见

至于如何减少人工智能的偏见，微软的研究员表示，最好的方式是从算法训练的数据开始审查，这是一种有效的方式。

640?wx_fmt=png

数据分布本身有一定的偏见性。还是以美国大选为例，开发者手中的美国公民数据分布并不均衡，本地居民的数据多于移民者，富人多于穷人，这都是可能出现的情况。而数据的不均衡可能会使AI对社会的组成得出错误的结论，比如仅仅通过机器学习算法分析，就得出“大多数美国人都是富有的白人”这个结论。

同样的，也有研究表明，用于执法部门的AI 在检测新闻中出现的罪犯照片时，结果会偏向黑人和拉丁美洲裔居民。此外，训练数据中存在的偏见还有很多其他形式，只不过这些提到的更多一些。但是训练数据只是审查方式的一种，通过“应力测验”找出人类存在的偏见也同样重要。

其实要让AI变得没有偏见，我们就要勇于去揭开算法的“黑箱”。快手CEO宿华曾说，如果没有很好的对社会的认知、对人文的思考，仅靠技术本身会很容易走偏，要用哲学的智慧将算法、技术力量放大，从而避免表达幸福感的种种障碍。现在，我们要做的就是尽最大的努力去避免这些事情的发生。

640?wx_fmt=gif

推荐阅读

自动驾驶
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
人工智能
大数据就业前景及人才需求

近年来，大数据成为互联网世界的新宠儿，被列入阿里巴巴、谷歌等公司的战略规划中，也在政府报告中频繁提及。据《大数据人才报告》显示，目前全国大数据人才仅46万，未来3-5年将出现高达150万的人才缺口。根据领英报告，数据剖析人才供应指数最低，且跳槽速度最快。中国商业结合会数据剖析专业委员会统计显示，未来中国基础性数据剖析人才缺口将高达1400万。目前BAT企业中，60%以上的招聘职位都是针对大数据人才的。 ... [详细]

蜡笔小新 2023-12-14 16:25:20
深度学习
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
人工智能
数据结构与算法的重要性及基本概念、存储结构和算法分析

数据结构与算法在编程领域中的重要性不可忽视，无论从事何种岗位，都需要掌握数据结构和算法。本文介绍了数据结构与算法的基本概念、存储结构和算法分析。其中包括线性结构、树结构、图结构、栈、队列、串、查找、排序等内容。此外，还介绍了图论算法、贪婪算法、分治算法、动态规划、随机化算法和回溯算法等高级数据结构和算法。掌握这些知识对于提高编程能力、解决问题具有重要意义。 ... [详细]

蜡笔小新 2023-12-09 10:17:45
深度学习
2018年人工智能大数据的爆发，学Java还是Python？

本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代，Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言，容易上手。其特色之一是强制使用空白符作为语句缩进，使得新手可以快速上手。目前，Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣，欢迎加入qq群458345782。 ... [详细]

蜡笔小新 2023-12-14 20:08:28
机器学习
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
人工智能
如何使用计算机控制遥控车的步骤和电路制作方法

本文介绍了使用计算机控制遥控车的步骤和电路制作方法。首先，需要检查发送器的连接器和跳线，以确定命令的传递方式。然后，通过连接跳线和地面，将发送器与电池的负极连接，以实现遥控车的前进。接下来，制作一个简单的电路，使用Arduino命令将连接到跳线的电线接地，从而实现将Arduino命令转化为发送器命令。最后，通过焊接晶体管和电阻，完成电路制作。详细的步骤和材料使用方法将在正文中介绍。 ... [详细]

蜡笔小新 2023-12-13 15:08:01
人工智能
分享2款网站程序源码/主题等后门检测工具

本文介绍了2款用于检测网站程序源码和主题中是否存在后门的工具，分别是WebShellkiller和D盾_Web查杀。WebShellkiller是一款支持webshell和暗链扫描的工具，采用多重检测引擎和智能检测模型，能够更精准地检测出已知和未知的后门文件。D盾_Web查杀则使用自行研发的代码分析引擎，能够分析更为隐藏的WebShell后门行为。 ... [详细]

蜡笔小新 2023-12-13 09:10:23
深度学习
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
机器学习
词袋模型的通俗介绍

词,袋, ... [详细]

蜡笔小新 2023-12-12 08:20:03
人工智能
如何使用代理服务器进行网页抓取？

本文介绍了如何使用代理服务器进行网页抓取，并探讨了数据驱动对竞争优势的重要性。通过网页抓取，企业可以快速获取并分析大量与需求相关的数据，从而制定营销战略。同时，网页抓取还可以帮助电子商务公司在竞争对手的网站上下载数百页的有用数据，提高销售增长和毛利率。 ... [详细]

蜡笔小新 2023-12-11 13:12:52
机器学习
商汤科技面试——CV算法面经详解及相关问题讨论

本文详细介绍了商汤科技面试中涉及的CV算法面经内容，包括CornerNet的介绍与CornerPooling的解决方案、Mimic知识蒸馏的实现方式、MobileNet的特点、普通卷积和DW PW卷积的计算量推导、Residual结构的来源等。同时还讨论了在人脸关键点和检测中的mimic实现方式、pose对人脸关键点的提升作用、目标检测中可能遇到的问题以及处理检测类别冲突的方法。此外，还涉及了对机器学习的了解程度和相似度分析的问题。 ... [详细]

蜡笔小新 2023-12-11 11:14:03
自然语言处理
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
人工智能
Learning to Paint with Model-based Deep Reinforcement Learning

本文介绍了一种基于模型的深度强化学习方法，通过结合神经渲染器，教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等，以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战，包括绘制纹理丰富的图像等。通过对比实验的结果，作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]

蜡笔小新 2023-12-11 10:27:44
深度学习
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15

ngzhaicai9672364

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章