发展历程 为什么机器偏差是机器学习中的一个问题?

为什么机器偏差是机器学习中的一个问题?

Anonim

问:

为什么机器偏差是机器学习中的一个问题?

A:

这个问题可以用两种不同的方式回答。 首先,为什么会出现机器偏差问题,例如为什么它会出现在机器学习过程中?

机器学习虽然复杂且复杂,但在一定程度上取决于它使用的数据集。 数据集的构建涉及固有偏差。 就像在媒体中,忽略和故意选择包容可能显示出特定的偏差一样,在机器学习中,必须检查所使用的数据集以确定存在哪种偏差。

免费下载: 机器学习及其重要性

例如,对于技术测试和设计过程而言,要显示一种用户优先于另一种用户是一个普遍的问题。 一个重要的例子是科技界的性别差异。

为什么这会有所作为?为什么将其应用于机器学习?

由于在测试环境中缺少现有的女性,可能会导致产生的技术对女性受众不太友好。 一些专家对此的描述是,如果没有现有的女性测试,最终产品可能无法识别女性用户的输入-它可能没有识别女性身份或充分处理女性输入的工具。

对于不同种族,不同宗教信仰的人或其他任何类型的人口统计学也是如此。 没有正确的数据,机器学习算法对于给定的用户集将无法正常工作,因此必须将包含数据故意添加到该技术中。 处理人员不仅要获取主要数据集并加强固有的偏见,还需要真正地研究问题。

另一个例子是机器学习引擎,它吸收工作和薪水信息并吐出结果。 如果未分析该固有数据集,则机器将增强偏差。 如果它认为男人占据了绝大多数行政职位,并且机器学习过程涉及到过滤原始数据集并返回相应的结果,那么它将返回显示出男性偏见的结果。

问题的第二部分涉及为什么这种偏见如此有害。 没有适当的监督和测试,新技术会损害而不是帮助我们包容和平等。 如果推出了一种新技术产品,该产品可以识别肤色较浅的面孔,但不能识别肤色较黑的面孔,则可能导致种族紧张局势升级,并有可能使相关公司对多样性不敏感。 如果机器学习算法重现并加剧数据集中的偏差,那么人工智能将把自己的声音添加到社会系统中已经存在的,有利于一群人而不是另一个人的人类声音和人类倾向中。

解决此问题的最佳方法是仔细查看基础数据集,使用功能选择,添加变量输入并自己处理原始数据集,并通过人工精心制作数据来增强机器学习的真正能力,以获得结果不仅具有强大的分析能力,而且还具有计算机尚无法复制的一些人类见解。

为什么机器偏差是机器学习中的一个问题?