机器学习算法有时会产生有偏差的输出,可能会给某些人带来不公正和冒犯。在这篇博客文章中,我们将讨论如何排除偏见,并提供三个关键规则和五种防偏见的解决方案。
在近年来,机器学习算法已经在帮助人们处理不同的任务方面证明了自己的效用:数据分类和聚类、模式揭示、异常检测等等。然而,机器学习算法有时会产生有偏差的输出,可能会给某些人带来不公正和冒犯。例如,在纽约进行的法庭听证会就是为了澄清自动化招聘工具和其可能有偏见的结论的立法问题。
在我的公司,我们经常构建机器学习算法,因此高输出精度对我们来说至关重要。经过研究和测试多个机器学习模型的各种项目,我们成功地确定了帮助我们最小化机器学习算法中偏见的关键规则和解决方案。
如何排除机器学习算法中的偏见
在创建机器学习算法时,我和我的团队遵循三个关键规则:
•确保正确的数据收集。您应该清楚地了解正确培训机器学习模块所需的确切数据和其特征。数据收集应由行业内的专家指导,以便将算法应用到该行业。此外,必须利用探索性数据分析(EDA)来了解收集的数据集的结构、属性和可能的异常情况,然后再将其应用到算法中。
•选择正确的学习模型。构建机器学习算法时,您可以选择不同类型的学习方法,例如监督学习、无监督学习、半监督学习、自监督学习、强化学习、迁移学习和在线学习。根据算法将解决的问题类型、可用数据和期望的结果,您需要确定哪种方法或组合最适合您的算法。
例如,在最近的一个项目中,我们使用了迁移学习和自监督学习的混合方法。这帮助我们减少了学习时间,因为我们不必从头开始训练模型,只需要对其进行微调。这就是我们应用自监督学习的地方,让模型在没有持续人类监督的情况下发现数据模式和依赖关系。
•进行现实偏见评估。尽管算法在开发过程的受控条件下可以很好地运行,但现实世界的应用可能会使您感到棘手。您应该定期使用实际数据测试您的机器学习算法,以检测和纠正偏见,以避免对用户产生负面影响。
检测机器学习偏见
我认为,在构建机器学习算法时,不应忽视偏见预防。这就是为什么我们始终加强我们的偏见检测程序,并使用不同的技术和专门设计的工具来确保高输出精度的原因。我的五种防偏见解决方案包括:
1. AI Fairness 360。这个开源工具包
}
}