第一生活网

2月24日人工智能的好处集中在数据可用的领域

龙才明
导读 去年,尼日利亚数据科学的研究人员指出,希望训练计算机视觉算法的工程师可以从大量以西方服装为特征的数据集中进行选择,但非洲服装却没有

去年,尼日利亚数据科学的研究人员指出,希望训练计算机视觉算法的工程师可以从大量以西方服装为特征的数据集中进行选择,但非洲服装却没有。该团队通过使用人工智能生成非洲时尚的人工图像来解决这种不平衡问题——这是一个从头开始的全新数据集。

这种合成数据集——计算机生成的样本与真品具有相同的统计特征——在机器学习的数据饥渴世界中变得越来越普遍。这些伪造品可用于在真实数据稀缺或过于敏感而无法使用的领域训练 AI,例如医疗记录或个人财务数据。

合成数据的想法并不新鲜:无人驾驶汽车已经在虚拟街道上进行了训练。但在去年,这项技术已经普及,大量初创公司和大学提供此类服务。例如, Datagen和Synthesis AI按需提供数字人脸。其他人则为金融和保险提供综合数据。麻省理工学院 Data to AI Lab 于 2021 年启动的项目 Synthetic Data Vault 提供了用于创建各种数据类型的开源工具。

合成数据集的繁荣是由生成对抗网络 (GAN) 推动的,GAN 是一种擅长生成真实但虚假的例子的人工智能,无论是图像还是医疗记录。

支持者声称,合成数据避免了许多数据集中普遍存在的偏见。但它只会与用于生成它的真实数据一样公正。例如,在黑人面孔比面孔少的情况下训练的 GAN 可能能够创建具有更高比例黑人面孔的合成数据集,但由于原始数据有限,这些面孔最终可能会变得不那么逼真。

加入我们 3 月 29 日至 30 日在我们的标志性 AI 会议EmTech Digital上,聆听 Unity 的 Danny Lange 谈论视频游戏制造商如何使用合成数据。