研究表明：数据来源仍然是 AI 的主要瓶颈

数据是机器的命脉。没有它，你就无法构建任何与 AI 相关的东西。根据 Appen 本周发布的 AI 和机器学习状况报告，许多组织仍在努力获取良好、干净的数据以维持其 AI 和机器学习计划。

根据Appen对人工智能的调查，在人工智能的四个阶段——数据采购、数据准备、模型训练和部署以及人工指导的模型评估中，数据采购消耗的资源最多、花费的时间最多、最具挑战性。 504 位商业领袖和技术专家。

根据 Appen 的调查，平均而言，数据采购消耗组织人工智能预算的 34%，而数据准备和模型测试和部署各占 24%，模型评估各占 15%，该调查由 Harris Poll 进行，包括 IT 决策者、来自美国、英国、爱尔兰和德国的商业领袖和经理以及技术从业者。

就时间而言，数据采购消耗组织大约 26% 的时间，而数据准备和模型测试、部署和模型评估分别占 24% 和 23%。最后，与模型评估 (41%)、模型测试和部署 (38%) 以及数据准备 (34%) 相比，42% 的技术人员认为数据采购是 AI 生命周期中最具挑战性的阶段。

据技术专家称，数据采购是人工智能面临的最大挑战。但商界领袖对事物的看法不同……

尽管存在挑战，但组织正在使其发挥作用。据 Appen 称，五分之四 (81%) 的受访者表示，他们有信心拥有足够的数据来支持他们的人工智能计划。这一成功的关键可能在于：绝大多数 (88%) 正在通过使用外部 AI 训练数据提供商（例如 Appen）来扩充他们的数据。

然而，数据的准确性是有问题的。Appen 发现，只有 20% 的调查对象报告数据准确率超过 80%。只有 6%（约十分之一的人）表示他们的数据准确度为 90% 或更高。换句话说，五分之一的数据包含超过 80% 的组织的错误。

考虑到这一点，根据 Appen 的调查，近一半 (46%) 的受访者同意数据准确性很重要，“但我们可以解决它”，这也许并不奇怪。只有 2% 的人表示数据准确性不是一个大需求，而 51% 的人同意这是一个关键需求。

看来，Appen 首席技术官 Wilson Pang 对数据质量重要性的看法与 48% 的客户认为数据质量不重要。

“数据准确性对于 AI 和 ML 模型的成功至关重要，因为质量丰富的数据会产生更好的模型输出以及一致的处理和决策制定，”Pang 在报告中说。“为了获得良好的结果，数据集必须准确、全面且可扩展。”

研究表明：数据来源仍然是 AI 的主要瓶颈

超过 90% 的 Appen 受访者表示他们使用预先标记的数据

Pang在最近的一次采访中告诉表示，深度学习和以数据为中心的 AI 的兴起已将 AI 成功的动力从良好的数据科学和机器学习建模转变为良好的数据收集、管理和标记。对于当今的迁移学习技术来说尤其如此，人工智能从业者从一个大型预训练语言或计算机视觉模型的顶部跳出来，用他们自己的数据重新训练一小部分层。

更好的数据还可以帮助防止不必要的偏见渗入 AI 模型，并通常防止 AI 出现不良结果。澳鹏人工智能专家高级主管 Ilia Shifrin 表示，对于大型语言模型尤其如此。

“随着基于多语言网络爬虫数据训练的大型语言模型 (LLM) 的兴起，公司面临着另一个挑战，”Shifrin 在报告中说。“由于大量有毒的语言，以及训练语料库中的种族、性别和宗教偏见，这些模型经常表现出不良行为。”

Web 数据中的偏见引发了一些棘手的问题，虽然有一些变通方法（改变训练方案、过滤训练数据和模型输出，以及从人类反馈和测试中学习），但需要更多的研究来为“以人为中心”建立一个良好的标准Shifrin 说，LLM 基准和模型评估方法。

据 Appen 称，数据管理仍然是 AI 面临的最大障碍。调查发现，人工智能循环中 41% 的人认为数据管理是最大的瓶颈。缺乏数据排在第四位，30% 的人认为这是 AI 成功的最大障碍。

但也有一些好消息：组织花在管理和准备数据上的时间呈下降趋势。Appen 说，今年这一比例刚刚超过 47%，而去年的报告中为 53%。

研究表明：数据来源仍然是 AI 的主要瓶颈

数据准确性水平可能没有某些组织希望的那么高

“大多数受访者使用外部数据提供商，可以推断，通过外包数据采购和准备，数据科学家正在节省正确管理、清理和标记数据所需的时间，”数据标签公司表示。

然而，从数据中相对较高的错误率来看，也许组织不应该缩减他们的数据采购和准备流程（无论是内部的还是外部的）。在建立和维护 AI 流程方面存在许多相互竞争的需求——聘用合格的数据专业人员是澳鹏确定的另一个首要需求。但是，在数据管理方面取得重大进展之前，组织应继续对其团队施加压力，以继续推动数据质量的重要性。

调查还发现，93% 的组织强烈或在某种程度上同意道德 AI 应该是 AI 项目的“基础”。Appen 首席执行官 Mark Brayan 表示，这是一个良好的开端，但还有很多工作要做。“问题是，许多人都面临着试图用糟糕的数据集构建伟大的人工智能的挑战，这为实现他们的目标创造了一个重要的障碍，” Brayan 在一份新闻稿中说。

根据 Appen 的报告，内部、自定义收集的数据仍然是用于 AI 的组织的大部分数据集，占数据的 38% 到 42%。合成数据的表现出乎意料地强劲，占组织数据的 24% 到 38%，而预先标记的数据（通常来自数据服务提供商）占数据的 23% 到 31%。

特别是合成数据有可能减少敏感人工智能项目中的偏见发生率，97% 的澳鹏受访者表示他们“在开发包容性训练数据集时”使用合成数据。

该报告的其他有趣发现包括：