实施人工智能时的数据质量挑战

lanyue 9 0

在本博客中,我们将探讨实施 AI 时导致数据质量挑战的三个主要问题以及我们可以采取的措施。

实施人工智能时的数据质量挑战

  实施 AI 时的数据质量挑战 #1:不完整和不一致的数据记录

没有验证控件的表单通常会用不完整和不一致的信息填充数据集。当输入数据具有未格式化的记录或缺少数据字段时,AI 算法不会按预期运行并给出结果。由于 AI 是为读取和训练模式而构建的,因此任何缺失、不可用和不一致的数据变量都可能会扭曲训练模型的结果。

例如,街道地址信息通常是一个文本字段,因此,地址是从其邮政编码中识别出来的。如果数据记录的邮政编码为空或不完整,则几乎不可能知道该实体的地理位置。此外,如果邮政编码的格式不一致,这也可能导致 AI 算法将相同的邮政编码视为不同的。

数据科学家和分析师花费大量时间手动审查分布在各种数据源中的数百万条记录。它们确保所有必要的特征(或者简单地说,提供给算法的数据变量)不会留空。他们还检查数据字段值是否遵循正确、一致的格式。这些活动要么使用编程语言进行编码,要么使用自助数据准备工具根据一个标准快速转换所有数据集。

  实施 AI 时的数据质量挑战 #2 重复数据

重复的数据记录是有偏见的 AI 结果的主要来源。由于 AI 模型是通过识别数据集中的模式来训练的,因此重复记录会使算法产生偏差并产生不可靠的见解。当多个数据系统集成在一起以创建单个数据源时,就会发生这种情况。这种集成可能通过唯一标识记录来实现,但这些标识符并不总是可用的。由于缺少此类标识符,属于同一实体的记录将被视为不同的记录并保存。

数据分析师相信他们的数据对于训练 AI 模型是可靠的,但重复的记录会导致他们的算法做出不准确的预测。重复记录也增加了算法的计算复杂度,因为模型是在同一实体上多次训练的。

所有数据集都必须经过重复数据删除的过程。此过程(通常称为记录链接或实体解析)可确保比较来自同一数据集或跨多个数据集的数据记录,以确定它们是否属于同一实体。计算一致性模式和似然比以做出决定,然后相应地合并或清除记录。

  实施 AI 时的数据质量挑战 #3:数据集成、清除和存储

如今,组织在其运营中使用多个应用程序。必须将所有这些来源的数据整合在一起,以便用于分析。在将数据合并到单一来源中时,会出现实施 AI 问题的大部分数据质量挑战。发生这种情况是因为在孤岛中,使用了不同的数据类型和格式,属于同一实体的数据记录被单独维护,等等。

例如,如果您需要对特定季节的消费者行为进行预测,您可能需要在一个地方来自多个应用程序的信息,例如您的 CRM、电子邮件营销工具和网站活动跟踪器等。 集成、合并、清除,并将所有这些信息存储为单一来源是大多数数据分析师在任何 AI 项目的初始阶段面临的主要挑战。

数据分析师使用电子表格在一个地方管理所有这些信息,但此类工具有其自身的局限性,例如数据记录数量激增以及对数据记录应用复杂的标准化规则。在实施人工智能时防止数据质量挑战的另一个可行选择是使用数据准备工具,该工具提供与多个应用程序的集成功能,并保留所有数据记录的单一来源。

  结论

实施人工智能时的数据质量挑战是一个严重的问题。当企业的组织数据未按质量进行维护时,企业通常会在收入和其他资源方面遭受损失。现在,企业主比以往任何时候都更加意识到数据质量在人工智能和数据洞察领域的重要性。

发表评论 取消回复
表情 图片 链接 代码

分享