人工智能将如何挖掘暗数据?

       人工智能有可能通过分析和解释大量非结构化数据来揭示暗数据,这些数据以前很难或不可能用传统方法进行分析。但Fluree公司首席执行官兼联合创始人BrianPlatz警告说,买家要小心,并非所有数据都是平等产生的。

  ChatGPT引起了人们对生成式人工智能将互联网语境化和排序为简单摘要和答案的能力的新关注。它还强调了过度依赖人们看不见的数据的一些危险。像Reddit这样的论坛很快就有反对人工智能生成的容易出错的回复。其根本的问题是,像ChatGPT这样的现有工具是在可能不可信的数据上训练的,这些数据从未经过准确性、偏见、质量或意义的审查。人们需要开始思考人工智能如何帮助将这些暗数据转化为可信的关联数据的自动化过程。

  转换暗数据

  如今,由于遗留数据管理流程,需要大量的专业知识来审查数据。企业必须开发新的工作流程和工具来理解、清理、处理和链接数据。这就是新的人工智能工具可以帮助企业自动化将锁定在不同应用程序和部门孤岛中的暗数据转换为可信关联数据的过程。人们仍然处于这些新的人工智能工作流程的早期阶段。

  如今,企业在创建新的应用程序、报告或决策引擎时,要花费大量时间来查找和排序数据。领先的企业供应商提供ERP、CRM或事务处理系统,这些系统为一个狭义定义的目的组织数据。然而,这些工具需要在集成、元数据管理和数据清理方面做更多的改进,以支持创新的新用例或业务模型。而且很多企业数据的质量和完整性仍然受到质疑。HFSResearch公司最近的一项调查发现,75%的企业高管不相信他们的数据。

  在过去的几十年,随着企业探索如何理解不断增长的数据存储,大数据的概念开始流行起来。当企业事先知道如何将数据仓库构建成格式时,它们就会构建数据仓库。数据湖是作为一种聚合数据的方式而出现的,它可以在事后重新利用。但企业很快发现,这也需要大量的工作来组织、清理和理解数据。数据科学家和其他需要访问数据的人也不需要大量的数据。在大多数情况下,他们只需要访问很少的特定数据。

  如今,企业数据行业与万维网早期的情况相同,当时人们必须手动管理到其他页面的链接。谷歌很快超越了雅虎等巨头,用一种更好的方式来自动化信息的索引和优先排序。那些找到新方法,利用人工智能更有效地将暗数据转化为可信关联数据的公司,可能会在下一波互联网浪潮中看到类似的收益。

  从链接页面到链接数据

  众所周知,网络在20世纪90年代初引入,为在线查找信息提供了基础设施。值得注意的是,网络的成功是建立在之前链接知识的努力之上的。在线系统(NLS在20世纪60年代早期创建。但它需要一个困难的学习曲线,限制了少数专家的使用。实际上,在20世纪80年代初在欧洲核子研究中心担任临时承包商时,首次尝试将文件与一款名为ENQUIRE的应用程序联系起来。

  1984年,当他回到欧洲核子研究中心工作时,他意识到要保持链接的更新需要大量的人工工作。HTML的引入允许发布者以一种减轻其他人负担的方式构建信息。这种改进的结构为因特网成长为当今的样子提供了适当的基础。

  然而,他也设想互联网是一个连接的语义网,用户可以在其中写入和读取数据。他早期的浏览器在功能强大的NeXT电脑上运行。最终被广泛采用的马赛克浏览器是为性能较差的计算机设计的,不支持链接数据或身份,因此它们只能用于读取数据而不能写入数据。关联数据可以更容易地理解数据是如何连接的,而身份则需要遵循数据跟踪回到其来源。

  从那时起,行业专家一直在推动新的标准和工具来连接数据,使其作为语义网的一部分更有价值和可访问性。早期的例子包括,在谷歌搜索一部电影时,如何将相关信息组织成卡片,显示附近的影院、评分、片长、演员和快速摘要。谷歌搜索报告了许多公司在向其网站添加结构化数据后看到流量或时间增加的案例。例如,雀巢(公司在添加结构化数据标记后打开新窗口的点击率提高了82%,而乐天(Rakuten)发现,用户在包含结构化数据的页面上花费的时间增加了1.5倍。

  关联数据自动化

  关联数据工具非常适合定义良好的实体,如电影、食谱和餐馆。不过,对于其他领域来说,它们要复杂得多,比如跟踪不同渠道的客户旅程,或者将供应链数据和物联网数据流与第三方来源链接起来。这就是下一代人工智能增强将有助于照亮黑暗数据的地方。这其中有几个因素。

  在现有数据集上运行人工智能算法可以帮助组织来自许多来源的数据。一种方法可能是探索自动化公平指导原则的方法。为科学数据在2016年引入的科学数据管理和管理最佳实践打开了新的窗口。这个术语指的是使数据可查找、可访问、可互操作和可重用。

  但追踪与数据相关的身份也很重要。例如,更有可能相信消费者报告上发布的产品评论。同样,在做出贷款决策时,安全地跟踪与银行、信用卡报告和政府机构安全链接的数据链也会很有帮助。

  身份不仅仅适用于人类。相同的身份基础设施还可以连接直接从供应链中的各种传感器提取的数据,以跟踪产品在供应链中的收获、生产和运输的地点和方式。

  互联数据生态系统

  寻找自动化这个过程的方法将帮助企业获得与谷歌看到的自动化页面排名方法相同的优势。自动化连接连接到已验证身份的数据的过程将为有效地为不同用例使用更多数据提供新的机会。需要找到更好的方法来转换数据,开发标记数据的流程,并优先考虑数据质量工作,供主题专家审查。

  从短期来看,这将提供一种自动化数据清理和标签的方法,将孤立的数据转移到连接的数据生态系统中。如今,非常昂贵的数据科学家和工程师必须编写自定义代码来处理数据。

  脚本中断,必须在每次更新数据时进行修复。人工智能自动化可以帮助企业大规模创建关联集。随着时间的推移,它将提供一条引入暗数据的途径,并使其变得更轻松,使其在企业内部和分散的网络上都更容易访问。

© 版权声明

相关文章