LLVM之父Chris Lattner：为什么我们要重建AI基础设施软件

人工智能1年前发布 wahs52034

人们曾经想象中的AI愿景很美好，现状却不尽人意。AI在自动驾驶、新药研发等日常应用上并未实现当初的预言，常见的吐槽是，全球的科技巨头汇集了一大批最聪明的大脑，但更多还是专注于思考广告的精准投放、信用评分以及并不怎么智能的“智能”音箱上。

理论上说，只要有正确的算法和足够的计算资源，AI可以解决所有任何可用数据表征的问题，而现在数据、算法和硬件资源已经足够丰富，AI用于造福社会的所有条件都已具备。我们看到了AI的广阔应用以及初步效果，但实际上，技术应用并不深入，远远没有发挥出已有机器学习研究的所有潜力。

为什么会导致这种局面？事实比世界上的科技巨头和媒体对于AI的研究更新还要深刻。 编译器大牛Chris Lattner曾指出 ， AI系统和工具的单一化和碎片化正是造成这一问题的根源。

为了解决这一难题，2022年1月，编译器大牛Chris Lattner宣布下海创业，同Tim Davis共同成立了Modular AI，目标是重建全球ML基础设施，包括编译器、运行时，异构计算、边缘到数据中心并重，并专注于可用性，提升开发人员的效率。目前，Modular AI团队已参与构建过来自TensorFlow、TF Lite、XLA、TPU、Android ML、Apple ML、MLIR等世界上大部分的生产机器学习基础设施，并已将生产工作负载部署到数十亿用户和设备。

近日，Modular AI宣布完成3千万美元的种子轮融资，由Google Venture领投。在Chris Lattner等人发布的最新一篇官方博文中，发出了“灵魂三问”： AI如此重要，为什么软件却如此不堪？为什么科技巨头没有解决AI难题？如何解决这一难题？当然，他们也给出了回答。OneFlow社区对原文进行了编译整理。

1 AI如此重要，为何软件却如此不堪？

AI软件最初是为构建AI技术的全栈研究人员、工程师和架构师设计的，它从未被定义为一项产品，因此， AI软件在底层设计上就有缺陷。

这种软件是由大型科技公司为解决他们自己的问题而构建的，而其它企业都在“滴漏式（trickle down）基础设施”上使用这些软件。于是便产生这样的现象：只有最大和最具商业影响力的AI应用才在实践中构建和部署，即便如此，也只有在企业的需求与大型科技公司的内部需求一致性很高的情况下才能实现。

这是为什么呢？因为当下的AI软件很单一，研究属性很重，主要用于满足科技巨头（这些软件的研发者）的发展规划。这些软件是研究人员为了做研究而创造的，而AI的快速发展使得研究人员没有时间停下来再重新构建。

相反，随着时间的推移，我们增加了越来越多的复杂度，致使该行业很难维护和扩展碎片化的定制工具链，这些工具链在研究和生产、训练和部署、服务器和边缘端之间都存在差异。

人工智能系统现在已然成为一片不兼容技术的汪洋大海，只有那些综合型科技巨头才有能力使用AI实现他们的目标。

2 为什么科技巨头没有解决AI难题？

AI研究和开发人员通力合作，使部署AI取得了成功，科技巨头们利用其庞大的计算和财力来推进其产品和核心业务的优先级，包括他们自己的云、电话、社交网络和人工智能硬件。

虽然他们对该领域做出了卓越的贡献，但从商业角度讲，它们不可能把AI推广到全世界（涵盖所有硬件、云和ML框架），而世界其它地方也不能指望它们这么做。不过，这个不幸的事实限制了世界上其他国家使用这项技术，没有能力来解决大型科技公司所关注领域以外的问题，包括世界面临的一些最重大的社会经济和环境问题。但这不是我们想要的未来。

虽然巨头为人工智能的发展做出了巨大贡献，但要让人工智能充分发挥其潜力，还需要一家独立的公司，这家公司不用优先考虑自己的硬件、云基础设施、手机的发展或自己的研究；同时我们需要一家中立的公司，做最符合全球用户和企业利益的事。我们需要把从人工智能软件的快速增长中学到的知识融入到下一代技术中，以此来为所有组织面临的各类问题提供可用方案和通用标准。

今天，中小型科技公司面临的最紧迫的问题是，如何突破能力、成本、时间和人才的限制将AI投入生产。

出于机会成本的考虑，他们的创新技术难以推广到市场，产品体验欠佳，将最终给他们的发展带来负面影响。对整个社会来说，这意味着我们还需等待相当漫长的一段时间才能用AI来解决世界上的一些重大难题。

我们没有时间等科技巨头们推出涓滴式的AI软件。 AI可以改变世界，但前提是碎片化问题必须得到解决，并且全球AI开发者社区无需为高质量的基础设施所困扰。

3 谁来解决这一难题？如何解决？

Modular正在构建下一代AI开发者平台，它将更加实用、高速且灵活。

我们的平台通过通用接口统一了流行的AI框架前端，并且强化了对各种硬件后端和云环境的接入和可移植性。我们正在重建核心开发人员的工作流工具，使其更具表现力、可用性、可调试性、可靠性、可扩展性，实现优越性能。我们的工具可以轻松部署到现有的工作流中，使用者无需重构或重写代码，便可无缝接续完成工作，并且以更低的成本实现生产力和性能的提升。我们将加速挖掘AI价值，并且尽快将其推向市场，惠及广大用户。

当AI能够更加细微地渗透到各类应用中时，它的潜力也将得到充分展现——届时，你将不必围绕AI来定义你的应用。我们的平台由模块化、可组合的基础设施组件构建而成，支持重新搭配和扩展以实现各种用例。同时，即使在不了解整个系统是如何运作的情况下，各领域专家们也能通过我们的平台进行创新。我们已经亲眼目睹了模块化方法如何解锁新用例，而这是我们过去未曾想过的。

为了真正修复AI基础设施，我们既要解决“硬技术”问题（如针对异构计算技术的编译器），也要建立可无缝衔接的端到端开发者工作流。

4 从“AI研究时代”跨入 “AI生产时代”

我们的成功意味着全球开发者们将获得真正可用、可移植和可扩展的AI软件。

在新世界里，缺乏充沛预算或顶尖人才的开发者也可以像全球科技巨头一样高效地开展工作；AI硬件的效率和总拥有成本 (Total Cost of Ownership，TCO）将得到优化；企业可以轻松插入定制的ASIC以满足其使用情况；部署到边缘就像部署到服务器一样容易；企业可以使用任何一款最符合其需求的AI框架；AI程序可以在硬件上无缝扩展，将最新AI研究部署到生产中简直再轻松不过。

我们将看到：AI行业的发展不再受限于科技巨头们按自身需求所决定的时间表；AI行业的发展将会更加快速、更加集中；创新在堆栈的各个层面蓬勃发展，开发人员专注于在自己的专业领域将新的创新推向市场，并为我们所有人建立一个更加美好的未来；行业飞速发展，带领我们从“AI研究时代”跨入 “AI生产时代”。