微软的“牛头怪时刻”

人工智能1年前发布 Cam2023

译者 | 陈峻

审校 | 重楼

微软的“牛头怪时刻”

2014年，当萨提亚·纳德拉接任微软CEO时，他面对的是一家停滞且难以在快速发展的技术领域保持竞争优势的公司。自那以后，纳德拉将其重点从传统操作系统和生产力软件，转向云计算和人工智能，被认为重振了微软。

让我们以Office生产力套件为例，来看看它在纳德拉上任前后的演变情况。这套软件应用于1989年首次被推出，最初包括了Word、Excel和PowerPoint，后来在纳入了Outlook、Access和Publisher后，已成为了商业世界中生产力和沟通领域的基石。

2011年，微软推出了Office 365，这是该公司业务战略的重大转变。它通过过渡到基于云的订阅模式，巩固了微软在市场上的主导地位，同时也创造了强大的客户锁定效应。也就是说，订阅模式确保了微软稳定的收入流，并鼓励用户留在其生态系统中。毕竟他们切换到替代解决方案的成本，会变得更加繁琐。当然，微软的野心远不止于Office 365和Azure云计算。

牛头怪与微软

微软的“牛头怪时刻”

在希腊神话中，牛头怪Minotaur是一种半人半牛的生物。它虽然力大无穷、凶猛无比，但是最终被雅典英雄忒修斯利用其“无法在迷宫中穿行”的致命弱点打败。那么，这个强大的希腊神话生物与现代化的微软是否有所联系呢？其实，牛头怪之所以力大无穷，主要源于它是半人半牛的混血生物。对比微软，我们可以认为：

半人：通过OpenAI独家许可，获得人类语言和智慧
半牛：通过其对GitHub的所有权，获得计算机语言和智能

下面，我将深入分析微软在这两方面的特长。

半人 OpenAI和 ChatGPT

微软的“牛头怪时刻”

通过对ChatGPT的发明方OpenAI的战略投资和独家授权合作，微软巩固了其在人工智能领域的霸主地位。该合作关系官宣于2019年，微软可以利用OpenAI的前沿研究和新开发的AI技术，并将其驱动和集成到包括Azure AI服务、Cortana、以及Office 365等自家的产品和服务中，推动了微软AI生态系统的发展。值得一提的是，OpenAI对Office 365的集成范围和速度，在某种程度上，让微软快速捕获了全部的人类语言、知识、以及推断性的智慧（微软研究人员在此称为“a spark of AGI”)。

你可能会说：Google和Meta已经开始挑战OpenAI加微软组合的垄断地位了。不过，目前看来，它们的大语言模型--Bard和LLaMA似乎仍落后OpenAI“一个身位”。此外，随着OpenAI从一个非营利组织发展成为一个有限盈利组织。微软已计划向OpenAI注入超过100亿美元。可见OpenAI和微软之间的共生关系还将延续下去。

半牛 – GitHub、Codex和Co-Pilot

微软的“牛头怪时刻”

2018年，微软收购和整合了领先的软件开发与协作平台–GitHub，进一步扩大了对于整个人类智能的控制。GitHub可谓所有领先开源项目的中心。您可以将其视为以计算机语言表达的、人类智慧的聚合存储库。

而OpenAI的Codex是一种通过与GitHubCo-Pilot相集成，对软件开发领域产生深远影响的高级语言模型。Codex是GPT-3模型系列的一部分，能够理解和生成类似人类的文本，当然也包括编程代码。具体而言，它能够解释自然语言，查询并生成准确且与上下文相关的代码片段。这些能力使之成为了开发人员的宝贵工具。

GitHub的Co-Pilot利用Codex的能力，扮演了AI驱动的编码助手角色，通过提供实时的建议、以及自动完成的代码段，来帮助开发人员更高效地编写出程序代码。因此，Co-Pilot与Codex的集成，通过减少编写代码所需的时间和精力、最大限度地减少了错误，并使得开发人员能够专注于更高层次的设计和解决问题的任务。

作为一名产品经理和联合创始人，我通过将GitHubCo-Pilot与ChatGPT v4结合使用，编写了一个简洁的需求，然后让ChatGPT输出优质的样板文件。接着，在带有GitHub Co-Pilot的Visual Studio Code中，我按需修改函数与参数，微调各种控制流和业务逻辑。一个工作原型就这样在数小时内完成了。据说，对于那些经验丰富的软件工程师而言，通过GitHub Co-Pilot和ChatGPT v4的结合，他们的生产力能够提高3至10倍。

通过GitHub的巨大存储库，此类的工具可以轻松找到设计模式，并将其植入适合开发人员当前正在使用的软件系统的环境。据此，整个开发过程，不但节省了大量的搜索时间、以及针对输入与错误的检查，也自动化了大量的文档和测试过程。难怪有工程师感叹：在GitHub Co-Pilot离线几个小时的时候，他就像失去了一只手臂一般。

牛头怪的潜在危险

Google一直号称其使命是“组织全球信息，使人人皆可访问，并从中受益”。它的实践便是通过在各个网站上进行基本的页面排名（PageRank），并为它们建立一个巨大的索引，进而实现其愿景。

但是，有了微软和OpenAI的GPT大语言模型、以及GitHub Codex，全世界的信息可能会被浓缩成为数十亿、甚至数万亿的权重（形象地说，应该是统计重要性的数字）。而正是微软与OpenAI根深蒂固的关系，引发了人们对该公司利用其整合能力，对人工智能领域创造力予以垄断的可能性担忧。微软似乎就此进入了“牛头怪时刻”。

不可否认，OpenAI的GPT-4语言模型，是当今世界上最强大的人工智能系统之一。而GitHub则是世界上最大的代码托管平台。试想，如果微软使用此类工具去扼杀竞争，那么就可能会对人工智能、乃至整个科技行业的发展，产生重大影响。当然，这只是一个假设性的担忧，目前并无证据表明，微软打算以垄断的方式使用其整合能力。

忒修斯的希望

微软的“牛头怪时刻”

如果我们把初创公司看作挑战牛头怪的忒修斯。那么他们该如何站在巨人的肩膀上，利用大公司的平台，以及这些平台提供的资源、基础设施和用户群，在自己的新产品上进行创新呢？下面是两个典型的成功案例：

Apple的App Store和Google的Play Store：通过在这些平台上构建应用程序，初创公司可以进入广阔的智能手机用户市场，轻松地分销他们的产品，并从应用程序商店的安全支付系统中获益。
Amazon Web Services(AWS)：初创公司可以利用AWS的云计算基础架构，来构建和扩展其应用程序、存储数据、以及各种访问高级分析工具。这使得他们能够专注于创新和产品的开发，而不必担心投资和管理自己的IT基础架构。

可见，有了大公司的平台，各项资源和用户群已不再是奢望，初创公司可以在竞争的市场竞争中快速获取成功的机会。不过，在第三方营利性平台上构建服务的主要风险之一，便是该平台可能会发生变化、消亡，甚至与自己的生态系统合作伙伴存在竞争关系（例如：Facebook与Zynga）。当然，政府和监管机构也可能会出手来阻止各种恶意竞争与垄断行为。

开放领域的竞争

一直以来，开源总是对抗大型闭源系统的可靠武器。鉴于OpenAI已经对其GPT-3和GPT-4模型进行了闭源，Meta开源了自己名为LLaMA的大语言模型。作为迄今为止最先进的开源大语言模型，它在1.4万亿个单词的基础上，训练出了多达650亿个权重。其中，7、13和330亿权重模型也得到了Meta的开源。这些较小的大语言模型能够方便各个研究团队基于LLaMA，提出自己的微调模型。这里不乏：斯坦福大学的Alpaca、伯克利大学的Vicuna和Koala、以及GPT4All等典型用例。通过使用人类反馈式强化学习，这些研究声称他们已达到了商业ChatGPT 3.5（1750亿权重）的90%到95%性能，而权重仅为70亿或130亿。

当拥有这些较小的大语言模型和优化的C++实现时，您便可以在笔记本电脑上本地运行它们，例如调用.cpp智能助手，而不必依赖于云服务，且无需任何费用。当然，目前LLaMA模型仅用于研究，因此您不能将它们用于商业用途。同时，您也可以关注如下实用的新模型：

在迷宫之外思考

让我们说回到迷宫。据我看来，Office 365很可能就是微软自己的迷宫。为什么要这么说呢？从收入和利润的角度来看，Office 365占微软2022年总收入的23%（来源https://www.kamilfranek.com/microsoft-revenue-breakdown/?ref=hackernoon.com#:~:text=The%20vast%20majority%20of%20Office,grew%20by%2018%25%20in%202022.)。微软或许能够将OpenAI的新功能添加到Office 365，但它可能只是一种增量更新，而不是根本性的改变。毕竟，Office 365的典型客户群是那些趋向于规避风险和变化缓慢的企业客户。他们不愿接受对现有产品的颠覆性的创新。所以在某种程度上，Office 365也就成了微软的枷锁。

对此，年轻的创业者则可以另辟蹊径，构建出超越现有工具的新沟通方式。例如：Slack和Notion就超越了电子邮件，Figma就超越了传统的Adobe创意套件。我们可以想象一下，如何让更新的人机界面在商业环境中工作。例如：Elon Musk的Neuralink就是采用了人和机器的电气连接，旨在人脑和机器之间建立直接通信，为重新构建商业环境中的通信，开辟了令人兴奋的可能性。

以下是可能超越微软Office套件等传统工具的几种典型技术与实现方式：

思想到文本的交流：借助类似Neuralink的脑机接口(brain-computer interfaces，BCI)，人类可以直接以文本或视觉内容的形式，交流他们的思想，而无需使用键盘或其他输入设备。这可能导致更有效和更快的思想交流，并最大限度地减少传统方法可能产生的误解和错误的传达。
协作头脑风暴：脑机接口可以在头脑风暴会议期间，实时地分享各种想法，让团队成员同时贡献和可视化各种概念。这既可以加强创造性的问题解决和决策过程，又能够营造更好的协作和高效的工作环境。
沉浸式演示：将BCI与增强现实(Augmented Reality，AR)或虚拟现实(Virtual Reality，VR) 技术相结合，以彻底改变业务的演示方式。与依赖PowerPoint等传统工具不同，演示者可以据此创造身临其境的互动体验，吸引观众的感官和情感，从而更有效地交流复杂的概念和想法。
情绪感知交流：BCI也可能会在对话过程中检测情绪和精神状态，使参与者能够更好地理解彼此的感受和观点。这既可以增强同理心，促进建设性反馈，又能够培养更健康的工作关系。
直接知识转移：Neuralink及其类似技术可以为人与人之间、或从机器到人类的直接知识转移铺平道路。这可能会彻底改变传统的工作场所式学习和培训流程，使之更加高效和个性化。