思码逸任晶磊：ChatGPT 时代的软件研发数据与效能提升

人工智能1年前发布 hanxin2001

4 00

思码逸创始人 & CEO 任晶磊在 2023年3月4日于上海举办的 LeaTech 全球 CTO 领导力峰会上作为演讲嘉宾分享了主题为《ChatGPT 时代的软件研发数据与效能提升》的演讲。

文字为分享内容的提炼，您可以在文末查看完整分享视频及获取演讲PPT。

我在清华大学获得博士学位后，加入了微软亚洲研究院，从事软件系统程序分析的研究。同时一直在关注机器学习领域的发展。现在，ChatGPT 技术确实让几乎所有人都大为震撼。

接下来我们将进入这项技术的干货内容，今天的演讲分为四个部分。

· ChatGPT 给软件工程带来什么？

· 从研发数据角度看 ChatGPT

· 如何打造高质量的研发数据基础？

· ChatGPT 在实际研发效能数据上的表现如何？

1、ChatGPT 给软件工程带来什么？

第一部分，我们将概述 ChatGPT 对软件工程的影响，不会局限于程序员如何提高工作效率，更会探讨对软件工程整体的影响。

首先，第一个方面是让大家写代码变得更快、更容易了，我认为这个话题无需赘述，因为我相信在座的很多人都有体验。在 ChatGPT 出现之后，另外一个新产品也是值得关注的——代码搜索领域的头部公司 Sourcegraph 正在推出一款产品 Cody（尽管还没有公测），它在后 ChatGPT 时代提供了问答功能。Cody 会结合你的领域知识、基于现有代码给出回答。我认为这个产品是值得大家关注的。

思码逸任晶磊：ChatGPT 时代的软件研发数据与效能提升

Sourcegraph Cody 编程助手

但综合来看，我们现在能看到的落地能力还不能够做到生成复杂项目级别的代码，只能帮助你写一些微观的代码。至于生成工程性的代码，我们可能还需要等待一段时间，像在《流浪地球》中机器人能够为你重写整个操作系统。我认为这种幻想目前仍然只存在于小说中。至于这种能力何时能够实现，我无法预测，因为任何预测都有可能被打脸。不太悲观地讲，我们的饭碗应该还是能够再保持几年的。这是第一个维度的影响。

但 ChatGPT 对软件工程的影响，不仅是让个人写代码的速度变快这么简单。我们可以问一个问题：如果你的团队中每个人的速度都快了10倍，项目进度会变快10倍吗？在座的都是技术管理者，很明显这个答案是否定的。因为在从创建到最后交付的整个过程中，写代码的时间可能只占10%-20%，软件工程中还有许多复杂的组织和流程因素。

因此，我们还需要看看 ChatGPT 是否能够解决软件工程中的信息不对称问题。因为当人数增加时，信息不对称就会存在，流程摩擦也会增加。想想我们每天要开多少会议，花费了百分之多少的时间。AI 能否在这方面发挥价值呢？这是和前面同样重要的维度。

如果在你的组织中有一个 ChatGPT 研发效能顾问，能够回答你有关项目和公司中各种问题，它就能够帮助我们减少信息不对称，并消除组织中流程摩擦。当然，有些会议需要与真人交流，但如果有些问题可以由 ChatGPT 直接解答，可能能减少20%的会议时间，这也是一种效率。因此，这个价值也是一个非常重要的维度。我们的许多客户都非常期待这样的能力。

2、从研发数据角度看 ChatGPT

第二部分，我们将从研发数据的角度探讨 ChatGPT，因为任何人工智能技术的训练和使用都需要数据作为原材料。因此，我们必须从数据的角度去思考这个问题。

ChatGPT 的基石大型模型，是基于公共数据中巨大的参数训练而成的，规模达到了千亿级别。但是，它并不了解私域信息、组织、团队和其他相关知识。那么，如何将这些知识传递给它，是我们当前所面临的最大瓶颈。

数据基本上可以分为两类：一类是你的代码，代码中保存了你的大部分软件知识；另一类是你的软件工具和开发行为的所有数据，比如你的工具中所有的交流互动流程数据，这部分数据是代码之外的。

思码逸任晶磊：ChatGPT 时代的软件研发数据与效能提升

具体来说，我们有三种途径：最右边是采用大模型的最典型方法，即提供提示（prompt）。与大模型交流时，你不仅仅需要问一个问题，还需要给它提供一些上下文和少量的样本，以解释你想要干什么以及你的情况。这里最大的挑战是你只能给出非常有限的信息，例如4K或8K。如果信息量太少，那么大模型无法回答你关于服务和知识方面的问题。这个带宽是非常小的。

最左边的方法是使用你自己的数据去训练大模型，你需要修改更新它的参数。然而，这种方法需要大量的时间和资源。中间的方式是自己训练一个小的模型去学习大模型，然后进行微调，以使其更适合你的特定任务。

在实际应用中，选择哪种方法取决于你的具体情况和需求。无论选择哪种方法，我们都需要理解大型模型的优势和局限性，并在实践中发掘其潜力。

总体来说，我们目前探索的方向是最右边的第三种路径。选择这个路径背后的逻辑是 ChatGPT 的核心思想，这种思路的成功在于使用全球公开的信息和1000亿参数来训练一个通用的模型，而不是针对特定领域去收集数据和优化模型。当需要解决具体问题时，只需提供一个小样本，模型就能够学习并回答问题。因此，我们仍然希望沿着这条路线前进。