近段时间,人工智能聊天机器人ChatGPT刷爆网络,网友们争先恐后去领略它的超高情商和巨大威力。参加高考、修改代码、构思小说……它在广大网友的“鞭策”下不断突破自我,甚至可以用一整段程序,为你拼接出一只小狗。而这些技能只是基于GPT-3.5开发而来,在3月15日,AI世界再次更新,最新版本的GPT-4也被OpenAI发布了出来。
与之前相比,GPT-4不仅展现了更加强大的语言理解能力,还能够处理图像内容,在考试中的得分甚至能超越90%的人类。那么,如此“逆天”的GPT-4还具有哪些能力?它又是如何炼成的呢?
“逆天”的GPT-4
在发布了GPT-4后,OpenAI官网一度发生拥堵,很多用户在社交媒体里面表示他们立刻订阅了Plus服务。GPT-4在发布后,“GPT-4”这一词条迅速登上美国、日本等地区热榜,也登上了国内的微博热搜榜、抖音热榜社会榜等。
据OpenAI官方介绍,GPT-4是一个大型的多模式模型,可以接收图像和文本输入,输出文本。虽然它在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的性能。比如GPT-4可以通过模拟SAT(美国学术能力评估测验),并取得前10%的成绩,而GPT-3.5的成绩则在最后10%之列。
我们看到,在官方演示视频中,Open AI总裁兼联合创始人Greg Brockman还让用户先睹为快,了解最新版系统的图像识别功能,该系统尚未公开,仅由一家名为Be My Eyes的公司测试。该功能将允许 GPT-4 分析和响应与提示一起提交的图像,并根据这些图像回答问题或执行任务。“GPT-4 不仅仅是一种语言模型,它还是一种视觉模型,”Brockman表示,“它可以灵活地接受任意穿插图像和文本的输入,有点像文档。”
在演示的另一个时刻,Greg Brockman向GPT-4提交了一张手绘和初步网站草图的照片,系统创建了一个工作基于绘图的网站。
业界认为,ChatGPT-4比GPT-3强大571倍,最受益于这一最新成果的三大职业就是作家、市场营销人员和创业者。根据对两者比较,业界人士还指出GPT-4的其他优势,如训练数据更多、答复更加多样性和有创意性以及反应所需时长更短,一秒即可。
我们认为,这种升级体现的一个主要趋势就是多模态,模型变得更加复杂庞大,可以将不同类型的数据放入同一模型,对我们周边的环境和真实世界做出更好的理解。
此外,在多语种方面,GPT-4也体现出优越性。在测试的26种语言中,GPT-4在24种语言方面的表现均优于GPT-3.5等其他大语言模型的英语语言性能,其中包括部分低资源语言如拉脱维亚语、威尔士语等。在中文语境中,GPT-4能够达到80.1%的准确性。
不过,OpenAI也在官方网站上给出了GPT-4存在的不足,其仍然存在包括社会偏见、捏造事实、对抗生成等已知限制。OpenAI对此表示,随着社会对AI模型的接受,将增加透明度,鼓励并促进用户教育和更广泛的人工智能素养,并致力于扩大人们在培养AI模型方面的输入途径。
GPT-4可以商业化了
随着GPT-4的发展,我们发现它的能力虽然在很多现实场景中不如人类,但在各种专业和学术基准测试中表现出了与人类相当的水平,这也意味着,GPT-4确实在商业化上更进一步了。
此前,GPT-3在专业领域的表现一直被人们认为差强人意,在美国的律师资格考试Uniform Bar Exam (MBE+MEE+MPT)中,GPT-3.5只能排在倒数10%,而GPT-4的成绩则已经可以排到前10%。GPT-4在专业领域的能力实现了巨大提升,在一些专业领域已经开始逐渐接近甚至超过人类,这给GPT-4在很多ToB商业领域提供了更多可能性。
比如专业技能辅助工具,知识检索类的应用,职业教培辅导等领域,GPT-4带来的能力可能将会是革命性的。
GPT-4发布之后,微软在第一时间表示:“如果你在过去五周内的任何时候使用过新的Bing预览版,你就已经提前了解了OpenAI最新模型的强大功能”。这表示New Bing早已经用上了GPT-4,在过去几周,很多人体验的必应就是GPT-4加强过的,仅仅开放使用了文字能力而已。虽然微软没有用全球首发的字眼来描述,毕竟微软在OpenAPI上已经投入了130亿美元(约合人民币900亿元),换来的这样的待遇也是情理之中。
除了微软的New Bing外,目前还有多家公司将GPT-4搭载到他们的产品中,包括语言学习工具软件多邻国(Duolingo)、帮助视障用户的软件BeMyEyes、移动支付公司Stripe、国际性金融服务公司摩根士丹利等。
但不得不承认的是,虽然GPT-4大幅拓宽了大模型可能落地的商业化场景,但算力、研发成本,仍被很多人认为是大模型落地过程中很难跨过的障碍。毕竟大模型的研发、算力支出在目前看来高得吓人,此前ChatGPT公开的单次训练、日常运营开支都是以百万美元为单位的,短期内想要商用可能很难控制成本。
GPT发展史
众所周知,ChatGPT是OpenAI公司研发的一个大型自然语言处理模型,但很多人不知道,它的发展历程可以追溯到2015年。2015年,OpenAI由特斯拉的马斯克、Sam Altman及其他投资者共同创立,旨在通过先进的人工智能技术推动人工智能领域的发展。而马斯克则在2018年时因公司发展方向分歧而离开。
此前,OpenAI因推出 GPT系列自然语言处理模型而闻名。从2018年起,OpenAI就开始发布生成式预训练语言模型GPT(Generative Pre-trained Transformer),可用于生成文章、代码、机器翻译、问答等各类内容。
每一代GPT模型的参数量都爆炸式增长,2019年2月发布的GPT-2参数量为15亿,在2020年5月,当OpenAI发布了GPT-3,它已经是世界上最先进的自然语言生成模型。GPT-3具有1750亿个参数。
GPT-3出现时,作为一个无监督模型(现在经常被称为自监督模型),几乎可以完成自然语言处理的绝大部分任务,例如面向问题的搜索、阅读理解、语义推断、机器翻译、文章生成和自动问答等等。
而且,该模型在诸多任务上表现卓越,例如在法语-英语和德语-英语机器翻译任务上达到当前最佳水平,自动产生的文章几乎让人无法辨别出自人还是机器,更令人惊讶的是在两位数的加减运算任务上达到几乎100%的正确率,甚至还可以依据任务描述自动生成代码。一个无监督模型功能多效果好,似乎让人们看到了通用人工智能的希望,可能这就是GPT-3影响如此之大的主要原因。
2021年,OpenAI宣布将推出一个新的名称,名为“DALL-E”,这是一种能够生成图像的人工智能技术。同时,OpenAI也在研发更加先进的自然语言处理技术。
此后的故事相信大家都很清楚了,2022年底基于GPT-3.5的ChatGPT以光速席卷全球,成为全球最大的“科技明细”,直到现在GPT-4的发布更是登上多国热搜。
写在最后
GPT的未来怎么样?可以预见的是,随着算法技术和算力技术的不断进步,ChatGPT也将会进一步走向更先进功能更强的版本,在越来越多的领域进行应用,为人类生成更多更美好的对话和内容。
也许GPT距离正在的“AI”还有距离,但我们不妨把它当做一个起点,一个全新“AI”时代的起点。