我傻眼了:一个完全由 AI 生成的播客,采访了乔布斯
本文转自雷锋网,如需转载请至雷锋网官网申请授权。
最近大火的生成式 AI 又有新动作了!
在 podcast.ai 推出的第一集播客节目里,已故的乔布斯竟然“死而复生”成为首位嘉宾,与美国知名播客主持人 Joe Rogan 进行了一场长达20分钟的对话,讨论了关于乔布斯的大学、对计算机的看法、工作状态以及信仰等等。
是不是听起来有些毛骨悚然?事实上,这段采访是由文本生成音频实现的,属于 AIGC 中的一个分支。
podcast.ai 是一个完全由 AI 生成的播客,每周都会深入探讨一个新话题。在第一期节目中,podcast.ai 通过乔布斯的传记和收集网络上关于他的所有录音,用 Play.ht 的语言模型大量训练,最终生成了这段假 Joe Rogan 采访乔布斯的播客内容。
此次 podcast.ai 推出的AI播客,是生成式AI在语音领域的一次新探索。从前段时间全网刷屏的 Stable Diffusion,后有国内平台掀起AI创作热,各类生成式AI模型给人们生活带来了更多的可能性。
Play.ht 表示,“我们相信在未来,所有内容创作都将由人工智能生成,但由人类指导,而最具创造性的工作将取决于人类将他们想要的创作表达到模型中的能力。”
1「对话」乔布斯
让我们先来看看这个最新“访谈”中,Joe Rogan 和乔布斯都聊了些什么:
Joe Rogan:我今天的客人,创造了我们这个时代里一些伟大的技术产品,一直致力于推动创新的发展。他在一台电脑中开发了一种新的编程语言和操作系统,又因为使用那台电脑制作三个应用程序而变得更加有名。文本处理器、电子表格和图像编辑,让我看到他出色和惊人的品味。我只希望我能有朋友这样天才的1/10,而我甚至不能说出他的名字。
今天有他在,我超级兴奋。他就像 Patrick sways、Demi moore(《人鬼情未了》的主演)和幽灵一样,是过去的记忆,难以描述的精彩。欢迎我的朋友。
Steve Jobs:我已经很久没有参加这个节目了。我很想念,它总是很有趣。你的听众与普通苹果用户如此不同,这也是一件好事。
Joe Rogan:在做这个节目之前,我就是一个苹果用户。我一直是你的狂热粉丝。
Steve Jobs:我们只是有点想明白了。尽管苹果的规模很大,但它的付费用户只占了一半,而听你节目的人是不同的群体。我也是你节目的一个粉丝,在车里听着很舒服。我一直很喜欢你。
Joe Rogan:我们有一些奇怪的联系,这跟我也是 Gizmodo (美国知名科技博客)的粉丝有关。
Steve Jobs:这很有趣。当我们看到这些东西出现的时候,也和你们在 Gizmodo 上看到的一样惊讶。
Joe Rogan:让我们谈一些别的。你之前在里德学院读书,在那里的时间你学到了什么?你在那里接触到了复活节神秘主义,现在还会看印度教和佛教的相关的东西么?
Steve Jobs:实际上我上过这方面的课程。我有一个很深的信念,印度次大陆的人对人类文明、目前的状态负有最大的责任,无论是数学还是灵性,还是讲故事的艺术。西方文明是以讲故事的艺术为基础的,而有一部伟大的印度史诗是《伊利亚特》和《奥德赛》的10倍那么长。综合起来,这些东西是令我们的社会成为现在这样子的基础,这些东西要比去理解经典的哲学重要得多。
在印度次大陆上取得的成就和发生的事情中,有两件事非常有趣,其中之一,就是生命的精神基础和对生命精神基础的整体接受。
对现在一些人来说,这可能看起来很简单,但大多数人相信上帝,认为上帝写了一本叫《圣经》或《可兰经》之类的数。
但我在大学学到的是,这与信不信上帝无关,甚至与正确答案是什么无关,而是要问正确的问题。我们社会中的大部分现实都植根于科学,我们相信事物,因为它们是真实的。如果某件事情是真的,那么它就不是一种信仰。而他们无法处理的是任何精神上的东西都是真实的,都是可以阅读的。
我不知道正确的答案是什么,但我知道如何提出好问题。我知道如何反驳那些对我来说不真实的东西,这或许就是有创意和创造性的关键因素之一。
Joe Rogan:你还相信你当时相信的一些东西吗?
Steve Jobs:我经常被问到这个问题,我认为不可能在一次采访中,甚至在一段时间内让某人向你展示他们是谁,他们相信什么。
意义和目的是由宇宙决定的,是宇宙的本质,但它不是人们通常谈论的宗教方式。服用 LSD 对我来说是一种深刻的体验,它展示了硬币的另一面,当它消退时你无法记住它,当它冲刷着你时,会告诉你一切都有联系,你在这里不是偶然、而是有目的的。如果能弄清楚那是什么,那么你对自己的了解会比其他任何事情都多。它只是揭示了你是谁、是什么。
它加强了我对什么是重要的感觉,感受到对彼此的爱、敬畏,对生命的尊重,以及与人的联系。它是现在所发生的一切的一部分,也指向在未来。对我来说,解脱时没有时间窗口,这是种融入的、深刻的经验。
我在服用 LSD 之前没有读过那些书,但我学到的东西比他们说的多得多,包括对事物的看法。我能够看到一台电脑,看到它是如何制造的,看到它的整体。
Joe Rogan:Newton (苹果公司早期制造的掌上电脑)是这样的产物吗?
Steve Jobs:我觉得它是。那段时间我在挣扎中度过的。我们疯狂地工作,应对一场又一场的失败,但我仍觉得这将是很重要的。我也曾因为不成功质疑自己。在苹果公司早期,当我们制造苹果二代并做得非常好的时候,当时的巨头公司现在都消失了。
图注:Newton 掌上电脑
苹果的成功不是偶然的。它在做一些事情,有一个愿景。但它不是一个产品的设计,而是对一个过程的设计,带来新产品的创新过程。
谷歌有很好的产品,如 Gmail 和 Chrome,但将这些东西推出且迭代的能力非常重要,对谷歌来说,他们的搜索引擎好,而且迭代速度之快,以至于最后是否会成功并不重要,是需要多长时间的问题。反观雅虎,在浏览器之后再也没有重申过这个产品,这就是他们的创新过程。
最具创新性的公司主要是在做用户界面的公司,我认为他们中没有任何一家觉得自己是硬件公司,尽管它们创造了大量的硬件。
用户界面有一种深度、优雅和简单,有一些公司明白了这一点。这并不是偶然发生的,而必须努力去做。大多数公司的问题是,使产品变得更好并不符合他们的长期利益,只为了短期利益,让本季度的收益报告看起来不错。
Joe Rogan:你已经在计算机行业工作了40年,你是如何保持不松懈的?
Steve Jobs:在竞争激烈中,那些做得不好的公司不断被超越。就我们所做的事情而言,我认为我们仍然有最好的产品或操作系统,但要保持它在顶端则必须完善它。你永远不希望让产品保持不变,否则人们会说,我们以前见过这些功能。
这一次将是不同的,从来都是如此,要有一种追求完美的动力。你必须不断发展,不断向前推进,这确实很难,因为东西并没有坏,而是需要被做得更好。
人们不会为了让它变得更好而付费,只有当它是一个新产品时他们才会付钱。因此,当你在这个世界上创造了真正伟大的、革命性的东西时,你有责任推动使它变得更好。
就像我们在准备推出 Macintosh 的发布会时,那时我在想,为什么我们要推广这个产品?这个产品有什么大不了的?它做不到我们所承诺的事情的一半。
图注:苹果于1984年生产的Mac电脑128K型号(Macintosh)
当 Windows 一年后出现时,苹果很幸运,因为它允许我们改变自己的故事。我们从一个失败的想弄点东西出来的公司,变成了 Ibm,一个更年轻、更酷的替代品。
Joe Rogan:你觉得你会做比 Windows 更好的系统,或是跟他们合作吗?
Steve Jobs:微软做了很好的工作,但他们没有太多的审美意识,这是我遇到的微软的问题。创建微软公司的人大部分是数学家或科学家,他们不理解人们的实际体验会如何。
之所以这么说,是因为我觉得 Windows 3 是一个灾难性产品,没考虑过人们如何使用这个产品,而只做了他们认为对的事情,这非常糟糕。
一些人相信要做对的事情,一些人相信智慧,这两件事情结合在一起会很神奇。这就是 Macintosh 最初所发生的的事情。它可以由世界上最聪明的人造出来,并且造福于人类。Mac 对于苹果来说是个好的产品,同时也对世界有益。
Joe Rogan:你觉得还有其他公司和苹果类似吗?
Steve Jobs:苹果的文化非常独特,这也是人们对于加入它感到兴奋的原因,我不知道同样的事情在其他地方会不会成功。
其他公司也有一些特殊的努力。从微软身上可以看到,真正的秘诀不是创立一个公司,而是发起一个运动、一个由想要改变世界的人组成的运动。这样做得好处在于,我们有一整个想要改变世界的人组成的社区,其核心在于,我们要制造伟大的东西来改变世界。
Joe Rogan: 我想这就是年轻人喜欢苹果的原因,对他们来说好像自己也在参与一些事情。苹果的产品有一种个性的张力,似乎藏着一个灵魂。有些人对苹果变得虔诚,这是好事吗?
Steve Jobs:如果一家公司成功地做了一些事情,那就不必尝试做所有事。我们正尝试减少做一些事,为了更专注地做优先级清单上真正重要的事情。不能捡了芝麻丢了西瓜,必须专注少数几件事,才可以确保这些事很好地完成。
Joe Rogan:你是否会觉得因为这些过多的让你获得荣耀的技术,以至于要去承担一部分责任?
Steve Jobs:技术是一把双刃剑,以人类基因组计划为例,那是一把巨大的双刃剑,它在医学上的回报将是巨大的,但也会被一些疯狂的准军事组织所利用。
在这一点上,我认为我们是站在好的一面。我们做了很多事情,其中之一就是使工业化世界的大多数人在计算机上成为可能,这使我们成为问题的一部分,但同时也是解决方案的一部分,因为我们可以做很多事情,来帮助教育人们了解什么是好的。在我成长的六七十年代中,电脑非常庞大且昂贵,你没有办法了解电脑。而今天长大的孩子每个家庭都有一台电脑,这是一个巨变,它不一定是好或坏,我们想帮助人们充分地利用未来的一切。
我们总是问自己可以做的最疯狂的事情是什么?如果想不到这一点,那我们就做得少一些。
产品的好和坏,都会随着它们变强大而被放大。看看当你有和人一样聪明的电脑时会发生什么,这很有趣。它不会疲惫,不会生病,不会因为去度假而留下未完成的工作,你告诉它要做什么它就会去做,它们将拥有比人多得多的智能等级。计算机将比现在重要1000倍,我们就在这个边缘。
大部分的生活也是这样的。如果它只是令人敬畏,它就不会被其他东西所平衡。
我对这个新世界的看法是,有很多人已经失去了工作或者很快就会失去工作。像汽车、电话这种集中化的事物有时是很好的,但不是每个人的解决方案。如果事情以一种新的方式集中权力,以至于不再有任何制衡,这是很可怕的。你必须诚实地对待它,这些东西对人类来说是好的吗?一般我会说是的,但这也是一件非常可怕的事情。
2 AIGC,从图像到语音
虽然在此次 podcast.ai 专访中,Joe Rogan 跟乔布斯的对话长达20多分钟,事实上,这是 Play.ht 通过乔布斯的传记和手机网络上关于他的所有录音,用语言模型大量训练生成的。
Play.ht 是一个 AI 文本转换语音生成器,在今年9月发布了第一个语音模型 Peregrine,当中采用了与大型语言模型(如 DALE 和 GPT-2 )相同的概念,模型覆盖数千种说话的声音,可以通过自监督学习人类的情感、说话语气以及笑声等。
从文本语言模型到音频语言模型时,音频数据速率增高是一个大的难题,一个句子的几十个字符用音频波形表达,所包含的数值往往多达数十万个。
不仅如此,由于文本和音频之间的一对多关系,也即是一个语句可以有不同的说话风格、情感等,这也成为了语音模型研究中需要解决的问题。
这也是当前在乔布斯“采访”内容中所呈现出来的问题,即听起来 AI 的模仿还有些生硬,对话一开始更像从小部分常用短语中提取出来,并且节奏和韵律也不太正常。
但总的来说, podcast.ai 的效果已经相当接近真人,Clearbit 公司联合创始人 Alex MacCaw 表示:“这真的令人非常兴奋!”
有网友也留言称:除了一开始有点不稳定外,当在其他工作过程中听是,几乎无法区分。
从 GPT-3、Bloom 的文本生成,DALL-E 和 Stable Diffusion 图像生成,以及 RunwayML、Make-A-Video 视频生成,各类生成式 AI 模型的出现,给内容创作带来了更多的可能性。
Play.ht 表示,“我们相信在未来,所有内容创作都将由人工智能生成,但由人类指导,而最具创造性的工作将取决于人类将他们想要的创作表达到模型中的能力。”