作者:张钹 来源: 发布时间:2024-9-10 0:8:17
| ||||
人工智能(AI)有今天的蓬勃发展,要追溯到人工神经网络的诞生。 人工神经网络诞生于20世纪40年代,当时主要作为鉴别器(分类)、生成器来使用,但遇到了很大的困难。直到2014年,这个问题才在一定程度上得到解决。特别是2017年Transformer被提出来后,生成式人工智能就像打开了闸门,发展迅猛。 关于大模型和生成式人工智能,我有三方面思考。 第一,如何从大模型走向通用人工智能?这条路应该怎么走,会走到什么地方? 第二,大模型发展下去,会对产业和人类职业产生什么影响? 第三,人工智能产业未来将走向何方?
人工智能向通用人工智能迈进一步
为什么要下大力气发展生成式人工智能?理查德•费曼有一句名言:“如果我们不能创造它,就不可能理解它。”我们认为通过生成式人工智能,有机会打开理解(智能)世界的大门。 如何理解生成式模型?我们可以从生成式模型的特征来分析,其具有“三大一缺点”。“三大”是指强大的生成能力、强大的迁移或推广能力、强大的交互能力,“一缺点”是指“幻觉”。 具体来说,强大的生成能力是指语言模型能够在开放领域生成多样化、连贯且类似人类的文本。这种能力超出了人们的预期,被认为是模型达到一定规模后出现的“涌现”现象。 强大的迁移能力是指模型能够在给定少量样本的情况下,将知识迁移到不同领域,完成新的任务。这种能力也需要在模型达到一定规模后才会出现。 强大的交互能力是指模型能够与人类进行自然语言对话,这在过去是难以实现的。但现在,这种对话不受领域限制,使得人机交互更加流畅。 “幻觉”是大模型的一个主要缺点,指模型可能会生成看似合理但实际上并不真实或无意义的输出。 那么,通过预训练、推理和对齐三个步骤得到的ChatGPT,是怎么做到具有强大的生成能力和迁移能力的?主要有三个原因。 第一,它使用了巨大的人工神经网络。这个神经网络大到什么程度?有四个维度。首先,它的层数很多(或很深),有96层;其次,它的输入宽度很广,GPT-3的宽度达到了2048个tokens(标记),GPT-4 Turbo达到12.8万个tokens并支持同时输入300多页的文本;再次,参数规模巨大,GPT-3.5有1750亿个参数;最后,所需算力巨大。 第二,它拥有巨大的训练文本。据报道,OpenAI训练GPT-3文本量有45TB,谷歌则达到50TB。 第三,自监督学习。“下一个标记预测”(Next token prediction)机制可以让模型从未标记的数据中学习。 靠这三项技术,ChatGPT拥有了三大能力。实际上,OpenAI利用大模型和人工智能对齐构造了一个连续向量的语义空间,这造就了ChatGPT的强大生成能力。它的这种工作流程,改变了传统的自然语言处理方式,使机器能像人类一样“思考”。 ChatGPT迈出的这一步,取得了两个重大突破。一个是能够生成人类水平的文本,“会说人话”;另一个是实现了人机自然语言流畅对话,且对话不受领域限制。我认为这两大突破很重要,推动人工智能技术向着通用人工智能迈进了一步。
构造与数字世界交互的智能体
以前的人工智能都受限于三个“特定”:只能在特定的领域内工作、受限于特定算法、完成特定的预设任务。这三个“特定”使其受限于某一应用领域。 生成式模型完全改变了这种情况。它使用通用的转换器模型,在开放领域内生成和完成多种任务,且不受领域限制。这表明人工智能正在向第三代人工智能发展,也证明了行为主义道路是可行的。 我们目前正在进行的第二步工作,是在GPT-4基础上构造一个智能体,使其能够与数字世界交互。 为此必须实现两件事。一是要使它能够接受多模态,把感知部分加进去,变成多模态生成。通过多模态的生成,可以解决感知问题,形成“感知—思考—行动—环境—感知”的闭环。 OpenAI研发的CLIP模型实现了图像和文本的对比学习。大模型解决了文本的语义处理问题,如果把图像和文本关联起来,机器也能处理图像内容。CLIP模型已经展示了非常好的效果,无论是在图像分割还是识别上,都实现了重大突破。 过去机器只能对图像进行分类,很难实现真正的感知。大模型把图像和文本关联后,这一问题得到很好地解决,现在机器可以真正识别物体。 二是要增加交互能力。大模型可以与环境尤其是数字环境进行交互。通过结合这两点,我们可以实现构建智能体的目标。也就是说,机器可以与外部工具和环境结合,发挥问题求解能力。它不仅可以回答问题,还可以帮助解决问题,解释和执行复杂指令,制订计划来达成预定目标。 与数字环境结合后,机器还可以通过反馈学习,判断自己的行动正确或错误——这是ChatGPT等第一代模型无法做到的。我们期望GPT-4可以达到这个目标,类似ReAct和CogVLM也在朝这个方向发展,不仅可以推理,还可以采取行动。 仅具备推理能力或行动能力都无法完全解决问题,必须是推理和行动能力的结合。对于较复杂的推理问题,GPT-4可以很好地处理。比如,让GPT-4计算一个脑筋急转弯题目:小李有10只碗,为开派对向小张借5只、向小赵借5只,派对后小李把碗还给他们,那么小李还剩多少碗?GPT-4起初误解为0只,后来推理出还剩10只。这类复杂推理只有GPT-4能完成。针对复杂问题求解,如鸡兔同笼题,它也能很好解决。 不过,目前GPT-4最多只能与数字世界交互,我们最终必须使其能与物理世界交互。要与世界沟通和采取行动,需要一个关键环节——机器人。因此,“具身智能”(Embodied AI)的出现很关键,它可以构建一个完整的智能体:既有感知能力,又有像人类一样的思考和行动能力。如果能实现这一步,其结果将是难以想象的。因此,现在就必须将机器人技术纳入进来。 因此,埃隆•马斯克做了人形机器人。我认为,机器人不一定要做成人形,因为很多地方只是使用了手或脚的功能,不必把硬件搞得非常复杂。所以我主张,只要有一定的硬件作为基础,就能进行进一步的“强化学习”研究。强化学习是今后人工智能的方向,如果强化学习再进步,我们就有机会将智能机器做到从外部驱动走向内部驱动——这就非常接近人类智能了。
人工智能难以替代人类
人工智能继续发展下去,会给人类社会带来什么影响? 《高盛全球投资研究》中有一张图,展示了人工智能发展带来的各种变化以及对各行业的影响。其中一点可以看出,人工智能发展下去,一定会推动经济的发展。 高盛的分析显示,人工智能每年可带来1.3%的全球经济增长,发达国家可能达到1.5%,中国大约0.9%。这组数字或许不够准确,但人工智能促进经济发展的趋势是确定的。因此,中国要发展经济,就必须推动人工智能技术发展。 那么,人工智能究竟会对我们的产业、各个行业产生什么影响? 有人担心人工智能会代替人类工作。但高盛的这份报告通过对各行各业的分析,得出的结论是,人工智能对大多数行业有利。因为大部分工作将是人机互补或协同,结果是工作质量和效率的提升。 为什么大模型难以完全替代人类?因为当前人工智能模型存在天花板。 现在的大模型所有工作都要依靠外部提示,并不能主动作为。而且它在外部的提示下,仅能用概率预测的办法完成任务。人类则完全相反,所有工作基本上都是在内部意图的驱动控制下(或意识的控制下)完成的。 从这点不同可以发现大模型的三个天花板。第一,质量不可控,大模型的质量无法人为控制,输出质量不稳定;第二,生成结果可能正确,但也存在错误,因而不可信;第三,不够“鲁棒”,输出很依赖输入提示词,相同的内容在不同提示词下可能会产生不同解,给出不同回答。 我认为,当前大模型存在的三大问题是根本性的缺陷,随着模型规模的增加也难以解决。 2007年图灵奖得主Joseph Sifakis也有类似的观点。他认为智能化有三个层次,目前来讲,智能机器大多数情况下只能作为辅助;接下来第二步是走向自动化,把部分监控任务交给机器;最后是实现自主化,把所有控制、监控都交给机器。他认为自主化很难,最主要的原因就是刚才谈到的机器“不可信”。 总体而言,人工智能研究最主要的方向,就是把机器作为人类最好的助手。当然,可能会有相当一部分工作被它代替,但并不是所有领域都是如此。
大模型为通用人工智能创造可能
早在2015年,我们就提出发展第三代人工智能的思想,其中最主要有三点。第一,必须建立具有可解释性与鲁棒性(稳健)的人工智能理论与方法;第二,发展安全、可控、可信、可靠和可扩展的人工智能技术;第三,推动人工智能的创新应用与产业化。综合来看,这与上述我们的分析和结论比较相似。 迄今为止,具有可解释性与鲁棒性(稳健)的人工智能理论与方法还没有完全建立起来,这也是人工智能发展缓慢和曲折的原因。现在,大模型技术的发展让我们有了建立这一理论和方法的可能。另外,在人工智能创新应用和产业化方面,我们特别强调人类知识这一要素的作用。 人工智能发展可以分为三个阶段。第一代人工智能试图通过建立语义符号系统来模拟人类思考,包括推理、决策、诊断、设计、规划和创作等能力。这体现了符号主义和行为主义的主张,即构建一个语言和符号的理想空间,在这个空间内模拟人类思考。但是这种模型存在一个重大缺陷,即“符号接地”问题。系统都是人为定义的,若无法与物理世界联系,自然就与外部环境脱节。 第二代人工智能试图通过构建特征向量的连续空间来实现感知,可以利用大量数据进行训练。但其最大问题是与认知层面脱节,仅能对物体进行区分,无法真正理解和认知。 为克服第一代和第二代人工智能的局限,我们在第三代人工智能中提出构建“准语义向量连续空间”,也就是大模型构建的空间。打通了这几种空间,才可能建立一个真正的智能体,实现思考、感知和行动的统一。大模型的出现使这一目标看起来可能实现,但仍有很多问题有待解决,需要做大量工作。 总之,大模型为实现真正的通用人工智能提供了可能性,但距离最终目标还有一定差距。 最后,就人工智能的发展,我再谈一些思考。 尽管人工智能目前正处于稳步发展甚至可以说是快速发展阶段,对各行各业产生着巨大影响,但也要认清,我们还面临许多不确定性——人工智能的发展往往是不可预测和不可控的。例如,目前对某些现象的解释仍停留在“涌现”这一概念上,这实际上意味着我们尚未完全理解其背后的机制。 我认为,中小型企业要打开视野,将人工智能科学研究、技术创新与产业发展紧密结合。智谱AI在这方面做得相当出色。产学研结合的模式有助于产业的健康发展,特别是在中国。 现在是抓住机遇发展人工智能产业的关键时期。过去,人工智能产业受到特定领域和任务的限制,难以实现大规模发展。现在,我们有机会开发通用的硬件和软件。总的来说,通向通用人工智能的道路是很艰难的,但无论如何,大模型指出了一条宽广的道路。■ (作者系必威体育app官网:院士、清华大学人工智能研究院名誉院长,记者赵广立根据其在智谱AI 2024年度技术开放日上的演讲整理) 《科学新闻》 (科学新闻2024年4月刊 封面)
|
||||
发E-mail给: | ||||
| 打印 | 评论 |
| ||||