• 拼搏

  • 奉献

  • 和谐

  • 快乐

首页  >  新闻动态  >  正文

新华社《瞭望东方周刊》专访王耀南院士:大模型推动新一轮科技革命和产业变革

时间:2024-09-05     浏览量:

海量的应用场景、超大的市场规模,人工智能领域正迎来一场由AI大模型引领的爆发式发展。

AI大模型在千行百业落地过程中有哪些新的可能性?具身智能如何成为人工智能的下一个浪潮?就AI大模型领域热点问题,《瞭望东方周刊》近日专访了中国工程院院士、中国图象图形学学会理事长、湖南大学教授,机器人视觉感知与控制技术国家工程研究中心主任王耀南。

处于“孩童期”

瞭望东方周刊》:以AI大模型为代表的新一轮人工智能技术浪潮汹涌澎湃,AI大模型这一轮发展对培育发展新质生产力有怎样的重要意义?

王耀南:技术革命性突破、生产要素创新配置、产业深度转型升级,这三个因素催生了新质生产力。培育发展新质生产力,具体特征就是高科技投入、高效能、高质量,重点是要摆脱现在传统产业存在的问题,即摆脱传统经济增长方式(增长效率低),摆脱传统生产力发展路径(高耗能、产品质量不高)。

多模态大模型正助力新质生产力的培育和发展。

推进数字经济高质量发展,核心在于“人工智能+行动”,即推动人工智能赋能各行各业,帮助各行各业摆脱增长效率低和高能耗等问题,最终实现生产力三要素的跃升:即劳动者跃升为更高素质的劳动者,培养出战略人才、应用型人才等;劳动资料跃升为更高技术含量的劳动资料,通过新一代信息技术、先进制造技术、工业互联网、工业软件、AI大模型等,产出先进制造的优质产品;劳动对象跃升为更广范围的劳动对象,深度融合到生产的各个方面,开辟如战略性新兴产业、未来产业等新赛道。

作为新一轮产业变革的核心驱动力,人工智能将进一步释放历次科技革命和产业革命所积蓄的巨大能量。

《瞭望东方周刊》:如何理解当前人工智能发展的程度和水平?

王耀南:经过数十年的演进,人工智能各个方面都取得了突出成绩。特别是在移动互联网、大数据、超级计算、传感网、脑科学等新理论、新技术以及经济社会发展强烈需求的共同驱动下,人工智能加速发展,呈现出深度学习、跨模态、人机协同、自主操控等新特征,但坦白说,目前人工智能还处于发展的“孩童期”。

回顾人工智能的螺旋式发展史,可以看出其经历了大起大落三次迭代:第一次是20世纪50年代的计算智能时代,特点是重视逻辑,忽略知识;第二次是20世纪70年代感知智能时代,特点是重视知识,学习不足;第三次自20世纪80年代到现在,特点是走向认知智能。

 2017年,谷歌提出基于自注意力机制的神经网络结构Transformer 架构,奠定了大模型预训练算法架构的基础;2018年OpenAI和谷歌分别发布GPT-1和BERT大模型,预训练大模型成为自然语言处理的主流;2022年,OpenAI推出ChatGPT,其拥有强大的自然语言交互与生成能力;2023年,OpenAI多模态预训练大模型GPT-4发布,其具备多模态理解与多类型内容生成能力;2024年,OpenAI发布视频生成大模型Sora,提出时空碎片概念。

当前,AI大模型热潮主要由语言大模型相关技术引领。语言大模型通过在海量无标注数据上进行大规模的预训练,让模型学习大量知识,并进行微调,指定的回调,从而获得面向多任务的通用求解能力。大模型从过去的单一的自然语言处理能力和文本解答能力,走向了图像视频语音的融合化、多模态的能力。Transformer架构是目前语言大模型采用的主流架构,大模型的多模态生成能力进一步成熟。

从发展进程来看,AI大模型并不是终点,今天的语言大模型也只是人工智能的一个过渡神经网络推理模型,未来我们还有很多工作要做。

具身智能大发展

《瞭望东方周刊》:当前热议最多的多模态、人机协同、巡视开放和自主操控等特征,是人工智能发展的前沿体现。具身智能如何借助AI大模型的发展变得更加智能化?

王耀南:人工智能的三大基石,即模型算法、算力、数据,其中模型算法是人工智能的核心,主要应用领域包括计算机视觉、自然语言处理、智能机器人等。

回顾过去人工智能发展取得的成绩,主要是体现在计算机视觉、自然语言的处理、工业智能机器人等。

在计算机视觉中,过去人工智能更多作用在目标检测、目标跟踪、虚拟现实和三维重建,通常都采用小的模型算法、小的模型来解决相关领域的问题。今天AI大模型大大提升了语音识别、文字识别、机器翻译和信息检索等能力,因此在计算机视觉领域出现了不少视觉大模型技术突破。

智能机器人是当下的热点。业界普遍认为,2024年可以称为“AI大模型+人形机器人元年”。

具身智能就是实现思考、感知、行动三个空间有机智能融合的机器或系统,既具有人机交互与自然语言理解的能力,同时又可以通过感知、认知、决策与时变环境及对象进行实时校准互动,协助机器人作出决策、完成行动任务。

“具身智能”这一概念,最早是1950年由英国科学家图灵提出的,然而真正引起广泛重视却是由于近年来AI大模型的发展与应用。过去,人形机器人发展非常缓慢。我们没有多模态模型,用小模型,一个模型解决一个问题,编好一些固定程序,通过小脑芯片控制机器人的抓取、行走、搬运等单一动作。现在,通过多模态大模型训练学习迭代(大脑芯片),可以实现人形机器人与环境的交互、理解、判断、规划等,机器人的自主性得到很大提升,应用场景也在不断拓展。

未来,人类更需要服务机器人,而服务机器人最重要的能力就是与人类交互,要实现语言、视觉、动作、图像、视频等全方位的交互,多模态大模型的发展将极大助力这些目标的实现。

《瞭望东方周刊》:机器人之外,AI大模型还有哪些典型应用场景?

王耀南:人工智能产业生态的三层基本架构为:基础底座技术支撑、人工智能技术、人工智能应用。其中,基础资源层主要是计算平台和数据中心,属于计算智能;技术层主要是通过机器学习建构,开发面向不同领域的模型算法和技术,包含感知智能和认知智能;应用层主要实现人工智能在不同场景下的应用。

第一步是模型架构,第二步是训练,第三步要测试应用。我们研究多模态大模型、跨模态大模型,最关键的是这些模型能不能落地到实际场景。

比如,应用到科学领域。人工大模型+5G技术,可以赋能到我们的基础数学、通信工程、电子科学、数据科学等多学科交叉,提供更多科研就业创业机会。

具体到AI+生物科研领域,由Google DeepMind和Isomorphic Labs研究团队推出的革命性AI模型ALFHAFOLD 3 ,以前所未有的精确度预测了所有生命分子(蛋白质、DNA、RNA、配体等)的结构和相互作用,有助于改变人类对生物世界和医药研发的理解,进而开启人工智能细胞生物学的新时代。

再如,多模态大模型推动智能网联汽车产业迅速发展,尤其是在环境感知、传感器融合、规划决策、地图构建定位、V2X通信、车辆控制等方面;在智能无人机方面,有助于更高效地完成测绘、救援等任务,形成真正的具身智能无人系统;在智能水下机器人方面,有助于为航行器提供位置、航向、深度、速度和姿态等信息,满足无人自主导航、长时间科考工作、高精度定位、实时准确导航等需求;在智慧能源领域,有助于建设更加开放、共享的能源信息平台,提高能源生产和利用效率,实现能源的优化决策和广域协调。

AI大模型+制造业是一个特别值得关注的重要应用场景。智能制造是融合信息与通信技术、人工智能技术、自动化技术、现代企业管理技术等多个大领域的全新制造模式。AI大模型通过对传统生产制造全流程、全要素、各环节的赋能改造,将极大推动提质增效和降本降耗,助力制造业高质量发展。

科技竞争新高地

《瞭望东方周刊》:基于AI大模型的未来发展趋势,您对我国人工智能产业有哪些建议?

王耀南:首先,我对具身智能的发展充满信心。AI大模型的一个发展趋势就是在具身智能机器人领域实现重大突破。

随着技术不断进步、应用场景不断拓展,具身智能将在各个领域发挥越来越重要的作用。未来的具身智能人形机器人将更加智能、高效、安全、可靠,会逐渐成为人类生活中不可或缺的一部分。

开发人形机器人的过程,其实就是用开源大模型软件、算法来推动整个机器人产业发展的过程。从现在起,中国企业要为未来人形机器人大发展搭建一个大模型数智底座,这个底座包括机器人硬件和软件,要从计算智能、感知智能、认知智能、决策智能、行为智能走向具身智能,真正实现AI大模型与通用机器人的深度融合。

人工智能发展趋势是从计算智能(能存会算)到感知智能(能听会说、能看会认),再到认知决策智能(能理解、会思考),我们要明确,未来要走的道路,依然是基于大数据、大模型驱动的新一代AI技术方向。

人工智能发展过程中所面临的困难和挑战还有很多。比如,怎样在提高AI大模型训练算力的前提下降低能耗?如何开发出计算效率高的计算架构芯片?怎样解决现有AI大模型的可解释性、安全性和可靠性?怎样让AI大模型在遇到各种复杂干扰时,仍能保证稳定运行?如何保障数据安全,如何在数据挖掘、数据分析、数据安全隐私以及数据提取方面找到解决方案,等等。

眼下,通用大模型、行业大模型、端侧大模型如雨后春笋般涌现,下一步大模型产业应用落地将进一步提速。总体来看,作为新一代人工智能产业的核心驱动力,AI大模型正在广泛赋能我国经济社会的多个领域,助力打开迈向通用人工智能的大门,推动新一轮科技革命和产业变革。但同时,产业发展越成熟,问题也会暴露更多,要在应用中发现问题,解决不足,一起努力。

来源:《瞭望东方周刊》