您的位置>首页>商学院

李飞飞:理解世界运作方式是AI的下一步,我们需要从大语言模型转向大世界模型

语言中充满了视觉格言。比如,“眼见为实”,“一幅画胜过千言万语”,“眼不见,心不烦”等等。这是因为我们人类从视觉中获取了很多意义。但并不是一直都具备视觉能力。直到大约 5.4 亿年前,所有生物都生活在水面以下,且它们都无法看见。只有随着三叶虫的出现,动物们才能次感知到周围阳光的丰富。接下来发生的事情是非凡的。在接下来的 1 千万到 1.5 千万年中,视觉的能力开启了一个被称为寒武纪大爆发的时期,在这个时期,大多数现代动物的祖先出现了。


今天,我们正在经历人工智能(AI)的现代寒武纪大爆发。似乎每周都有一种新的、令人惊叹的工具问世。最初,生成式AI革命是由像 ChatGPT这样的巨大语言模型推动的,它们模仿人类的语言智能。但我相信,基于视觉的智能——我称之为空间智能——更为根本。语言很重要,但作为人类,我们理解和与世界互动的能力在很大程度上基于我们所看到的。


一个被称为计算机视觉的AI子领域长期以来一直致力于教会计算机拥有与人类相同或更好的空间智能。过去 15 年,该领域迅速发展。并且,在以AI以人为本的核心信念指导下,我将我的职业生涯奉献给了这一领域。


没有人教孩子如何看。孩子们通过经验和例子来理解世界。他们的眼睛就像生物相机,每秒拍摄五张“照片”。到三岁时,孩子们已经看过数亿张这样的照片。
我们需要从大型语言模型转向大型世界模型。


我们知道,经过数十年的研究,视觉的一个基本元素是物体识别,因此我们开始教计算机这种能力。这并不容易。将一只猫的三维(3D)形状呈现为二维(2D)图像的方式是无穷无尽的,这取决于视角、姿势、背景等。为了让计算机在图片中识别出一只猫,它需要拥有大量信息,就像一个孩子一样。


这一切直到 2000 年代中期才成为可能。那时,被称为卷积神经网络的算法,经过数十年的发展,遇到了现代 GPU 的强大能力以及“大数据”的可用性——来自互联网、数码相机等的数十亿张图像。


我的实验室为这一融合贡献了“大数据”元素。在 2007 年,我们在一个名为 ImageNet 的项目中创建了一个包含 1500 万张标记图像的数据库,涵盖 22000 个物体类别。然后,我们和其他研究人员使用图像及其相应的文本标签训练神经网络模型,使得模型能够用简单的句子描述之前未见过的照片。利用 ImageNet 数据库创建的这些图像识别系统的意外快速进展,帮助引发了现代AI热潮。


随着技术的进步,基于变换器架构和扩散等技术的新一代模型带来了生成性AI工具的曙光。在语言领域,这使得像 ChatGPT这样的聊天机器人成为可能。在视觉方面,现代系统不仅能够识别,还可以根据文本提示生成图像和视频。结果令人印象深刻,但仍然仅限于2D。


为了让计算机具有人类的空间智能,它们需要能够建模世界、推理事物和地点,并在时间和3D空间中进行互动。简而言之,我们需要从大型语言模型转向大型世界模型。
我们已经在学术界和工业界的实验室中看到了这一点的初步迹象。借助最新的 AI 模型,这些模型使用来自机器人传感器和执行器的文本、图像、视频和空间数据进行训练,我们可以通过文本提示来控制机器人——例如,要求它们拔掉手机充电器或制作一个简单的三明治。或者,给定一张 2D 图像,该模型可以将其转化为用户可以探索的无限数量的合理 3D 空间。


应用是无穷无尽的。想象一下,能够在普通家庭中导航并照顾老人的机器人;为外科医生提供不知疲倦的额外帮助;或者在模拟、培训和教育中的应用。这是真正以人为中心的人工智能,空间智能是它的下一个前沿。人类进化了数亿年所取得的成果,现在在计算机中仅需几十年就能出现。而我们人类将是受益者。

热门推荐

宠物店预约小程序开发价格差三倍?业内人帮你拆解门道

宠物到店预约小程序旨在为宠物店、宠物医院与宠主之间搭建高效便捷的服务桥梁。该系统需具备服务在线预约、医生排班管理、服务项...

2025-11-03 17:13:26 1

智慧充电新时代:充电桩小程序的未来趋势与创新功能展望

智慧充电新时代:充电桩小程序的未来趋势与创新功能展望 随着新能源汽车市场的爆炸式增长与“双碳”目标的深入推进,...

2025-10-31 19:22:03 3

B端采购商城核心功能揭秘:企业降本增效的八大关键要素

在全球化竞争与数字化浪潮的双重驱动下,企业采购正经历从“成本中心”到“价值中心”的战略转型。传统的采购模式面临流程冗长、...

2025-10-30 18:22:50 3

如何挑选B端采购商城开发公司?看好这几点很重要

B端采购商城是一款为企业提供供应商管理、在线采购、订单跟踪、智能审批与供应链协同的综合平台,支持多层级权限控制、数据分析...

2025-10-29 17:58:24 4

开发一个B端采购商城需要多久?是否符合你的预期?

B端采购商城是一款为企业提供供应商管理、在线采购、订单跟踪、智能审批与供应链协同的综合平台,支持多层级权限控制、数据分析...

2025-10-28 10:46:24 3

你知道B端采购商城开发的技术难点解析吗?如何实现复杂权限与供应链的高效协同?

B端采购商城是为企业提供商品采购、订单管理、供应链协同等功能的数字化平台,通过集成供应商管理、智能审批流程与多层级权限控...

2025-10-27 17:33:49 15

充电桩小程序开发的必备功能有哪些?速来围观

充电桩小程序开发旨在提供实时桩位状态查询、充电过程监控、便捷支付、会员管理等功能,确保用户充电体验高效、安全、便捷。通过...

2025-10-24 18:09:04 9

开发一个充电桩小程序需要多少时间?如何规划功能节点?

充电桩小程序开发旨在提供便捷的找桩导航、实时状态查询、在线支付与充电管理等功能,解决电动车主的里程焦虑与充电难题。通过整...

2025-10-23 11:02:00 8

智慧充电桩小程序开发费用悬殊?揭秘背后差价原因

智慧充电桩系统开发旨在满足运营商和用户对高效、智能充电管理的需求。该系统需具备桩位状态实时监控、远程控制启停、多种支付方...

2025-10-22 12:00:05 14

亚马逊AWS云服务突发故障

标签:

北京时间周一下午,大量美国互联网应用的服务几乎在同一时间集体掉线。

2025-10-21 11:04:07 6
close
广州触角科技是华南地区领先的数字化转型升级的专业服务商,致力于为国内的传统中小企业提供“应用智慧化、经营精细化、数据私域化、生产智慧化”等数字信息化服务,助力企业实现全链路数字化,实现真正意义的数字化转型,达到增效降本提速。
目前,公司总部位于广州,在深圳、珠海、佛山和台湾等地分别设立分公司及办事处。触角科技汇聚业内高精尖技术团队30多人,部分核心技术来自腾讯、百度、汇丰等大厂,成功积累了数字资产管理系统、智慧零售、智慧党建、智慧教育等领域的成熟解决方案,并获得高新技术企业称号与40多项知识产权。

合作意向表

您需要什么服务

APP开发
小程序
公众号开发
网站建设

描述需求

你的预算/*准确的预算有助于我们为您提供合适的方案

 1-2万
 2-6万
 6-10万
 10万以上
 大型项目需要投标
提交需求
close
您好!
咨询热线
1380-2750-855
扫码加顾问热线
小程序开发