Zhiyuan研究所院长Wang Zhongyuan:多模式大型模型
2025-06-09 09:34
2025年北京齐尤恩(Beijing Zhiyuan)会议于6月6日开幕。他说,多模式的大型模型是在某些情况下推出的,但没有实现高通用性。 Zhiyuan多模式模型是将AI从数字世界推广到物理世界。将来,除了视频,文本,语音,大脑信号数据等外,还需要紧急强迫从复杂的模态数据中屏幕最有效的信息。 Wang Zhongyuan说通常使用互联网文本数据,并且大型语言模型的性能的改善相对较慢。现实世界中有大量的多模式数据,例如来自各个行业的流程图,CT和DATA传感器,这些传感器可能会在大型语言模型的瓶颈中损坏。在开幕式上,Zhiyuan研究所推出了“武吉”系列在大型模型中,EMU3是一种本地的多模式 - 一种体系结构,允许大型模型具有理解和推理世界的能力。如何理解本地多模式大型模型的“本地”概念? Wang Zhongyuan说,研究大型多模型模型(尤其是多模式理解模型)的当前道路通常会将语言模型训练至非常强大的水平,然后学习其他模态信息,例如第一个达到医生水平,然后联系其他知识的模式信息。在此过程中,模型能力可能从“大学”甚至“高中”水平下降到“博士学位”水平。但这不是人们学习的方式。孩子们从出生开始就开始听到世界的声音,与各种物体和图像互动,父母用声音教他们。在模型训练的初始阶段,各种模态数据,例如文本,图像,声音甚至大脑签名LS在这里包括培训。尽管这些类型的模式将继续增加,但如何从复杂的模态数据中筛选最有效的信息已成为一个技术问题,需要紧急损坏。目前,不仅是Zhiyuan研究所,而且许多行业机构都在积极探索民间多模式技术。此外,一些专家和学者是构想本机多模式技术可能已在最近在全球发布的产品背后使用的,但是这些产品进一步揭示了技术细节。从行业和学者专家的角度来看,本地多模式是一条值得深入探索的技术路线,它与技术业务的路线有所不同。企业的多模式技术首先增强了语言模型,然后增加了多模式,从而更容易实现行业实施。在行业中,大型多模式仍在生产图像几代和世代的视频。它们在设计,广告和电子商务领域的实施良好,可以提高生产效率。 Wang Zhongyuan介绍了在某些情况下启动了多模式模型,但尚未表现出很高的普遍性。在实际情况下,多模式的要求是不可避免的。例如,英语教学需要对场景的声音,图像和理解的整合,但是大型多模式模型的当前功能在语言模型的术语中显着较弱,产品的影响却小于预期。尽管该行业试图通过“修补”来优化体验,但主要成就仍然依赖更强大的主要模型。将来,多模式模型将添加3D信号,时空信号等。“ Zhiyuan多模式模型是为了将AI从数字世界推广到物理世界。” Wang Zhongyuan说,体现领域中的数据具有更多的方式,CuRrent模式包括视频,文本,语音,DBRAIN信号等。将来还可以添加3D信号,小时信号和其他数据。 “我们创造的多模式世界的本地模型的一个架构不仅要了解静态多模式数据,还要了解时空。”他举了一个例子,如今许多多式联运模型都在桌子上看到一杯咖啡,并描述了“咖啡杯在桌子上,咖啡杯是白色的,这里有一些文字”,但是对太空空间的理解会感到“咖啡杯在桌子的边缘,这很危险”。迄今为止,大多数大型多模式模型都没有如此酌处权。在理解空间时,机器人应在操作时从桌子的边缘拿起杯子,而不是从内而外。 “一杯咖啡可能会掉到地板上。探索。王中尤恩说,“体现智能的“小组匹配”尚未完成,它远非“淘汰赛”。在说到体现的智能时,在发展智能的过程中,Zhiyuan期望探索一条独特的路径:总体而言,总体而言,数字智能的范围,例如特定的智能,例如,特定的型号。界限的界限也可以进入数千个家庭。IEVES认为,汽车公司的主要优势可以在两个方面看到:制造能力,工业整合和实施的方案资源。智能汽车驾驶公司积累的运输数据量,旅行和其他方案可以为智能的复杂性提供初始的申请情况,例如物流,服务机器人等。汽车公司技术的现有积累可能不适用。此外,体现的情报处于其发展的早期阶段。在“小组阶段”中,大型模型机构,硬件制造商,科学研究小组和其他各方参加了比赛。各个领域的球员的技术道路仍在碰撞,远离“淘汰赛”阶段。最终谁能取得突破仍然未知。 “但是,与共存gemartido共存的不仅仅是一件好事。因纪律,各种思想的碰撞肯定会让工业发展令人愉悦。 “在接下来的三年中,该领域可能会产生突破性申请的智能智力?王宗尤恩认为,第一件事是在相对封闭的场景中(例如工厂)实施它。它也不能阻止当前的安全风险在不专业的智力上,但也取代了bald and recrace coodine coodine liu read。
相关推荐