在 AI 技术飞速发展的今天,编程技术正站在一个十字路口——可能不再是专业程序员的专属技能,人人都是开发者的时代来了。
今年 3 月,百度创始人、董事长兼首席执行官李彦宏在央视《对话》•开年说的访谈中指出,以后不会存在“程序员”这种职业了,因为只要会说话,人人都会具备程序员的能力。“未来的编程语言只会剩下两种,一种叫做英文,一种叫做中文。”
4 月,百度推出能体开发工具文心智能体平台 AgentBuilder,兑现李彦宏当初的预言——通过零代码、低代码等多种模式,不懂代码的用户也可以使用自然语言开发出一个智能体。
在 11 月 12 日举办的百度世界 2024 大会上,百度用 One More Thing——“秒哒”,一个无代码编程、多智能体协作、多工具调用的软件——再一次把 AI 应用开发门槛“打下去”。
AI 应用开发迈入全民时代
在硅谷,辅助代码生成技术正受到前所未有的关注。从基础模型公司到创业公司,都在致力于这一方向。其背后的逻辑是:美国面临工程师短缺的问题,而工程师的年薪高达几十万甚至上百万美金。如果能通过技术提升工程师的效率,将原本需要两小时完成的工作缩短至一小时,那么这种技术的价值不言而喻。
硅谷追求的是通过辅助代码生成技术来提升工程师的效率,与之相比,百度的目标则更为明确——进一步降低 AI 应用的门槛,让非程序员也能拥有程序员的能力,释放创造力。这也是辅助代码生成技术真正的价值所在。随着基础模型和智能体能力的逐步提升,这一构想逐渐成为可能。
在李彦宏看来,AI 应用开发实际上包含两个不同的轨迹:对于那些最复杂的应用场景,开发者不仅需要考虑应用本身,还要考虑模型的能力、模型精调和数据标注等,这些工作在可预见的未来仍然是必需的;对于许多相对不那么复杂的应用,过去可能需要专业程序员花费大量时间开发的应用,现在即使不是程序员,也能在几分钟内完成。
与传统的代码生成工具不同,“秒哒”不要求用户具备编程知识,其由大模型和智能体组成,可以让用户在任意场景下创建各种应用,指挥多个智能体来协同完成任务。“秒哒”代表了一种新的思维方式,它不仅仅是一个工具,而是一个平台,一个让每个人都能发挥创造力的平台。
告诉“秒哒”需求 :“我要为萝卜快跑的新技术发布会做个嘉宾邀请和管理系统,并且能收集他们的猜测和想法。”
首先,0号智能体作为小组长进行规划调度,会将任务拆解并召唤各智能体来完成任务。
1号智能体(策划智能体),将策划设计解决方案拆分成:核心需求、内容结构、开发需求、数据收集四个子任务。
2号智能体(小编智能体),编辑邀请函中的所有文字和媒体内容,包括发布展望、时间地点信息、封面图等。
3号智能体(程序员智能体),写代码来制作和部署网页。
4号智能体 (质检员智能体),检查代码bug并修复、进行代码测试。
“秒哒”生成了邀请函,还可以让它生成一个更有科技感的邀请函。
具体来说,“秒哒”具有无代码编程、多智能体协作和多工具调用三大特性。无代码编程降低了技术门槛,每个人都能轻松上手;多智能体协作基于文心大模型思考、规划等能力,实现了智能体的调度和编排;多工具调用则整合了网页检索工具、iRAG 和地图 API 等多种工具。
“无代码开发是一个逐步发展的过程,并非一蹴而就的”,李彦宏提到,“秒哒”不仅是一个工具,它更代表了一种理念:希望每个人都能成为创造者,无论他们是否具备编程能力。
智能体是 AI 应用最主流形态,即将迎来爆发点
“秒哒”最大的想象空间在于,它能指挥多个智能体协同完成任务,这也是“迄今为止人类历史上最复杂的多智能体协作工具”。
智能体是贯穿本届大会的关键词,也是百度重要的发展战略方向之一。所谓智能体,指的是能够在特定环境中感知环境状态并作出决策以实现特定目标的实体。在 AI 原生时代,应用最主要的形态就是智能体。智能体是内容、信息和服务的新载体,可以是软件形式,如 AI 聊天机器人、推荐系统等,也可以是物理实体,如自动驾驶汽车、机器人等。
在百度世界 2024 大会上,李彦宏展示了公司类、角色类、工具类和行业类四种不同类型的智能体。其中,最热门的赛道当属工具类智能体。百度网盘和百度文库联合推出的“自由画布”正是工具类智能体的创新代表,通过将传统图文、表格与视频、音频等多种元素融合,创造出一种全新的多模态报告形式。
以行业分析师的研究报告为例,传统的报告被局限在图文结合的框架内,而“自由画布”打破这一限制,使得报告可以包含发布会视频、电话会议录音等多种媒体形式,为用户提供了一个全面、多维度的信息展示平台。这种多模态报告不仅丰富了内容的表现形式,也提高了信息的传达效率和用户的阅读体验。
此外,“自由画布”的操作流程极为简单,仅需“一拖一圈”就能实现对多格式全模态文件的混合理解、生成、创作,并提供了从资料搜集、编辑到生成和分享的一站式服务,极大地简化了内容创作和分享的流程。
自由画布实现输入自由,文档、视频、音频等不限格式的文件都可以一键摘录到自由画布。
自由画布实现编辑自由,可以用批注的方式“指挥”AI对素材做各种编辑(调字号、排版等),告诉它如何利用各种素材。
自由画布根据全部素材,生成全格式、多模态的调研报告。
“自由画布”是百度对多模态应用的一种探索,也是对用户需求深刻理解的产物。
李彦宏在百度世界 2024 大会下午举办的 AI 圆桌对谈中提到,百度早期有一个名为文库的产品,其主要功能是提供现成文档的检索服务,而非内容生成。在生成式 AI 技术出现之前,文库就已经存在了。然而,随着生成式 AI 的出现,百度发现用户的根本需求已经从寻找现成文档转变为创作自己的内容。为了满足这一需求,百度开始重构文库,使其能够基于现成文档或即使没有现成文档也能让用户更好地创作内容。这一过程催生了“橙篇”产品的诞生,而“自由画布”则是这一思路的进一步发展。“关键在于如何将人们内心的想法转化为具体的文档,无论是语音、图像还是文字。百度致力于通过技术创新,赋能用户实现这一过程。”
以“自由画布”为代表的智能体正在开启一个全新的时代,它们以其多维的视角和强大的功能深刻地影响着人类的生活方式。目前,文心智能体平台已吸引 15 万家企业、80 万名开发者,每周都有上万个新的智能体在百度文心智能体平台上被创造出来。这些智能体通过百度新搜索这一最大的分发入口,日均分发量已超 1000 万。
李彦宏判断,“智能体将作为 AI 应用的主流形态,即将迎来它的爆发点。”作为 AI 应用的重要组成部分,智能体的发展和演变是一个持续的过程——既是 AI 应用过渡形态,也是未来发展的关键。随着 AI 技术的不断进步,智能体将继续在 AI 应用的舞台上发挥其独特的价值,推动技术发展和社会进步。
百度的 AI 发展逻辑:应用为先
除了“秒哒”,百度还发布了检索增强的文生图技术 iRAG,全称 image based RAG。
iRAG 是将百度搜索的亿级图片资源跟强大的基础模型能力相结合,生成的图片更为真实,整体效果远远超过文生图原生系统,去掉了浓郁的“机器味”。简单说来,iRAG 的商业价值体现在:无幻觉、超真实、没成本,而且立等可取。“在几乎所有的创作场景,iRAG 都非常有价值。”李彦宏提到。
文心iRAG生成的“爱因斯坦环游世界”图片,爱因斯坦和各个背景景点的结合与真实世界高度相似,质感接近照片。
从 iRAG 技术、智能体,再到无代码,其中蕴藏的是百度“应用驱动”的技术研发逻辑。李彦宏在 AI 圆桌对谈中提到,百度的 AI 发展逻辑始终从应用角度出发,技术发展优先级排列逻辑是自上而下的:从应用需求出发,确定所需的模型,进而确定模型所需的框架,以及框架所需的芯片。百度世界 2024 大会的主题定位“应用来了”,也是基于这一逻辑。
iRAG 技术的应用需求在于生成的 AI 图像必须保持原状,需要特别准确的多模态能力。在过去两年,RAG 技术(Retrieval-augmented Generation,检索增强)通过结合检索和生成两个阶段,使得大型语言模型具备了实用价值,有效控制了幻觉生成。在文字层面,RAG 技术表现出色,显著提升了语言模型在理解和生成文本内容方面的准确性和可靠性,尤其在 to B 场景中得到广泛应用。但在图像等多模态内容的应用上,RAG 技术仍有一定的提升空间。而 iRAG 技术代表的多模态技术的准确性和可控性,则是其进入实用阶段的关键。
智能体的应用是百度 AI 战略的另一重点。公司类、角色类、工具类和行业类四种不同类型的智能体体现出产业应用的重要性,百度与合作伙伴一道,在具体的业务场景中探索如何提升效率,如何让合作伙伴获得实实在在的收益。
无代码则旨在进一步降低大模型的应用门槛,让非程序员也具备程序员的能力。随着基础模型和智能体能力的逐步提升,百度希望普通人也能具备编程能力,释放出巨大的创造力。
在李彦宏看来,模型本身并不直接产生价值,只有当模型被应用于各种场景中,开发出各式各样的应用,并找到所谓的“产品市场契合点”(PMF),才能真正发挥其价值。“如果说 2023 年大家还在卷模型,让模型能力逐步地达到可用地步的话,那未来所谓的‘可用’,就是真的有东西用,应用的‘用’。”李彦宏在大会下午的 AI 圆桌对谈中提到。
iRAG 技术的创新应用、智能体的兴起以及无代码工具“秒哒”的开发,标志着 AI 技术的发展已经迈向新纪元,进一步释放了 AI 技术的商业价值和应用潜力。随着基础大模型能力不断提升,AI 应用的边界将被不断拓展,各个领域都将迎来前所未有的变革与机遇。而比“超级应用”更重要的是,“不断赋能数百万‘超级有用’的应用”。正如李彦宏所言,基础大模型能力已经就绪,即将迎来 AI 应用的群星闪耀时刻