锌财经讯 用AI技术复原《富春山居图》的残卷、自动驾驶可预测行人未来6秒的运动轨迹……9月21日,百度发布“2022十大科技前沿发明”,今年以来展现的多项人工智能、自动驾驶技术均在榜上出现。
百度CTO王海峰(如图)表示,百度一方面要在科技前沿领域加紧创新和探索,攻关核心关键技术,把发展主动权掌握在自己手里;另一方面,将创新成果与产业融合,促进产业发展。经过二十多年的持续创新投入,百度人工智能技术,全面应用于搜索、信息流以及地图、翻译、输入法、小度智能硬件等产品,助力智能驾驶持续创新,并通过百度智能云输出给各行各业,推动千行百业的数字化转型和智能化升级。
在十大科技前沿发明中,跨模态通用可控AIGC(人工智能自主生成内容),被认为是颠覆现有内容生产方式的新一代技术,在通用性上提出了跨模态、跨任务的统一建模技术,是全球首次实现语言与视觉大一统的理解与生成。
今年7月21日,在2022百度世界大会现场,百度用AI复原了中国十大传世名画之一《富春山居图》的残卷,背后的核心技术就是AIGC。
百度创始人、董事长兼首席执行官李彦宏表示,AIGC是PGC、UGC之后,全新的内容生产方式。它不仅会提升内容生产的效率,也会创造出有独特价值和独立视角的内容。未来十年,AIGC将颠覆现有内容生产模式,可以实现以十分之一的成本,以百倍千倍的生产速度,去生成AI原创内容。
在十大科技前沿发明中,自动驾驶多模态行人运动预测这项发明大大提高了自动驾驶的安全性,该发明提出一种融合多模态输入特征以及多维度交互模式的深度学习模型,用于预测行人未来6s的运动轨迹。目前已在Robotaxi业务中落地应用,行人预测准召提升30%,VRU碰撞风险问题解决率95%。
实际上,十大科技前沿发明是百度创新投入的一个缩影。截至2022年,百度已在人工智能领域深耕整十年,累计研发投入超1000亿元。百度已连续四年在AI专利申请量和授权量方面蝉联中国第一。
北京市知识产权局副局长李钟表示,近年来,我国把科技创新作为引领发展的第一动力,深入实施创新驱动发展战略,开启了建设世界科技强国的新征程。关键核心技术专利是国之重器,“十大科技前沿发明”成果体现了百度多项国际前沿核心技术的实现与突破,对推动经济发展和技术进步有着十分重要的意义。
该发明在业界首次提出语言与视觉统一的理解与生成模型,创新提出融合知识的生成,突破了通用可控内容生成技术瓶颈,实现了文本生成、图像生成、视频生成、数字人生成的实用化跨越。发明已落地业界首创的图文转视频、高精度数字人生成、文生图等创新产品,大幅提升了内容生产效率,开创了AI内容生成的新篇章。
该项发明以多传感器融合为核心,完善激光雷达感知能力,构建了环视视觉的独立闭环能力,已经在自动驾驶车辆上得到大规模应用,实测效果漏检率总计减少60%,低矮障碍物漏检率减少83%,有效支撑百度Robotaxi在各种城市复杂道路和场景上无人驾驶能力的构建。
该发明是百度文心大模型的核心技术,其从大规模知识和海量数据中融合学习,具备领先的理解和生成能力。包括了以全球首个千亿级知识增强大模型鹏城-百度·文心为代表的语言大模型、计算机视觉、跨模态等大模型,以及电力、金融、航天等行业大模型,在百余权威任务取得最好效果,目前已大规模应用于百度的各类产品,显著提升各类产品体验,并通过飞桨和百度智能云支持各行各业的产业智能化升级。
该项发明通过可扩展的架构设计,不仅可以支持基于CPU、GPU、XPU等不同类型硬件的参数服务器架构单独训练,还可以通过强化学习算法将同一深度学习模型训练任务分配到不同类型硬件的计算节点上进行混合硬件异构训练,实现计算资源最优搭配,从而可减少50%以上的深度学习模型训练成本,有效提升深度学习模型训练效率。
该发明提出了一系列基于AI的生物计算创新技术,包括自主研发的高效mRNA疫苗设计LinearDesign算法,全球首个基于几何空间构象的化合物表征模型HelixGEM,端到端的单序列蛋白结构预测模型HelixFold-Single等,大幅提升了新药研发和疫苗设计效率,助力科技抗疫。
该项发明构建了车路协同自动驾驶的复杂技术体系与融合协同机制,通过协同感知,解决自动驾驶动静态盲区、超视距、遮挡等一系列感知长尾问题,通过协同决策规划和协同控制解决混行状态下的现实变更、博弈、阻塞和极端场景等问题,降低自动驾驶的接管次数和安全事故风险,保障自动驾驶安全连续运行。
该发明围绕“量羲”布局,“量羲”是百度推出的基于“乾始”研发的全球首个全平台量子软硬一体化解决方案,提供私有化部署、云服务、硬件接入等一系列服务,最大程度上简化了量子硬件部署到量子服务的全流程。“量羲”具备适配超导、离子阱等多类型主流量子芯片,可实现量子芯片“即插即用”。
该发明基于语音、语义和视觉等AI技术,以智能终端为载体,实现人机可视化语音交互服务。借助百度智能云曦灵平台,打通数字人生产、人设管理、内容创作到业务编排全流程。结合UNIT7.0跨模态对话引擎及AIGC技术,支持服务型和演艺型数字人多种人像(2D、3D、卡通)高效生产及运营。
该发明的全要素双总线包含智慧总线与知识总线,智慧总线构建城市服务的全资源协同开发与运行环境,统一纳管调度城市中的各类数据、算法、算力,为智能化应用开发提供综合技术供应;知识总线依托文心增强的城市多模态大模型及知识图谱、NLP等AI技术,搭建城市全要素融合知识图谱,支撑跨部门、跨应用、跨数据间的知识体系打通和资源共用。
该发明提出一种融合多模态输入特征以及多维度交互模式的深度学习模型,用于预测行人未来6s的运动轨迹,已在Robotaxi业务中落地应用,行人预测准召提升30%,VRU碰撞风险问题解决率95%。