日期:2025-01-23 点击数:387
2024年下半年,AI眼镜赛道企业与时间赛跑,2025年初,第一批实际交付的少量AI智能眼镜现货已送到用户手中,拿到新产品的用户第一时间为速度竖起大拇指,第二时间提出反馈意见。
有Ray-Ban Meta这颗珠玉在前,无论是跑步上市,还是打磨上市,从外观到功能,从重量到舒适度,所有PPT上的田忌赛马,都将被用户摊开来,放在Ray-Ban Meta这把衡量产品良莠的标尺前做仔细比对。
对比之下,需要提升的功能之一是AI,AI眼镜不够AI是用户对智能眼镜较常见的一种评价。AI眼镜缺乏优质AI大模型支持,另一方面,已进入百模混战的AI大模型正满地找合适的落地硬件。最终两者一碰头,一拍即合。
AI智能眼镜跑步上线,AI噱头大于实用?
AI智能眼镜作为新的可穿戴设备,被人诟病的理由之一,是AI功能体验噱头大于实用。有这样的评价,并不出人意料。国内AI智能眼镜的火热,与Ray-Ban Meta的出圈有直接联系,在产品的设计上,基本遵从了Ray-Ban Meta在造型、交互、功能上的设计。
而这款对AI眼镜有开山意义的产品本身最受用户关注的功能是拍摄,其次是音频,AI是后续更迭时Meta做出的尝试,在功能重要性排序上,稍稍落后。
即使是Ray-Ban Meta,想要在AI功能上拿到好评也并不容易。Ray-Ban Meta作为第二代产品,收到了大量好评与一波忠实用户,但对于AI功能,用户给出的评价是尚处于早期阶段。
部分用户反馈,AI功能有限,部分操作无法完成,导航不准确,翻译支持语种少,不支持其他平台的应用,内容资源如音乐、播客少,也有少量用户反馈灵敏度不高。
要知道,国内大模型蓬勃发展的功劳薄上都需记Meta一功。2023年7月,Meta发布开源大语言模型LLaMA 2并允许免费商用,个人开发者和中小型企业直接受益,促成了当前百模大战的局面。
Meta的AI功能尚且被定性为早期阶段,更何况以速度为第一要义的众多AI智能眼镜,收到用户的负面反馈完全在情理之中。
但AI功能被粗暴地打上空有噱头的标签也还为时尚早,至少从用户反馈来看,对AI眼镜交互模式的高满意度与未来AI功能完善的期待占了主流。
按键与语音组合,用户满意度99%,多模式交互成新趋势
AI眼镜执行命令的基础交互是AI功能实用性的最佳体现,AI问答与AI识物是AI功能尽情展示的花样赛区,它们既是最易激起用户兴趣的交互功能,也是最能满足用户对AI期待的功能,但也最易翻车。
从完整的AI功能体验来讲,当前AI功能并不完善,AI问答与通过摄像头获取视觉信息实现的AI识物并不常常如人意,但AI语音配合按键的交互模式却获得了用户十足的认可。
以Ray-Ban Meta为例,根据Wellsenn XR问卷调研,国内用户对Ray-Ban Meta 按键+语音结合的交互方式满意度高达99%(满意/比较满意),充分体验了用户对这种交互模式的认可。此外,约七成用户对AI功能保持期待。
在AI的发展与参与下,这种多种交互方式相结合的方式实际上在生活中已屡见不鲜,到了AI眼镜这一代新兴可穿戴硬件,多模式态交互已逐渐成为常态,在AI的帮助下,硬件能通过摄像头、麦克风获取视觉、语音等信息进行处理,完成与用户的多样化互动。
根据百度智能云实时互动大模型技术负责人柯于刚对人机交互发展的梳理,互联网时代,在人工智能技术的突破与参与下,机器设备形态不断升级、丰富,人机交互由早期的文本交互升级为图像交互,AI大模型接入硬件后,自然语言交互又逐步融入日常。智能化趋势突显,多模态交互会趋于常态。
硬件“新人”AI眼镜,AI体验为何达不到预期
回到AI体验,AI眼镜的AI体验达不到预期,主要受限于4个方面:硬件性能的限制、平衡功耗做出的取舍、AI眼镜缺乏专用的大模型、应用与内容资源的缺乏。
形态对硬件的性质与功耗的平衡,靠各厂商各显神通,而AI眼镜大模型的搭载与应用资源的获取则需要依靠与大模型厂商的合作。
除了应用与内容资源有所掣肘,Meta均可实现自给自足,而初创企业、AR赛道切入的厂商,则均通过外接一家或多家国内主流大厂大模型来实现AI功能。
对于国内在极短的时间利用国内供应链优势推出自家产品,与时间赛跑的企业,该如何快速解决AI大模型的需要?百度智能云作为大模型厂商给出了更适配的答案。
如何解决AI眼镜大模型需要?百度智能云推出AI眼镜大模型互动方案
2025年1月21日,百度智能云在深圳举办2024空间智能产业年会暨百度智能云AI眼镜大模型互动方案发布,吸引了AI、AR、传统眼镜厂商、声学厂商等AI智能眼镜相关领域众多企业参会。
会上,百度智能云实时互动大模型技术负责人柯于刚正式发布百度智能云AI眼镜大模型互动方案。
百度智能云AI眼镜大模型互动方案针对AI眼镜推出,支持多种接入形式,能做到1天内快速接入。
据柯于刚介绍,百度智能云AI眼镜多模态实时互动方案,基于两个框架服务,围绕语音交互、视觉交互、任务交互展开。
两个框架服务:为大模型/智能体提供实时互动能力,提供3A处理、VAD增强、声纹识别、云渲染等实时互动服务,轻终端,重智能,让大模型互动更流畅、更自然、更多维。
三个交互形态:针对智能眼镜场景,提供语音交互、视觉理解、复杂任务、内容资源、垂类应用等端到端的解决方案,超低延时、快速接入、开放可扩展。
低延时,快速响应
针对交互响应速度,百度智能云AI眼镜多模态实时互动方案能做到端到端音频延时低至1.4s,语音打断延时小于0.8s,端到端视觉延时低至2.5s。
丰富的应用与资源
基于百度多年积累的应用与内容资源,可为用户提供丰富的垂类应用,如翻译、同传译、天气、时间、限行、星座、健康、菜谱、搜索等高达30+种;提供海量内容资源的资源池,包括音乐、相声、广播、故事、新闻、戏曲、少儿等有声读物。丰富的应用与资源,足以匹配用户丰富的场景需求。
而通过摄像头识别,百度智能云AI眼镜多模态实时互动方案则可以帮助AI眼镜实现丰富的视觉交互应用,AI识图、AI翻译、AI导游、AI解题、AI厨艺指导等等。
云端协同
百度智能云AI眼镜多模态实时互动方案之所以能高效响应的同时提供丰富的资源,关键在于复杂任务上云,计算量大、复杂、耗时长的任务在云端处理,音乐、视频、页面、文档、图片等不同类型资源均在云端渲染+流化;新业务、新能力同样部署在云上,扩展性强,眼镜上无需升级。
1月21日的大会上,国内知名VR厂商大朋VR已与百度智能云达成战略签约,成为了首家签约企业。大朋VR将在智能穿戴领域,尤其是AI眼镜产品的研发与创新上,与百度智能云展开深入合作。
结语
在与时间赛跑的创业赛道,企业如何快速获得优质、适配AI眼镜的大模型方案?或许直接选择主流大模型厂商针对AI眼镜推出的AI大模型互动方案会是一个不会出错的选择。
从历史经验看,百度智能云已拥有中国最大的大模型产业落地规模,超过六成的央企和大量的民营企业正在联合百度智能云进行AI创新。百度智能云千帆大模型平台已帮助客户精调了3.3万个模型、开发了77万个企业应用、文心大模型日均调用量超过15亿次。
当前,百度智能云正以积极的态度跑步入场AI眼镜大模型赛道,期待与AI智能眼镜同行携手共进。
关注公众号回复“进群”即可加入群聊
主办单位:深圳市增强现实技术应用协会
地址:深圳市宝安区兴东社区南天辉创研中心6楼
电话:18938893801 Email:Vip@szar.org.cn
《中华人民共和国电信与信息服务业务经营许可证》编号: 粤ICP备18013217号
关注微信公众号
手机查看