回顾 VR、AR 市场表现,我们看到 VR 设备出货量在 2020 年9 月具备较高性价比优势的 Oculus Quest 2 发布后迎来了一波,2021 全年出货量达到 1029 万台,同比增长 72%,但此后由于内容生态端的不完善导致增长乏力: 而AR 设备由于尚处技术早期阶段,产品定义和体验仍在探索,因此全年出货量仅有数十万台,但我们可以发现 AR 设备的季度出货量正在稳步提升,体现出消费者的接受度也在逐步改善。根据 Wellsenn XR 的预测数据,其对未来的增长前景十分看好,预计未来5年VR、AR 的出货量将分别突破 4500、1000 万台。
Apple Vision Pro正式发布,开启新一轮性创新。国内外大厂持续推出新品以提前布局,例如 Meta在 2020年9月推出Quest 2之后,又分别在2022年10月、2023年6月分别推出了 Quest Pro、Quest 3,其 Reality Labs 部门即使每年亏损百亿美元以上,Meta 仍在加大投入,表明了巨头对于 VR/AR 市场前景的坚定看好。再以苹果为例,其在今年 6 月的 WWDC 全球开发者大会上,终于发布了业内期待已久的 MR 头显 Vision Pro,虽然价格高于预期,但其强劲的性能仍然让我们看到了其高价背后的产品支撑力和苹果布局多年的技术积淀。
1) 芯片: 搭载两块 5nm 主控芯片,主处理器 M2 芯片处理各种计算,核心频率达到 3.49GHz,而大多数 VR 头显搭载的高通骁龙 XR2 Gen1 芯片,其核心频率仅有1.8GHz: 另一块协处理器 R1 芯片负责传输数据,传输延迟低于 12ms。
2) 屏幕: 配置了两块拥有 4K 分辨率的 1.42 英寸Micro OLED 显示屏,而其他竞品基本采用的都是LCD 屏幕。
3)光学方案: 在业内普遍采用的 Pancake 2 方案的基础上,Vision Pro 使用全新的 Pancake 3P 方案,可以实现更低的色差和更高的画面像素。
4)摄像头和传感器: Vision Pro 搭载 12 颗摄像头和5 颗传感器 (1XLiDAR+2X结构光深度传感+2XIR 红外传感),用来处理 SLAM 空间环境感知、手势识别、三维建模和眼动追踪等功能。
空间视频功能已开启公测,iCloud 可进行同步。iOS 17.2 的公测版让空间视频成为了现实,iPhone 15 Pro和iPhone 15 Pro Max 只需在相机格式的设置里选择就可以在更新后开启这项功能。当拿到 Vision Pro 后就可以通过 iCloud 把用 iPhone 拍摄的空间视频无缝地传送到 Vision Pro 上,享受全新的视觉体验。
控制方式简单,深度体验 iPhone 15 Pro 全景照片。在控制方式上,我们可以看向窗口边缘并模拟捏合与拉动下方出现的白色曲线来调整窗口大小,用手指捏合与拖动即可浏览照片和画廊。放大用 iPhone 15 Pro 拍摄的 24MP 和48MP 照片后,可以将它们填满视野,并通过捏合与拖动在图像中移动,观赏精细细节。
空间视频体验遇真,音频效果自然。Vision Pro 照片应用中新增了一个“空间”类别,空间视频可以在窗口或全屏模式下观看,其边缘与使用者的视角或沉漫式环境融合,用 360 度的图像取代使用者的真实世界。如下图的泡泡视频,使用Vision Pro 会感受到泡泡不仅在场景中飘动,而且更接近使用者的脸,音频也被完美捕捉,十分自然。我们认为目前空间视频功能已开启公测,到 Vision Pro 正式面市还有一段时间,在此之前用户积累空间视频或将促进 Vision Pro 销量提升,除此之外,我们认为苹果生态将赋能 Vision Pro,引领产业革新。
Meta Quest 3正式发布,性价比再次凸显。此外,在今年9月28 日的 Connect开发者大会上,Meta 发布了新一代 VR 头显Quest 3,已于 10月10日正式开始发售,其中128/512GB 起售价分别为500/650 美元。整体来看,虽然 Quest 3 515g的重量相比 Quest 2 (503g) 有小幅提升,但得益于 Pancake 光学方案的采用,以及配重设计和佩戴细节上的改进,佩戴体验上要明显好于前代产品。
性能表现上,Quest 3 单眼屏幕分辨率提高到了 2064X2208,最高支持 120Hz 屏幕刷新率。此外,通过在头显前部的“三胶囊”中放入更多高清摄像头 (左右两个摄像模组包含全彩透视摄像头,中间摄像模组包含深度传感器和RGB 摄像头),Quest 3 全彩视频透视的像素数是 Quest 2的10倍,也是 Quest Pro的3倍,视频时延低至 12ms。芯片方面,第二代骁龙 XR2 平台是专为 MR 和VR 设备设计的高性能空间计算平台,相比前代,GPU性能 2.5倍,AI 每瓦特性能提升8倍。
美元。其中,高通是 SoC 芯片、电源管理芯片、WiFi 芯片供应商,价值量约为 98.8 美元,占比 23.1%;JDI 是屏幕供应商,价值量约为 80 美元,占比 18.7%; 舜宇智能是摄像头模组供应商,价值量约为 70 美元,占比 16.3%;歌尔是 OEM 供应商,价值量约为 30 美元,占比 7%;海力士是 RAM 供应商,价值量约为 18 美 元,占比 4.2%。
腾讯与 Meta 达成合作,将在中国市场推出平价 VR 头显。据《华尔街日报》透露元宇宙领导者 Meta 将开发平价版头显,定价低于 Quest 3系列,预计2024 年底上市。根据财联社相关报道,Meta的VR 新品可能会被命名为 Meta Quest 3 Lite基本款售价预计为 199 美元 (折合人民币约 1500 元)。尽管定价较低,但 Meta将采用比 Quest 2中更先进的 GPU,性价比大幅度提高。腾讯将作为该头显在中国的唯一销售商,为中国用户提供更多的 VR 体验。
腾讯完整元宇宙版图有望深度赋能 Meta 头显,推动虚拟世界走向主流。此次合作中,Meta 将获得更大的设备销售份额(硬件端),腾讯将获得更多的内容和服务收入,例如软件订阅和游戏销售,这款头显将提供腾讯发布的游戏和其他应用程序,合作方式参考腾讯与任天堂的代理形式。我们看到腾讯的元宇宙版图究整具备完整的电子商务体系,去中心化、分布式和远程协作科技以及更真实、独特、高忠诚度的社交媒体,加上丰富的游戏版图,生态端建设较为完善,有望携 Meta推动虚拟世界走向主流。
高性价比+腾讯生态/渠道赋能有望推动 Meta 头显销量走上新台阶。我们此前已经分析过 VR 设备出货量在2020年9 月具备较高性价比优势的 Oculus Quest 2发布后迎来了一波,但此后由于内容生态端的不完善导致增长乏力,此次Meta 推出更具有性价比的平价 VR 头显,加上腾讯在生态与渠道端的深度赋能,有望推动 Meta 头显销量走上新台阶。
AnyMAL 实现图像/视频/音频/IMU 运动传感器数据等多模态数据转换,创造新的SOTA。Meta 推出经过训练的多模态编码器集合 AnyMAL(Any-Modality AugmentedLanguage Model),可实现各种模态 (包括图像、视频、音频和 IMU 运动传感器数据) 的数据转换至LLM 的文本嵌入空间,数据集包含包含 2 亿张图像、220 万段音频、50万 IMU 时间序列、2800 万段视频等多种模态数据,利用图像、视频、音频跨三种模式的多模态指令集对模型进行微调。AnvMAL 创造了新的 SOTA: 在VQAv2 上提高了 7.0%的相对准确率,在零误差 COCO 图像宇幕上提高了 8.4%的CIDEr,在AudioCaps 上提高了 14.5% 的 CIDEr。从 AnyMAL 的输出示例来看,除了简单的 QA 外,还能很好的解决灵感与建议、创新写作、图像字幕、隔行扫描形式、音频信号推理、运动传感器推理等多种不受拘束的任务。
图像标题生成表现、多模态推理任务人工评估胜率优于基线。我们看到 AnyMAL13B 和 AnyMAL-70B 性能差距较小,底层 LLM 能力对图像标题生成任务影响较小, 两个变体在 COCO 和标有「详细描述」任务(MM-IT-Cap)的 MM-IT 数据集上表现均明显优于基线。在多模态推理任务的人工评估中,AnyMAL 性能强劲,与人工标 注的实际样本的差距较小,完整指令集微调的模型表现出最高的优先胜率。
Meta 还推出测试版的聊天机器人 Meta AI,可以支持在 Quest 3 上面使用。Meta AI 利用了 Llama 2 的技术和最新的大型语言模型研究,能生成文本回复及图。
上一篇: 国庆期间管道局各在建项目提速攻坚创佳绩!