2024“数据要素×”大赛浙江获奖作品之三 | 万眼合一,助力虚拟现实新交互
来源:浙里办   发布日期:2024-11-29 14:49    
 

日前,2024年“数据要素x”大赛全国总决赛在北京落下帷幕。大赛设置工业制造、现代农业、科技创新、医疗健康、气象服务、城市治理、绿色低碳等12大赛道。在此期间,浙江涌现出了一批典型案例,生动地展示数据开发利用的最佳实践,探索数据要素赋能高质量发展的新场景新模式。本栏目聚焦浙江优秀作品,一起来看数据要素在千行百业中发挥乘数效应的案例。

参赛信息

获奖作品

万眼合一,助力虚拟现实新交互

参赛单位

甬江实验室

温州医科大学附属眼视光医院

万有引力(宁波)电子科技有限公司

获得奖项

全国总决赛科技创新赛道技术创新奖

浙江分赛科技创新赛道二等奖

建设背景

眼动追踪技术作为数字空间面向用户感官界面的关键核心技术,已在医疗健康、教育培训、市场研究、人机交互等多个领域展现出广泛的应用潜力,但目前仍面临眼动追踪算法AI训练数据集获取难度大、成本高的关键共性问题。真人数据集难以涵盖所有角度和多变环境,且无法获得标注视线数据真值,传统数据采集方式难以快速响应新需求,限制了其在实际应用中的有效性和适用性,且耗时费力。因此,行业内迫切需要更高精度、更全面的数据集来支持眼动追踪技术的发展,以更好地适应不断变化的技术环境和市场需求。

解决方案

利用数字孪生技术将国内眼科医疗机构积累的眼球图像数据转换生成眼动图像数据,在渲染引擎中渲染出高逼真度且带有标注信息的合成图像数据集。

主要通过构建高精度的眼球OCT数字孪生模型和参数化的人物头部,在渲染引擎中搭建了基于VR/AR镜框布局的近眼场景,包括双球模型的眼球、逼真的人脸模型、带有畸变和噪声处理的相机以及具有辐射各向异性的光源。

640.webp (2).jpg

数据及技术利用

项目通过利用数字孪生技术生成高质量的合成眼动图像数据集,显著降低了数据采集和标注的成本。

1、数据来源

不仅依赖自生成的高精度合成数据,还充分整合了公共人头模型数据和第三方眼球OCT数据来源,使得数据的获取更加全面和多样化。这种多渠道的数据获取方式不仅丰富了数据的类型,也提升了数据在各种应用场景中的适应性。项目数据涵盖了不同光照、动态背景、多用户交互等复杂场景,通过数字孪生技术和精细化模拟,能够生成高质量、多样化的数据集,涵盖了眼动追踪技术所需的各个维度。这种多维度数据不仅提高了算法的训练效果,也确保了技术在实际应用中的高效性和可靠性。

2、眼部与脸部数据应用

从零开始构建高精度的眼球OCT数字孪生模型,通过模拟角膜和巩膜的曲率和房水折射率,精确表现眼睛的光学特性。与温州医科大学附属眼视光医院合作,采集大量角膜和巩膜的OCT图像数据,建立高精度的角膜和巩膜模型数据库,并借鉴了三维可变形模型的理念,建立了通用的三维模型范式:计算平均形状和纹理,进行中心化处理后求解协方差矩阵并进行特征值分解,选取主要特征向量进行降维,最后通过特征向量的加权组合,近似任何角膜和巩膜的三维形态,从而确保模型能够精确还原真实人眼的尺寸。

集成先进的数据标注技术,基于眼动追踪的PCCR空间模型,实现了反射点和折射点在三维空间和二维图像上的真值标注,减少了手动标注的工作量和误差,展示了数字模型在带标注的数据生成方面的巨大潜力。

项目选择了三维可变形人脸模型,该模型能够精确建模人脸的三维形状、表情和纹理。此外,通过进行大量的数据增强,可以生成不同脸型、表情和光照条件下的图像,极大地扩充了训练数据集,使神经网络能够更好地学习和泛化。

3、AI建模

采用AI数据驱动与机理建模相结合的方式,AI驱动层,通过生成对抗网络学习高价值的眼动数据,生成人眼运动轨迹;机理建模层对眼球的机理结构、光学特征进行建模,同时根据人脸的眉、眼、口、鼻特征建立人头型;集成了该模型的设备可以模拟大部分人眼的运动形式,例如聚焦、扫视、眺视等,轨迹贴合度达到90%以上,可以为眼动测试提供真值系统,完善眼动精度标准的建立,并参与近眼光学测试。

创新成效

目前团队已发表相关核心发明专利13项、国际专利5项,团队博士3名,硕士5名,硕博比例达到80%,该方案具备足够的先进性。本项目的合成数据集在提升眼动追踪算法精度、提高用户体验、减少眩晕不适等方面都表现出显著的成效。通过与各领域合作伙伴的深入合作,也展现了其在虚拟现实、医学、交通等领域的广泛应用前景。

1、降本增效。通过采用数字孪生技术,预计单个项目每年至少节省成本128万元,人力投入降低75%,数据标注效率增加250倍,数据标注精度增加200%。

2、提升用户体验。精准的眼动追踪技术在VR和AR领域大幅提升用户体验,系统精度提高30%,用户满意度提升20%。通过生成高质量合成数据集,可以模拟各种复杂使用场景,提升算法在不同光照、动态背景和多用户交互中的表现。这种技术不仅优化了图像质量,还使得用户能更自然地与虚拟世界交互,降低了设备功耗。

3、医疗领域(眼疾病检测)。在医疗领域,通过分析合成数据集中的眼动模式,可以辅助诊断眼科疾病,如青光眼和黄斑变性。数据集帮助训练和优化诊断算法,使其在不同光照和复杂背景下保持高精度,还能与其他生理指标结合,提高诊断的准确性,显著减少实际数据采集和标注的成本。

4、交通领域(疲劳驾驶检测)。眼动追踪技术在驾驶员疲劳检测中有重要应用,它可以实时监测驾驶员的眼动行为,检测疲劳状态并发出预警,使疲劳检测准确性提高30%。通过合成数据集训练的高精度算法,可以在各种驾驶场景下有效检测疲劳,减少交通事故的发生。