2025年04月07日
二月底,李雨龙搭乘着飞往阿联酋的航班,进入穆罕默德·本·扎耶德人工智能大学开启了博士阶段的交换学习。在这里,他负责人类表型项目(Pheno AI)的一项分支研究。
据了解,人类表型项目作为继人类基因组计划后的又一里程碑,通过对全球10万余名参与者进行多维度健康解析,构建疾病与健康的高精度动态图谱,从而推动制药、医疗保健和生命科学行业的科学发展和创新。
就在一个多月前,李雨龙作为项目负责人的无界手语项目刚在第二届全国人工智能应用场景创新挑战赛总决赛中获得特等奖。
无界在第二届人工智能应用场景创新挑战赛总决赛汇报展示
无界致力于帮助听障人士被公众听见。李雨龙将无界定义为一个免费的项目,一个对每一位残障人士开放的公益产品。
要将学术界的小方向运用到人群中、生活中
对于李雨龙来说,从生活中发现痛点,产出学术成果并且用于生活,是一件有意义的事情。
大一时,李雨龙在残联做义工。这段经历让他逐渐关注到听障人士群体。
“在和叔叔阿姨熟悉的过程中,我认识到他们的受教育成本非常高。虽然他们会手语,但是当我打字给他们看时,他们不认得。”李雨龙回忆起当初做义工的体验时提到。
实际上,现实生活中,有些人和听障人士沟通时会产生疑惑:为什么不打字给他们看呢?对于听障人士来说,学习文字需要投入更多的金钱以及心血,并不是所有的家庭都能支撑起这个条件。李雨龙陷入了思考。
李雨龙接受采访画面
“要将学术界的小方向运用到人群中,生活中。”李雨龙聊到项目启动初衷时这样表示。
李雨龙认为,手语是有必要的。手语生成和手语翻译是有必要的。做一个双向科技系统是有必要的。2023年暑期,李雨龙开始投入到手语生成、手语翻译的研究当中。
听障人群与非听障人群的交流:文本与虚拟人手语展示间的转换
在无界项目发展早期,李雨龙与团队成员面对的就是一个开放性挑战:如何用人工智能(AI)实现无障碍交流?
面对听障人士无法听到,以及大多数非听障人士并未接触过手语的现实问题,无界项目最终决定利用人工智能转化文本,以及生成虚拟人来展示手语。
李雨龙表示团队初期采用MediaPipe等高效框架提取了手部、身体的关键骨骼信息,让人工智能算法承担翻译官的角色,对手语进行解读,输出文本。
在推进手语生成算法开发的过程中,团队引入多种数据模型,构建了大规模的中文自然语言到手语映射数据集,以帮助生成更加准确的虚拟人手语视频。
手语双向可及整体架构
边研究边学习
人工智能与先进计算学院苏炯龙教授是无界项目的指导老师。与大多数指导老师不一样的是,苏教授不会过多干预李雨龙的科研方向,而是提供力所能及的帮助。
苏教授表示,学生们应当在不断的实验中筛选出合适的人工智能技术,边研究边学习。
在学生面对瓶颈时,比起直接点出问题所在,苏教授鼓励学生自由探索,弄清楚是算法本身的问题还是硬件资源受限的问题。
有趣的发现、新增的难题:手语的表达体系也像方言一样多样化
“推进项目时,我们经历了很多挑战。算法优化、数据标注等等都是曾经让我们感到头大的问题。”李雨龙表示。
例如,团队发现在实际运用中,最初采用的MediaPipe框架存在的识别错误率较高,“我们开始尝试引入不同的技术来优化算法,解决问题,”李雨龙说。
和中国方言体系一样,手语表达体系也是多样化的。单一的MediaPipe框架难以支持多样化的手语表达。因此,李雨龙决定引入数据增广。通过扩大3D骨骼点的数据集,使手语识别模型具有更强的泛化能力。
手语识别测评图
无界目前的数据集总计包含12,000个手语数据样本,均由经过专业训练的手语翻译员完成。
“仅仅增强手语识别能力是不够的。”于是,团队试着引入了文本纠错网络技术来承担手语翻译过程中语法及语义检察官的角色,最终实现一个最快最准的输出结果。
这种探索式研究,几乎贯穿了无界项目的大部分发展阶段。
中国最大的手语翻译数据集
而在DeepSeek、ChatGPT等大数据模型盛行的当下,如何借助人工智能的力量最大化地将手语生成和翻译惠及到更多人?
无界项目的核心技术在于解决了基于市场的主要痛点,即目前学术界的手语识别、生成和翻译集中在追求精度,忽视了目标用户的设备硬件能力。
针对这个问题,无界团队提出将数据蒸馏技术引入到手语研究当中。
数据蒸馏技术能够将复杂的数据提炼为更为精炼、有用的数据。目前大家所熟悉的DeepSeek模型,正是使用了数据蒸馏技术,实现数据的精炼化。
“就跟DeepSeek一样,我们使用数据蒸馏技术压缩参数,缩小计算量和运行时间,以减少模型对设备的依赖性。”李雨龙提到。
值得一提的是,在优化数据导出能力以及减小设备硬件能力影响的同时,无界团队提升了精度,实现了目前在中国高精度手语生成系统以及手语翻译与识别系统领域的技术领先。
通过努力,无界项目组已拥有中国最大的手语翻译数据集以及最全面的基础手语视频词表以及三维骨骼姿态。
手语视频生成架构图
公益项目的商业化破局
而在提到自己的目标时,李雨龙表示在学术领域取得一个更好的成果的同时,会更加专注于技术研发,将科研成果进行推广。
“如果我们产出学术内容,推广出去但运用不了,那意义又在哪里呢?”李雨龙说。因此,项目团队开始思考将学术成果以及手语实时生成技术推行到有需要的人群中进行实践。
无界的启动初衷是完全处于社会责任,免费公开的学术公益。这意味着项目在残障人士端不会产生任何盈利。
一位资深投资人曾向李雨龙提出一个尖锐的问题:即使作为公益项目,无界实际所能产生的影响依然是有待商榷的,残障人士是否能接受这款产品?无界又是否能够覆盖所有的社会方言?从投资人的角度来看,无界目前完全达不到商业标准。这位投资人的评论警醒了李雨龙以及项目成员。
“我们需要被推到台面上,让更多人知道我们的成果。”李雨龙说。
盈利在他处
对于无界来说,发展优先点是把手语翻译、手语生成落地。而真正的盈利点在于智能和其他的医疗大模型方向。
比如,无界的最新成果“CauseMotion”大模型,在人机交互领域的情感因果——通过语调、语速、面部表情等呈现出的说话人的情感变化与他表现出来的行为之间的关系——全面超越了GPT-4o、GPT-o1,聚焦赋能中国自身智能领域的应用。这是目前无界团队计划的项目盈利点。
而全员工科出身的团队成员在面对商业化落地时感到力不从心。因此,2024年10月,他们决定入驻西浦创业家学院(太仓)的浦创汇,签订预孵化协议。
入驻浦创汇后,浦创汇帮助无界进行了市场拓展的相应规划,共同分析目标受众、评估产品盈利点。
无界在浦创汇的行业导师Mikhail表示浦创汇会努力协助无界团队进行融资规划,促进投资人对接,以促进商业落地与成果转化。
目前,无界项目组开启了脑电到文本转译的研究新征程,致力于挖掘脑电信号中的丰富信息,为听障群体交互提供更多可能。
(记者:季嘉焱 编辑:寇博 图片提供:李雨龙、王左夫)
2025年04月07日