当科学家开始玩“数据炼金术”:他把几百份Word炼成“高维宇宙”

2025年04月11日

赵鹏博士是西浦理学院健康与环境科学系的助理教授、一位研究大气环境的科学家。除此之外,他还是一位专业的编程爱好者,出版过三册数据科学的书籍,其中包括与两位该领域专家合著的《现代统计图形》,豆瓣评分8分。

最近,他受邀在知识与信息中心组织的“AI学习日”活动中分享理学院数据中心的成功案例——这是一个基于零代码技术搭建的数字化应用平台。

起首他便说:“我是一个编程爱好者,我喜欢代码。当院长第一次跟我提到零代码平台时,我想,没有代码?那不相当于把一个小孩送到一个没有玩具的游乐场吗?”

观众们在台下笑。

接着,他来一个反转:学了零代码,恍然大悟——原来,蓦然回首,那人便在灯火阑珊处。

四散的信息,数据的荒原

2023年底,赵鹏在负责学院网站信息更新、科研评估数据、编写年度科研报告等工作时,遇到了一些棘手的问题。

当理学院院长John Moraros教授提出学院的决策必须基于数据和实证依据的原则和方向时,他感受到某种共鸣——数据是关键词。

在收集数据的时候,他发现学院数据四散在不同的地方,有的在BOX网盘、有的发在微信公众号上,有的在同事往来的邮件或本地硬盘,有的甚至仅存在同事的脑子里……

辛苦拿到的数据存储形式多种多样,有的是Excel表格、有的是Word文档、有的是纸质文件……

在处理数据时,很多时候依靠手动处理,效率很低。他举例说,理学院每两个月会对近期科研人员发表论文的情况做定期总结,其中期刊的影响因子和分区都得学院秘书手动检索,再一一录入。“于是,我就想,有没有一个期刊信息的自动化匹配系统。我一问没有,那我就提这个需求看看。”

在院长的大力支持下,他开始将重心放在寻找合适的技术手段来优化流程。去年5月,在由管理信息技术与系统办公室(MITS)组织的零代码平台研讨会和培训上,赵鹏与该项目的负责人胡显刚相见恨晚。11月,在学院和MITS的支持下,由赵鹏博士牵头,启动了理学院数据中心的开发工作,他们的目标是为学院搭建一个高效且集成的数据管理平台。

让业务与技术的沟通实现同频

在初期的对接会上,MITS同事口中的高频词如“字段安全级别”、“接口权限”,听得赵鹏云里雾里;而赵鹏老师提到教学场景中的“module leader”(课程负责人)、co-teaching(联合教学)、supervisor(导师)、academic advisor (AA) 时,技术部门的同事也经常分不清他们的角色和职责,就更别提理解他们需求的底层逻辑。

赵鹏和显刚互为“翻译”,当双方能够更好地理解对方的业务语言,通过定期对齐需求和资源,他们逐步形成了“需求提出-技术实现-反馈优化”的合作模式。

经过数月努力,通过零代码平台和连通大学的数据管理平台,理学院数据中心整合了多个数据源,实现了数据的自动化收集、处理、分析和报告。

成果初显,效率大大提升

走进理科楼,一块电子屏上显示着近期学院的科研产出,简洁美观的可视化图表直观向师生展示了各系近期发表论文和论文引用的数量。在学院汇总的年度科研报告中,同主题还提供了详细论文的列表、优质期刊比例等更为详细直观的信息和图表。

(图片说明:学院数据中心实现了科研数据的自动化收集、处理、分析和报告,大大提升了工作效率。)

赵鹏老师介绍说,他们在零代码平台上开发了一个可视化仪表盘,来实现这些功能。“它提供了一个在线平台,及时公布科研产出信息,增加了透明度;汇总的科研信息也可为学院的短期和长期决策提供数据支持。”

理学院博士生周君玥刚刚在学院数据中心提前上传了组会上的讨论内容。以前,他们需要先在电子邮件中回答是否出席以及在BOX上记录发言内容、再汇总会议记录。但现在,他们课题组在数据中心上建立了组会登记表单,大家直接登记是否出席并提前上传发言,开会时导师在表单上直接批注意见(该功能在内测阶段),效率大大提升。

他对数据中心的高效易用赞不绝口,“它的界面直观简介,即使是新手也能快速上手操作,无需技术背景,就可以根据自己的需求搭建个性化的工作流和数据管理工具,省时又省力!”

截止目前,数据中心已经完成了五类32个子应用的开发和测试。在学校的数字化战略方向引导下,围绕学院和学校的需求,他们正在推动11个新的表单应用开发。

数据魔法:探索价值创造术

虽然赵鹏老师最初的动力是用自动化把人从琐碎重复的工作中解放出来,提高效率,但后来越发让他欲罢不能的是把碎片化信息转化为结构化数据,由此就可以进一步探究和挖掘数据间的关联,从而创造出新的价值。

他先在改造会议记录上发现了莫大的乐趣。他和他的本科生和研究生每周都要开组会,并生成一个会议记录。“每一次组会就是一个word文档,会议记录的固定形式就相当于固定的字段,那么我们就可以把这样一个word文档转换成一个Excel的一行,一行就是一次会议,第一列是参加人的名字,第二列是请假人的名字,第三列是第一个学生的发言,第四列是第二个学生的发言……第二次会议就是第二行,但当你竖着看时,就可以追踪学生的进度。

“它本来是单一维度的,但当你把多个word文档集成到一个Excel表里,就增加了一个时间维度。不要小看这多出来的一个维度,经过这样结构化的数据所能带来的价值是呈几何级数增长的!

“不仅可以追踪学生的进度,它还可以实现跨表关联,通过字段关联不同数据表,比如将学生信息表和会议记录表关联,就可以进行关键词检索、实现多维分析。”

作为《三体》的粉丝,他在享受着高维宇宙之美。

突破说明书的限制,像拼搭乐高一样享受探索与创造的乐趣

他还把实验室仪器的维修记录转化为结构化数据,利用动态可视化功能,生成日历视图,这样就给每一台仪器制作了一个动态“病历本”,辅助故障排查.

他又想到,可以把分散的学生信息转化一下,自动生成甘特图,通过这些甘特图追踪学生入学至毕业的进度,及时调整指导策略。

零代码平台对于赵鹏来说,像一个充满未知的探索乐园。平台提供现成的功能模块,用户无需编程,只要像拼“乐高”一样组合这些模块就可以搭建应用。

他一边演示着他最新搭建的几个应用界面,一边快乐地说:“你可以按照乐高的说明去搭建,也可以突破说明书去自由发挥,相类似的,零代码平台也支持用户探索新功能,搭出来的东西很可能连开发者都没想过。”

每一个需求,都是一个开启想象去创造的起点。

“零代码平台让人快乐,却并不完美。”赵鹏不忘补充说,“就像乐高玩具并不能让孩子百分百随心所欲一样。但好在,它能实现我们在学院管理上绝大部分的需求。即使未来被更好的技术替代,但我们用它积累的数据并不会随之而去。”

将数据用户转变为数据提供者,将成本转化为价值

赵鹏博士说,数据中心已开发的功能,如果其他学院或部门也有类似需求,那他们就可以直接复用工具模板,避免重复开发。理学院的数据标准化经验也可以为其他学院提供一些有价值的探索和参考。

“通过理学院数据中心的搭建,不仅可以实现大学中心数据库对学院数据管理需求的支持,”胡显刚说,“理学院的数据,如学术活动记录、科研成果等,也能转化为学校中心数据库可调用的资源,从而形成双向支持。”

这些产生于真实业务场景的数据是真实的、高质量的数据。赵鹏博士强调了真实高质量数据的重要性:“AI模型和数据相辅相成。离开了高质量的数据,模型就是无源之水,无本之木。我们在学院数据中心积累的数据其实是在为理学院的 AI 大厦夯筑地基。”

他们的长期目标是将数据用户转变没数据提供者,将成本转化为价值。

 

(记者:寇博 摄影:李乐知 图片提供:赵鹏)

2025年04月11日