目前我是🐜蚂蚁集团的一名研究型实习生(RI),同时也清华大学的博0学生😁, 此前硕士为 PCALab 实验室的一员. 同时我曾在南京大学 (NJU) 进行访问学习,曾在香港科技大学 (HKUST) 担任过短期研究助理(一个月), 曾在清华大学 (THU) 进行过长期实习. 此外, 我曾受到国家公派资助(CSC, IGSF), 作为 University of Dayton 的本科交换生, 进行为期一个学期的访学, 并取得了 4.0/4.0 的成绩, 入选当年 Deans’ List. 在研究生阶段我已经有 4 篇一作/共一的学术论文被国际会议接收,同时也有若干篇在投的工作.
✨我将在 2025 年 4 月份毕业, 目前已确定 25 Fall PhD 去向( to 清华大学, 感恩每一位帮助过我的人❤️), 继续努力科研中.
我是一个横向发展,纵向研究的人。我在多个略有相关的领域展开了广泛的研究,并发表了一些还不错的论文。 我的研究方向包括但不限于:
- 数字人动作生成 (Motion Generation): ICASSP24,AAAI25 👑Oral
- 三维渲染 (3D Rendering): ICASSP24 👑Oral
- 脑机接口交叉研究 (AI4Neuro): ICML25
- Agentic RAG & RL (LLM): On progress.
如果您觉得我的研究方向很难理解,下面这个 VCR 可以很好的概述我的研究历程,即先重建我的人体,后根据一段音乐,生成我的舞蹈动作,最终,我和一个机器人一起跳舞,实现群舞的效果:
如果您对我的研究方向感兴趣(或者对我感兴趣)并有意向合作, 也随时欢迎联系我😆! 我非常喜欢合作, 会成为你非常好的合作伙伴!
👨👩👧👦 Internship
- 2025.03 - 至今 🔛, 🐜蚂蚁集团, 杭州, 研究型实习生 (Research Intern)
- 2024.09 - 2025.03, 上海 AI Lab 浦江实验室, 上海, 实习生 (Intern) 💡产出: ICML*1
- 2024.06 - 2024.09, 光明实验室, 深圳, 论文合作者, 💡产出: TPAMI 在投
- 2024.05 - 2024.09, 南京大学苏州校区, 江苏苏州, 科研助理 (RA), 💡产出: AAAI2025 oral*1
- 2023.4 - 2024.03, 清华大学深圳国际研究生院(THU), 深圳, 科研助理 (RA), 💡产出:ICASSP2024 oral*1, ICASSP2024 poster*1
🔥 News
- 2025.08: 🎉 RealFactBench 被 ACMMM Datasets Track 接收, 公开一篇新的 arxiv 论文!
- 2025.07: 🎉 数字人综述被 TPAMI 接收, MERD-14 被 ACM MM 接收为 👑Oral!
- 2025.06: 🎉 FloorPlan-Lamma ACL 2025 接收为 👑Oral, ⭐SAC Highlight, 公开三篇新的 arxiv 论文!
- 2025.05: 🎉 MindAligner 被 ICML 2025 接收!
- 2024.12: 🎉 TCDiff 被 AAAI2025 接收为 👑Oral!
📝 Publications
一作/共一论文(6)

Yuqin Dai*, Shuo Yang*, Guoqing Wang*, Yong Deng, Zhanwei Zhang, Jun Yin, Pengyu Zeng, Zhenzhe Ying, Changhua Meng, Can Yi, Yuchen Zhou, Weiqiang Wang, Shuai Lu
- 我们提出了 WebFilter 框架,将检索过程建模为马尔可夫决策过程,并通过强化学习训练大语言模型使用高级网页搜索操作符,从而在真实网络环境中有效过滤虚假信息。
- 设计了信息过滤奖励策略,结合“来源限制奖励”和“检索精度奖励”,同时优化查询行为与检索结果质量,显著提高了检索精准度与可信度。
- 实验表明,WebFilter 在多项问答基准上取得了最优性能,高级搜索操作符的使用率由 10% 提升至 75%,并在域内与跨域任务中均展现出强泛化能力。

Yuqin Dai*, Wanlu Zhu*, Ronghui Li, Xiu Li, Zhenyu Zhang, Jun Li,Jian Yang
- 我们提出TCDiff++, 一种端到端版本的群舞生成模型。
- 我们引入位置嵌入和一致性损失,防止碰撞并保持合理间距。
- 模型加入换位信息和脚步自适应器,减少脚滑并提升一致性。
- 优化长时生成效果,提出长序列采样与解码器,优化长舞蹈生成的连贯性。

Yuqin Dai*, Zhouheng Yao*, Chunfeng Song, Qihao Zheng, Weijian Mai, Kunyu Peng, Shuai Lu, Wanli Ouyang, Jian Yang, Jiamin Wu.
- 我们提出了MindAligner,这是第一个显式的大脑对齐框架,能够在数据有限的情况下实现跨个体的视觉解码和大脑功能分析。
- 我们提出了一种大脑转移矩阵,用于建立不同个体之间的细粒度功能对应关系。该矩阵通过大脑功能对齐模块进行优化,采用多层次对齐损失实现软性跨个体映射。
- 实验表明,MindAligner在视觉解码任务中,只有6%的模型参数被学习时,便超越了现有的最先进方法。
- 我们进行了跨个体的大脑功能可视化研究,发现早期视觉皮层在不同个体间活动相似,而与记忆和空间导航相关的高级视觉皮层则表现出显著的个体间差异。

[AAAI25 Oral]Harmonious Group Choreography with Trajectory-Controllable Diffusion
Yuqin Dai, Wanlu Zhu, Ronghui Li, Zeping Ren, Xiangzheng Zhou, Xiu Li, Jun Li, Jian Yang.
- 发现并提出领域内存在的问题: 舞者混淆(Dancer Ambiguity)现象. 为后续研究提供指引与思路.
- TCDiff 是当前 SOTA 的多人舞蹈生成模型, 能够较好的解决舞者混淆(Dancer Ambiguity)现象.
- 提出了 Footwork Adaptor 模块, 能有效缓解多人舞蹈生成中的脚步滑动问题(Foot Slide).
- 提出了 Fusion Projection 插件, 该插件占用较小的计算资源, 能够有效解决舞者混淆(Dancer Ambiguity)现象

[ICASSP24 Oral]Text2Avatar: Text to 3D Human Avatar Generation with Codebook-Driven Body Controllable Attribute
Chaoqun Gong*, Yuqin Dai*, Ronghui Li, Achun Bao, Jun Li, Jian Yang, Yachao Zhang, Xiu L.
- Text2Avatar 是第一个基于复杂耦合的输入文本提示生成逼真风格的 3D Avatar 的模型,实现了多属性可控和逼真的 3D 人头像生成。
- Text2Avatar 模型基于 3D-Aware GAN(NeRF-Based), 使用 GAN-Inversion based 的方式实现文本对齐, 巧妙化解了当前文本标注的写实风格三维 Avatar 数据集缺失的问题.
- 提出 Multi-Modal Encoder, 能够作为插件服务于其他模型, 具有很强的可扩展性.

[ICASSP24]EXPLORING MULTI-MODAL CONTROL IN MUSIC-DRIVEN DANCE GENERATION
Ronghui Li*, Yuqin Dai*, Yachao Zhang, Jun Li, Jian Yang, Jie Guo, Xiu Li.
- 提出了第一个统一的框架,能够生成高质量的舞蹈动作,并支持多模态控制,包括同时进行流派控制、语义控制和空间控制。
- 模型能够进行音乐跨模态舞蹈生成(Music2Dance), 基于 VQ-GPT 架构, 能够一次生成长达 16s 的舞蹈动作, 并能通过自回归的方式对生成内容进行拓展.
参与工作(4)

Shuo Yang, Zijian Yu, Zhenzhe Ying, Yuqin Dai, Guoqing Wang, Jun Lan, Jinfeng Xu, Jinze Li, Edith C.H. Ngai
- 提出了一个多模态融合框架,将视觉特征与语言模型有效结合,实现跨模态推理与生成能力的显著提升。
- 引入动态注意力机制,根据上下文自适应地调整视觉与文本信息的权重,从而提升了模型在多模态任务中的鲁棒性与泛化性。
- 在多项多模态基准测试(如图文匹配、视觉问答等)中,该方法均取得了优于现有方法的性能表现,验证了其有效性与先进性。

[ACMMM25 Datasets]RealFactBench: A Benchmark for Evaluating Large Language Models in Real-World Fact-Checking
Shuo Yang, Yuqin Dai, Guoqing Wang, Xinran Zheng, Jinfeng Xu, Jinze Li, Zhenzhe Ying, Weiqiang Wang, Edith CH Ngai.
- 我们提出 RealFactBench 基准测试集:构建了一个涵盖知识验证、谣言检测和事件核查等多种真实世界任务的综合性基准,用于评估大语言模型(LLMs)和多模态大模型(MLLMs)的事实核查能力。
- 引入新的评估指标 Unknown Rate (UnR):该指标用于更细致地衡量模型在不确定性处理方面的表现,帮助评估模型在保守性与自信程度之间的平衡。
- 开展大规模实证研究:在7个典型LLMs和4个MLLMs上进行了系统评估,揭示了当前模型在事实核查任务中的局限性,并为后续研究提供了有价值的洞察。

[TPAMI25]Human Motion Video Generation: A Survey
Haiwei Xue,Xiangyang Luo,Zhanghao Hu,Xin Zhang,Xunzhi Xiang,Yuqin Dai,Jianzhuang Liu,Zhensong Zhang,Minglei Li,Jian Yang,Fei Ma,Zhiyong Wu,Changpeng Yang,Zonghong Dai,Fei Richard Yu.
- 数字人视频生成领域综述.
- 总结了超过300篇最新数字人视频生成了领域相关文献的内容.
- 总结了现有数字人视频生成领域范式.

[ACL25 Oral]FloorPlan-LLaMa: Aligning Architects’ Feedback and Domain Knowledge in Architectural Floor Plan Generation
Jun Yin, Pengyu Zeng, Haoyuan Sun, Yuqin Dai, Han Zheng, Miao Zhang, Yachao Zhang, Shuai Lu
- 提出了ArchiMetricsNet数据集与FloorPlan-MPS评价模型:首次构建了一个包含功能性、流线性和整体性评估得分的楼面图数据集,并配有详细的文本分析,用以更贴近建筑专业知识地评估生成结果。
- 开发了FloorPlan-LLaMa生成模型并引入RLHF机制:设计了基于自回归框架的楼面图生成模型FloorPlan-LLaMa,并通过引入FloorPlan-MPS作为奖励模型,借助人类反馈强化学习(RLHF)机制使模型更符合建筑师的专业偏好。
- 实验证明方法优于现有基线并获专业认可:在文本条件和类别条件的生成任务中均优于现有基线模型,且经专业建筑师验证,其生成结果更为合理,契合人类设计偏好。
🎖 Honors and Awards
- 2022.10 华为智能基座奖学金
- 2020.10 国家留学基金委公派留学奖学金
🎓 Educations
- 2025.09 - 未来, 博士生, 清华大学
- 2022.06 - 至今, 硕士生, 南京理工大学
- 2020.01 - 2020.05, Visiting Student(Founded by IGSF, 国家留学基金委公派留学), University of Dayton
- 2018.09 - 2022.06, 本科, 南京理工大学
🏛️Professional Services
Student Reviewers:
AAAI Conference on Artificial Intelligence (AAAI)
🏋️ Skills
英语能力
-
IELTS 7.0
in 2019, 2020.
-
CET6 575
in 2020.
-
CET4 623
in 2019.
社交技能
🏓一点业余乒乓球>🎤卡拉永远ok>👥TRPG»🏸喜欢(站桩输出的)双打羽毛球