Welcome to my website!
你好 👋,我是 Jasper(Jintao Chen),北京大学二年级硕士研究生。
我的研究兴趣包括:
- 🎬 image / video generation
- 🌍 world models
- 🤖 vision-language-action (VLA) models
关于我 ✨
目前我主要探索视频生成、世界模型以及具身智能交叉方向的问题。 同时本人对视觉压缩、表征学习、强化学习等也有比较大的兴趣。
如果你对相关方向感兴趣,欢迎通过邮件交流与合作 🤝📧!
研究方向 🔭
- 生成式建模(Generative Modeling) 🎨:可控的图像/视频合成、长视频生成、视频推理加速、视觉表征学习,
- 世界模型(World Models) 🌐:构建 3D 一致和具备物理知识感知的世界模型、WM 驱动的动作决策 WAM/VA
开源项目 🧰
VideoGen / EasyVidGen 🎥:自研、基于 Diffusers 的图像/视频生成仓库(个人感觉比 diffusion-pipe、diffsynth-studio 更快捷高效)。正在迭代成更完善的版本,欢迎使用、提 issue 或 PR,顺便求个 Star ⭐~
👉 EasyVidGen- AstraWorld 🚀
- ConceptWeaver 🧵
- Arxiv-Daily-AI 📰:调用 DeepSeek API 做每日 arXiv 速读,欢迎加入收藏夹~
👉 arxiv-daily-AI
最近文章 📝
最近更新的一些文章与笔记:
AstraNav-World: World Model for Foresight Control and Consistency
个人小结 也是工作量极大的一篇工作,我其实比较惊喜的是在训练的时候仅用Lora就可以很快的学习来自VLA的planning特征,并且能够实现视觉预测和动作预测的高效统一。并且在结构上SkyReels-v4也有使用我们类似的MMFCA的方法,个人感觉在结构上,我们的模型还是比较超前的,并且里面也有非常多的小细节,后面可以细细描述一下。
发布日期:2025-12-25
[CVPR2026]AstraNav-Memory: Contexts Compression for Long Memory
摘要 终身具身导航要求智能体能跨任务累积、保存并利用空间语义经验,从而在新环境中高效探索、在熟悉环境中快速抵达目标。现有以物体为中心的记忆框架虽具备可解释性,但依赖检测与重建流水线,鲁棒性和可扩展性受限。为此,本文提出AstraNav-Memory以图像为中心的记忆框架,通过高效的视觉上下文压缩模块与基于Qwen2.5-VL的导航策略端到端耦合,实现长…
发布日期:2025-12-25
[AAAI2026]Omni-Effects: Unified and Spatially-Controllable Visual Effects Generation
个人小结 做了很久,工作量有点大。。讲一下这个工作的心路历程吧,一开始是想简单的做一个统一的能同时生成多个特效的视频,但是后面发现有些特效其实比较难以兼容,并且有些特效是个体级别的(比如物体消失、爆炸),有些则是画面级别的(比如天降大雪、花花世界这种)。而且当时发现市面上还没有人做这种可控制的协同多特效合成的工作,所以就由着这条路继续走了,一开始当然是…
发布日期:2025-08-11
[CVPR]UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying
个人小结 FlowEdit当时被我们发现之后,并在Wan等模型上做了复现,发现效果出奇的好。当时的一条思路是沿着FlowEdit做一些运动迁移的任务,有了一些效果但是FlowEdit有着明显的无法做形状差异过大的编辑:比如把大象变成一只小狗,或者删除某个物体。但是如果有个生成语义token而不是像素级Token的DiT,这些问题似乎就可以迎刃而解了,比…
发布日期:2025-08-05
[ICLR2026] NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation Models
个人小结 现在的视频生成似乎又个问题是,我给一段prompt:比如 “一个人先跑步、再跳、再走、再跑起来”, 对于这种具有多个TNA的时间,应该怎么合理的安排视频时间和事件的对应关系呢?值得思考的问题~(已经有了一些类似的工作比如SwitchCraft,但是更promissing的感觉是加在自回归式的pipeline里面)。
发布日期:2025-07-15
[CVPR2025]Decouple Distortion from Perception: Region Adaptive Diffusion for Extreme-low Bitrate Perception Image Compression
个人小结 当时没注意到,后面一系列的visual tokenizer的自回归工作都用到了类似的双编码器结构,可惜当时只探究了压缩重建,没有探索生成的方面。
发布日期:2025-06-17
