北京大学前沿计算研究中心

董豪

首页 > 人才队伍 > 教学科研人员 > 董豪

董豪

董豪长聘副教授

+86 (0)10 6275-6561

hao.dong

静园五院106-2

具身智能、智能机器人、计算机视觉

简介

董豪，北京大学计算机学院前沿计算研究中心长聘副教授，科技创新2030国家重大项目负责人（首席科学家），入选国家级高层次青年人才计划，上纬启元首席科学家。研究方向聚焦于具身智能、大模型、强化学习、计算机视觉以及相应的开源系统。核心目标是探索并构建兼具成本效益与通用性的机器人系统。研究工作获得2024年IROS最佳应用论文提名奖、2024年字节跳动优秀导师奖、2025年中国具身智能大会（CEAI）杰出青年研究者论文奖提名，2025年英特尔中国优秀研究奖，以及2025年世界人工智能大会（WAIC）青年优秀论文奖提名等一众国内外奖项。担任国际CVPR、NeurIPS及AAAI的领域主席或高级程序委员会委员；同时担任ICRA及Machine Intelligence Research（MIR）的副主编，并曾获MIR杰出副主编奖。

发表论著

Books

■ Deep Reinforcement Learning: Fundamentals, Research and Applications
Hao Dong, Zihan Ding, Shanghang Zhang Eds.
Springer Nature 2020 ISBN 978-981-15-4094-3
[Homepage（及免费中文在线）] [Springer] [Broadview] [繁体版本] [京东]

■ Machine Learning System: Design and Implementation
Luo Mai, Hao Dong Eds. Springer Nature 2023 ISBN coming soon.
机器学习系统：设计与实现麦络、董豪等著
清华大学出版社 Tsinghua University Press 2023 ISBN 978-7-302-63007-4
[OpenMLsys Organisation] [免费中文在线] [京东]

■ 深度学习：一起玩转TensorLayer（Deep Learning using TensorLayer）
Hao Dong, Yike Guo, Guang Yang et al
电子工业出版社 Publishing House of Electronics Industry 2018 ISBN: 9787121326226
[Amazon] [京东] [Broadview] [Code] [Organisation] [Documentation]

Recent Selected Papers

■ Canonical Representation and Force-Based Pretraining of 3D Tactile for Dexterous Visuo-Tactile Policy Learning
Tianhao Wu, Jinzhou Li, Jiyao Zhang, Mingdong Wu, Hao Dong
arXiv 2024
[Paper] [Webpage]

■ GarmentLab: A Unified Simulation and Benchmark for Garment Manipulation
Haoran Lu, Yitong Li, Ruihai Wu, Sijie Li, Ziyu Zhu, Chuanruo Ning, Yan Shen, Longzan Luo, Yuanpei Chen, Hao Dong
Neural Information Processing System (NeurIPS) 2024
[Paper] [Webpage] [Code] [Docs]

■ MO-DDN: A Coarse-to-Fine Attribute-based Exploration Agent for Multi-Object Demand-driven Navigation
Hongcheng Wang, Peiqi Liu, Wenzhe Cai, Mingdong Wu, Zhengyu Qian, Hao Dong
Neural Information Processing System (NeurIPS) 2024
[Paper] [Webpage] [Code]

■ InstructNav: Zero-shot System for Generic Instruction Navigation in Unexplored Environment
--- The world's first general navigation large model that unifies visual-language navigation, object navigation as well as demand-driven navigation into one single framework.
Yuxing Long, Wenzhe Cai, Hongcheng Wang, Guanqi Zhan, Hao Dong
Conference on Robot Learning (CoRL) 2024
[Paper] [Webpage] [Code] [量子位]

■ AIC-MLLM: Autonomous Interactive Correction MLLM for Robust Robotic Manipulation
--- The first automatic system for low-level end-effector action correction in manipulation tasks.
Chuyan Xiong, Chengyu Shen, Xiaoqi Li, Kaichen Zhou, Jiaming Liu, Ruiping Wang, Hao Dong
Conference on Robot Learning (CoRL) 2024
[Paper] [Webpage]

■ NaturalVLM: Leveraging Fine-grained Natural Language for Affordance-Guided Visual Manipulation
Ran Xu, Yan Shen, Xiaoqi Li, Ruihai Wu, Hao Dong
IEEE Robotics and Automation Letters (RAL) 2024
[Paper] [Webpage]

■ Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking
--- The largest-scale benchmark for universal 6D object pose estimation.
Jiyao Zhang, Weiyao Huang, Bo Peng, Mingdong Wu, Fei Hu, Zijian Chen, Bo Zhao, Hao Dong
European Conference on Computer Vision (ECCV) 2024
[Paper] [Webpage] [Code] [计算机视觉工坊]

■ ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models
Siyuan Huang, Iaroslav Ponomarenko, Zhengkai Jiang, Xiaoqi Li, Xiaobin Hu, Peng Gao, Hongsheng Li, Hao Dong
International Conference on Intelligent Robots and Systems (IROS) 2024 (Oral)
[Paper] [Code]

■ SCANet: Correcting LEGO Assembly Errors with Self-Correct Assembly Network
--- Best Application Paper Finalist
Yuxuan Wan, Kaichen Zhou, Jinhong Chen, Hao Dong
International Conference on Intelligent Robots and Systems (IROS) 2024 (Oral)
[Paper] [Code]

■ Broadcasting Support Relations Recursively from Local Dynamics for Object Retrieval in Clutters
Yitong Li*, Ruihai Wu*, Haoran Lu, Chuanruo Ning, Yan Shen, Guanqi Zhan, Hao Dong
Robotics: Science and Systems (RSS) 2024
[Paper] [Webpage] [Code]

■ LVDiffusor: Distilling Functional Rearrangement Priors from Large Models into Diffusor
Yiming Zeng*, Mingdong Wu*, Long Yang, Jiyao Zhang, Hao Ding, Hui Cheng, Hao Dong
IEEE Robotics and Automation Letters (RAL) 2024
[Paper] [Webpage]

■ ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation
Xiaoqi Li, Mingxu Zhang, Yiran Geng, Haoran Geng, Yuxing Long, Yan Shen, Renrui Zhang, Jiaming Liu, Hao Dong
Conference on Computer Vision and Pattern Recognition (CVPR) 2024
[Paper] [Webpage] [Code] [量子位] [强化学习技术前沿] [集智书童]

■ UniGarmentManip: A Unified Framework for Category-Level Garment Manipulation via Dense Visual Correspondence
Ruihai Wu, Haoran Lu, Yiyan Wang, Yubo Wang, Hao Dong
--- The world's first work of category-level garment manipulation with only few-shot demonstrations
Conference on Computer Vision and Pattern Recognition (CVPR) 2024
[Paper] [Webpage] [Code]

■ RGBManip: Monocular Image-based Robotic Manipulation through Active Object Pose Estimation
Boshi An, Yiran Geng, Kai Chen, Xiaoqi Li, Qi Dou, Hao Dong
International Conference on Robotics and Automation (ICRA) 2024
[Paper] [Webpage] [Code] [北大]

■ Articulated Object Manipulation with Coarse-to-fine Affordance for Mitigating the Effect of Point Cloud Noise
Suhan Ling, Yian Wang, Shiguang Wu, Yuzheng Zhuang, Tianyi Xu, Yu Li, Chang Liu, Hao Dong
International Conference on Robotics and Automation (ICRA) 2024
[Paper] [Webpage] [Code]

■ RoboKeyGen: Robot Pose and Joint Angles Estimation via Diffusion-based 3D Keypoint Generation
Yang Tian, Jiyao Zhang, Guowei Huang, Bin Wang, Ping Wang, Jiangmiao Pang, Hao Dong
International Conference on Robotics and Automation (ICRA) 2024
[Paper] [Webpage] [Code]

■ Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions
--- The world's first visual language navigation large model system deployed in real world
Yuxing Long, Xiaoqi Li, Wenzhe Cai, Hao Dong
International Conference on Robotics and Automation (ICRA) 2024
[Paper] [Webpage] [Code] [量子位]

■ PixNav: Bridging Zero-shot Object Navigation and Foundation Models through Pixel-guided Navigation Skill
--- The world's first purely visual-based object goal navigation large model
Wenzhe Cai, Siyuan Huang, Guangran Cheng, Yuxing Long, Peng Gao, Changyin Sun, Hao Dong
International Conference on Robotics and Automation (ICRA) 2024
[Paper] [Webpage] [Code] [北大]

■ RGBGrasp: Image-based Object Grasping by Capturing Multiple Views during Robot Arm Movement with Neural Radiance Field
Chang Liu, Kejian Shi, Kaichen Zhou, Haoxiao Wang, Jiyao Zhang, Hao Dong
IEEE Robotics and Automation Letters (RAL) 2024
[Paper] [Webpage]

■ SparseDFF: Sparse-View Feature Distillation for One-Shot Dexterous Manipulation
Qianxu Wang, Haotong Zhang, Congyue Deng, Yang You, Hao Dong, Yixin Zhu, Leonidas Guibas
International Conference on Learning Representations (ICLR) 2024
[Paper] [Webpage] [Code]

■ Bi-DexHands: Towards Human-Level Bimanual Dexterous Manipulation
Yuanpei Chen, Yiran Geng, Fangwei Zhong, Jiaming Ji, Jiechuang Jiang, Zongqing Lu, Hao Dong, Yaodong Yang
--- The world's first bimanual dexterous manipulation benchmark (in simulation)
IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI) 2023
[Paper] [Website] [Code]

■ Find What You Want: Learning Demand-conditioned Object Attribute Space for Demand-driven Navigation
---The First Demand-driven Navigation Paper
Hongcheng Wang, Andy Guan Hong Chen, Xiaoqi Li, Mingdong Wu, Hao Dong
Neural Information Processing Systems (NeurIPS) 2023
[Paper] [Website] [Video] [Code] [BAAI]

■ GenPose: Generative Category-level Object Pose Estimation via Diffusion Models
Jiyao Zhang, Mingdong Wu, Hao Dong
Neural Information Processing Systems (NeurIPS) 2023
[Paper] [Website] [Code]

■ Learning Environment-aware Affordance for 3D Articulated Object Manipulation under Occlusions
Ruihai Wu, Kai Cheng, Yan Zhao, Chuanruo Ning, Guanqi Zhan, Hao Dong
Neural Information Processing Systems (NeurIPS) 2023
[Paper] [Website] [Code] [AIR学术] [AIR论坛]

■ GraspGF: Learning Score-based Grasping Primitive for Human-assisting Dexterous Grasping
Tianhao Wu, Mingdong Wu, Jiyao Zhang, Yunchong Gan, Hao Dong
Neural Information Processing Systems (NeurIPS) 2023
[Paper] [Website] [Code] [新智元]

■ Where2Explore: Few-shot Affordance Learning for Unseen Novel Categories of Articulated Objects
Chuanruo Ning, Ruihai Wu, Haoran Lu, Kaichun Mo, Hao Dong
Neural Information Processing Systems (NeurIPS) 2023
[Paper] [Website] [Code]

■ Learning Gradient Fields for Scalable and Generalizable Irregular Packing
Tianyang Xue, Mingdong Wu, Lin Lu, Haoxuan Wang, Hao Dong, Baoquan Chen
SIGGRAPH Asia 2023
[Paper] [Website] [Code]

■ DefoAfford: Learning Foresightful Dense Visual Affordance for Deformable Object Manipulation
Ruihai Wu, Chuanruo Ning, Hao Dong
International Conference on Computer Vision (ICCV) 2023
[Paper] [Website] [Code] [将门创投] [AIR学术] [AIR论坛]

■ Leveraging SE(3) Equivariance for Learning 3D Geometric Shape Assembly
Ruihai Wu, Chenrui Tie, Yushi Du, Yan Zhao, Hao Dong
International Conference on Computer Vision (ICCV) 2023
[Paper] [Website] [Code]

■ Learning Semantic-Agnostic and Spatial-Aware Representation for Generalizable Visual-Audio Navigation
Hongcheng Wang, Yuxuan Wang, Fangwei Zhong, Mingdong Wu, Jianwei Zhang, Yizhou Wang, Hao Dong
IEEE Robotics and Automation Letters (RAL) 2023
[Paper] [Website] [Code] [CFCS]

■ SGTAPose: Robot Structure Prior Guided Temporal Attention for Camera-to-Robot Pose Estimation from Image Sequence
Yang Tian, Jiyao Zhang, Zekai Yin, Hao Dong
Conference on Computer Vision and Pattern Recognition (CVPR) 2023
[Paper] [Website] [Code]

■ GFPose: Learning Gradient Field for Multi-Hypothesis 3D Human Pose Estimation
Hai Ci, Mingdong Wu, Wentao Zhu, Xiaoxuan Ma, Hao Dong, Fangwei Zhong, Yizhou Wang
Conference on Computer Vision and Pattern Recognition (CVPR) 2023
[Paper] [Website] [Code] [CFCS]

■ PartManip: Learning Cross-Category Generalizable Part Manipulation Policy from Point Cloud Observations
Haoran Geng, Ziming Li, Yiran Geng, Jiayi Chen, Hao Dong, He Wang
Conference on Computer Vision and Pattern Recognition (CVPR) 2023
[Paper] [Website] [Code]

■ RLAfford: End-to-End Affordance Learning for Robotic Manipulation
Yiran Geng, Boshi An, Haoran Geng, Yuanpei Chen, Yaodong Yang, Hao Dong
International Conference on Robotics and Automation (ICRA) 2023
[Paper] [Website] [Code] [CFCS] [AIR学术] [AIR论坛]

■ DualAfford: Learning Collaborative Visual Affordance for Dual-gripper Object Manipulation
Yan Zhao, Ruihai Wu, Zhehuan Chen, Yourong Zhang, Qingnan Fan, Kaichun Mo, Hao Dong
International Conference on Learning Representations (ICLR) 2023
[Paper] [Website] [Code] [AIR学术] [AIR论坛]

■ Intelligent Indoor Metasurface Robotics
---Journal Cover Paper: A New Robot Concept for God's Eye View and Privacy
Hanting Zhao, Shengguo Hu, Hongrui Zhang, Zhuo Wang, Hao Dong, Philipp del Hougne, Tie Jun Cui, Lianlin Li
National Science Review (NSR) 2022
[Paper] [Journal Cover] [中国科学杂志社]

■ TarGF: Learning Target Gradient Field for Object Rearrangement
Mingdong Wu, Fangwei Zhong, Yulong Xia, Hao Dong
Neural Information Processing Systems (NeurIPS) 2022
[Paper] [Website] [Code]

■ Towards Human-Level Bimanual Dexterous Manipulation with Reinforcement Learning
Yuanpei Chen, Tianhao Wu, Shengjie Wang, Xidong Feng, Jiechuang Jiang, Stephen Marcus McAleer, Hao Dong, Zongqing Lu, Song-Chun Zhu, Yaodong Yang
Neural Information Processing Systems (NeurIPS) Datasets and Benchmarks 2022
[Paper] [Website] [Code]

■ AdaAfford: Learning to Adapt Manipulation Affordance for 3D Articulated Objects via Few-shot Interactions
Yian Wang*, Ruihai Wu*, Kaichun Mo*, Jiaqi Ke, Qingnan Fan, Leonidas Guibas, Hao Dong
European Conference on Computer Vision (ECCV) 2022
[Paper] [Website] [Code] [CFCS] [AIR学术] [AIR论坛]

■ VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating 3D Articulated Objects
Ruihai Wu, Yan Zhao, Kaichun Mo, Zizheng Guo, Yian Wang, Tianhao Wu, Qingnan Fan, Xuelin Chen, Leonidas Guibas, Hao Dong
International Conference on Learning Representations (ICLR) 2022
[Paper] [Code] [Website] [Youtube] [Bilibili] [CFCS] [AIR学术] [AIR论坛]

■ DMotion: Robotic Visuomotor Control with Unsupervised Forward Model Learned from Videos
---The First Attempt to Learn the Forward Model Unsupervisedly via Motion Disentanglement
Haoqi Yuan, Ruihai Wu, Andrew Zhao, Haipeng Zhang, Zihan Ding, Hao Dong
International Conference on Intelligent Robots and Systems (IROS) 2021
[Paper] [Website] [Code] [CFCS]

■ Generative 3D Part Assembly via Dynamic Graph Learning
---The First Attempt to Assemble 3D Part without External Guidance
Jialei Huang*, Guanqi Zhan*, Qingnan Fan, Kaichun Mo, Lin Shao, Baoquan Chen, Leonidas Guibas, Hao Dong
Neural Information Processing Systems (NeurIPS) 2020
[Paper] [Code] [Website] ( [机器之心]/ [AI科技评论] )

实验室

PKU-Agibot Lab由北京大学前沿计算研究中心董豪长聘副教授领导，该科研团队专注于机器人视觉，物体操作，语义导航和具身自主决策等领域的前沿技术，致力于为工业应用和家用场景创建具有成本效益的人形机器人。更多信息请看：https://zsdonghao.github.io/