推荐 | 计算机视觉导论——这门好评如潮的限选课又开课了
无论是生活中随处可见的人脸识别,有趣的 AR/VR 小游戏,还是有着广阔前景的自动驾驶、智能机器人,这些炫酷的应用都离不开一整套成熟的计算机视觉算法。
2022年春季,“计算机视觉导论”首次开课,获得选课同学的好评如潮。
以上内容转自树洞
想知道怎么计算机是如何从0和1中去理解图像,理解三维数据,进一步理解人类世界的吗?欢迎选修2023年全新升级的“计算机视觉导论”!
课程特色
计算机视觉是人工智能的经典研究方向,已有数十年的历史。然而近年来受深度学习的影响,计算机视觉领域发展迅猛,技术更新速度很快。为了反映这一变化,诸多大学包括北大在内都有从深度学习角度介绍计算机视觉的课程,如斯坦福大学的 CS231N。然而这些课程并非设计给计算机视觉的初学者(CS231N 在斯坦福属于研究生课)。应该注意到,深度神经网络只是一种手段,并不涵盖计算机视觉的基本概念和方法,相机模型、多视角几何、optical flow、correspondence 等仍是每一个视觉领域的研究者必须理解和掌握的。
另外,随着深度传感器(如激光雷达、深度相机)在工业界的大规模使用,三维视觉在计算机视觉研究领域中越发起到举足轻重的作用,而这部分内容在大多数课程中被忽略。
考虑到以上因素,本课程的内容意在全面介绍和展现计算机视觉这一研究领域传统和最新的研究成果,平衡传统和深度学习的方法,以三维视觉为特色、打通传统视觉中几何理解和基于深度学习的三维数据处理。在较好地掌握本课程后,本科生可以直接参与到计算机视觉、三维视觉、机器人视觉的前沿科研任务。
更多课程内容请参见课程主页:https://hughw19.github.io/Intro2CV_23Spring/。
基于点云序列的手和物体交互过程中的追踪和重建
AAAI 2023 Oral,王鹤课题组
基于可泛化神经辐射场的透明高光物体抓取
ICRA 2023,王鹤课题组
教学目标
1. 掌握基础知识:学习计算机视觉的基本原理和方法,使学生掌握相机成像和视觉系统的基本原理,并了解视觉处理从特征提取到任务学习的全过程。
2. 开阔视野:针对计算机视觉领域发展迅猛的特点,课程着力于全景式地展现传统视觉和基于深度学习视觉的方法的异同,使学生能在不同的应用场景和任务中选择更合适的方法。
3. 培养动手能力:本课程要求学生在具体实践中掌握计算机视觉系统的搭建和模型的训练和测试,使学生具备处理计算机视觉任务的基本素养,并培养学生对计算机视觉前沿研究问题的兴趣。
课程信息
- 课名:计算机视觉导论
- 课号:04834920
- 学分:3
- 开课时间:每周三7~9节
- 开课地点:地学楼108
- 开课单位:信息科学技术学院
- 课程类别:本科生限选(22级),本科生任选(21级及以前)
- 授课教师:王鹤 hewang@pku.edu.cn
- 助教:陈嘉毅 jiayichen@pku.edu.cn
- 严汨 dorisyan@pku.edu.cn
- 课程网站:https://hughw19.github.io/Intro2CV_23Spring/
考核方式
1. 四次平时作业(40%):主要采用关键代码填空的方式,在减轻学生代码负担的同时也保证对核心技术的理解
2. 期中、期末考试(各30%):允许携带 cheating sheet,避免死记硬背,结合具体应用场景考察核心技术的掌握程度
先修课要求
高等数学、线性代数、计算概论(或掌握 Python 编程)
内容安排
相比去年,课程内容精简了 Classic Vision Techniques,3D Vision 及 Temporal Data Analysis 的部分内容,增加了 Transformer,Diffusion Model,NeRF 等前沿热门话题。
授课教师介绍
王鹤
王鹤博士是北京大学前沿计算研究中心(CFCS)的助理教授和博士生导师。他创立并领导了具身感知与交互实验室(EPIC Lab),实验室立足三维视觉感知与机器人学,重点关注具身机器人在三维复杂环境中的感知和交互问题,研究目标是以可扩增地方式发展高泛化性的机器人视觉和控制系统。他已在计算机视觉、机器人学和人工智能的顶级会议和期刊(包括 CVPR/ICCV/ECCV/TRO/RAL/ICRA/NeurIPS/ICLR/AAAI)上发表30余篇工作,其论文获得2022年世界人工智能大会青年优秀论文(WAICYOP)奖,Eurographics 2019 最佳论文提名奖,其带领的团队获得 ICLR 2021 可泛化机器人物体操纵挑战赛 ManiSkill 无额外标注赛道冠军。他担任了 CVPR2022 和 WACV2022 的领域主席,Image and Vision Computing 的副主编和诸多顶会的审稿人、程序委员。在加入北京大学之前,他于2021年从斯坦福大学获得博士学位,师从美国三院院士 Leonidas. J Guibas 教授,于2014年从清华大学获得学士学位。
王鹤个人主页:https://hughw19.github.io/
往届选课学生感想
来听听去年选课的师兄师姐们的课程反馈吧~
问:这门课上你主要有什么收获?
答:这门课讲述了传统计算机视觉、深度计算机视觉、三维计算机视觉的知识,既包括高层次的直觉解释,也注重底层的工程实现,还穿插了一些传统结论的数学证明,使我收获颇丰。
问:听说你在去年暑假已经成功发表了一篇顶会论文,且还有一篇在投,你觉得这门课对你的后续科研有什么帮助吗?
答:这门课的作业 Labs,落实了课堂的主流算法,使我在后续科研时有能力复现和魔改前人工作;同时,作业中强调使用 PyTorch 框架的“张量式”编程提升计算的并行度,这项技能为我之后参与的数据集项目节省了部分计算资源。
问:这门课你觉得最精彩的部分是什么?
答:我觉得是老师对很多经典的视觉方法的个人理解,以及对不同方法本质的对比分析,这些都是自己阅读论文很难获得,也是听普通的只介绍技术方法的课程无法获得的。也正是因此,一学期的课程后,我觉得不仅知识增加了,问题分析和归纳总结的能力也得到了提升。
问:对于这门课,你有什么意见或建议吗?
答:这门课上的我真的很感动,因为我不开玩笑地讲,看到了国内信科高等教育的希望。从教学质量上来说,这门课真的是信科教学的转折点。当然,在作业设计上,我有两点小建议:一是课程对 numpy 的理解要求过高,另一方面是部分作业的 auto test 设计得不到位,相信在第二次开课的过程中可以将这些小瑕疵完善。
23年春课程更新
去年的教学过程中,也有许多同学对课程提出了宝贵意见,因此我们也对课程做了如下调整:
1. 课程已列入22级同学的限选课中,因此也非常欢迎22级同学们选修!
2. 针对低年级同学专业知识不充分的情况,我们进行了更多的铺垫以减轻部分章节上手的难度,帮助同学们更好地理解关键概念。
3. 优化课程作业,提供更详细的作业指南,减轻零基础同学的代码负担。
4. 更好地介绍前沿技术,如 transformer,diffusion model,NeRF,Embodied AI 等相关内容,向研究前沿架设桥梁,激发同学们的科研兴趣。