博士生论坛-博士生论坛-PRCV-中国模式识别与计算机视觉大会

点击论坛跳转到相应位置

博士生论坛

博士生论坛征集

博士生论坛

论坛日程

论坛嘉宾

王昌栋主持人

中山大学计算机学院副教授、博士生导师

嘉宾简介：王昌栋，中山大学计算机学院副教授，博士生导师，中国计算机学会杰出会员（CCF Distinguished Member）。师从中山大学赖剑煌教授和美国伊利诺大学-芝加哥校区IEEE Fellow Philip S. Yu教授。他的研究方向包括数据聚类、网络分析、推荐算法和大数据信息安全。他以第一作者身份或者指导学生发表了100余篇CCF B类或中科院分区表SCI二区以上的学术论文，其中IEEE/ACM Trans 超过40篇，A类或一区论文50余篇。Google引用量超过3900次，H-index 32。主持了包括广东省自然科学基金-杰出青年基金、广东特支计划“科技创新青年拔尖人才”、国家重点研发计划项目-子课题、国家自然科学基金-面上项目、CCF-腾讯犀牛鸟科研基金等13个项目。研究成果荣获2015年中国人工智能学会优秀博士学位论文奖，2018年度广东省自然科学奖一等奖、2020年度广东省自然科学奖二等奖等。他是人工智能权威期刊Journal of Artificial Intelligence Research（JAIR，CCF B类SCI）的副编辑（AE），担任第16届数据挖掘与应用国际学术会议（16th International Conference on Advanced Data Mining and Applications，ADMA 2020）的程序委员会共同主席（PC Co-chair）。他曾担任CCF广州分部副主席（2019.3-2021.3）和CCF-YOCSEF广州主席（2020-2021），现担任CCF学生分会工作组组长（2021.4-2023.4）和CCF会员与分部工委执委。

杨学报告嘉宾

上海交通大学计算机系在读博士生

嘉宾简介：杨学，上海交通大学计算机系在读博士生，吴文俊人工智能博士班成员，研究方向是计算机视觉（目标检测）。在TPAMI/IJCV/CVPR/ICCV/ICML/NeurIPS等顶级期刊和会议上发表一作论文10篇，谷歌学术引用超过2200，七篇文章引用过百，一篇ESI高被引论文。博士期间获得上海交通大学学术之星提名奖，并连续两年获得博士生国家奖学金。所开源的代码在社区累积获得star数超过6000，包括两个最具影响力的旋转检测框架AlphaRotate和MMRotate。

报告题目：视觉有向目标的高精度检测

报告摘要：高精准的有向目标检测是许多视觉场景理解中必不可少的一项技术手段。我们发表在TPAMI的论文提出了一种新的目标建模方式——高斯分布建模。我们发现这种表示方式可以有效避免有向目标检测算法中常见的边界不连续、类正方形检测等问题。我们还根据这种表示方式设计了一种新颖的基于KL散度的回归损失函数。通过梯度分析和尺度不变性证明，我们发现这种回归损失会让检测器在训练过程中根据目标的形态动态地调整参数的优化权重，最终在高精度指标上取得了显著的提升。

严彬报告嘉宾

大连理工大学信息与通信工程学院 IIAU Lab 在读博士

嘉宾简介：严彬，大连理工大学信息与通信工程学院IIAU Lab在读博士，研究方向为视频目标跟踪。在计算机视觉领域顶级会议CVPR/ICCV/ECCV上发表一作论文6篇，谷歌学术引用700余次；并三次获得视频目标跟踪领域最具影响力的赛事VOT Challenge的赛道冠军。曾连续两年获得研究生国家奖学金，并获得大连理工大学学术之星称号（博士每年评选10人）。开源代码Unicorn在Github上获得近800 stars。

报告题目：走向目标跟踪大一统

报告摘要：通用视觉模型的目标是构建一个统一的模型来同时解决多项视觉任务。目标跟踪领域当下主要包含以下四项子任务：单目标跟踪，视频目标分割，多目标跟踪，多目标跟踪与分割。由于不同子任务在定义与设定上的差异，绝大多数现有跟踪算法都是被设计用来解决单一或者部分子任务的，缺乏向其他任务的拓展能力。显然，他们的长期割裂状态对于跟踪领域的发展并不友好。为了解决这一问题，我们提出了名为Unicorn的目标跟踪大统一模型，该模型只需一套网络结构、一套模型参数即可同时完成四种跟踪任务，该项工作现已被ECCV2022接收为Oral。Unicorn首次实现了目标跟踪网络结构与学习范式的大一统，并在来自四种跟踪任务的8个富有挑战性的数据集上取得了优异的表现，在其中多个数据集上刷新了State-of-The-Art。

张世学报告嘉宾

北京科技大学计算机与通信工程学院计算机科学与技术专业 2021 级博士研究生

嘉宾简介：张世学，男，北京科技大学计算机与通信工程学院计算机科学与技术专业2021级博士研究生。本、硕、博均求学于北京科技大学计算机与通信工程学院；师从殷绪成教授、祝晓斌教授，从事图像文本检测与识别相关工作的研究。曾获博士研究生国家奖学金，北京市优秀硕士毕业生、硕士研究生国家奖学金，北京科技大学优秀三好研究生等奖励；以第一作者身份在CCF推荐的权威期刊或会议上发表文本检测方向相关论文5篇，其中包括CVPR 2020、 ICCV 2021、IEEE T-PAMI 2022、IEEE T-NNLS 2022，为图像文本检测领域做出了较积极的理论方法贡献。作为骨干先后参与了国家自然科学基金项目“多语言场景文本检测与识别关键技术研究”、广电总局监管中心项目“新闻视频标题文本检测与识别技术”等研发工作；并在视频字幕提取技术相关领域获得国家授权发明专利1项。受邀担任国际期刊(IEEE TIP, IEEE TMM)和国际会议(ACM MM)的审稿人。

报告题目：基于关系推理和边界建模的任意形状文本检测

报告摘要：任意形状文本检测是图像文本检测中一项非常具有挑战性的任务。针对这个问题，在CVPR 2020大会上，我们提出了一种基于文字/文本组件连接的检测任意形状的方法，利用图卷积神经网络来进行组件之间的深度关系推理，有效地解决了复杂情况下文本组件的连接问题。然而，文本组件的生成和聚类过程的复杂性，限制了模型的检测精度和检测速度。因此，我们在ICCV 2021大会上又提出了一种基于文本边界建模的任意形状文本检测方法，该网络采用边界提议模型生成粗糙的初始边界，然后通过边界变形模型探究和学习边界上键点之间的上下文关系，进行文本边界的迭代变形，从而为任意形状文本直接生成准确的边界而无需任何后处理，该方法在检测速度和检测精度上都有明显提升。

陈曼笙报告嘉宾

中山大学计算机学院 2022 级博士研究生

嘉宾简介：陈曼笙，2018年在华南农业大学获得软件工程学士学位，2021年在中山大学获得计算机科学硕士学位。现是中山大学计算机学院2022级博士研究生，导师为王昌栋副教授。已经在国际期刊和会议上以第一作者身份发表论文十一篇，包括IEEE TKDE、IEEE TCYB、IEEE TNNLS、Information Fusion、KDD、ACM MM、AAAI 和 DASFAA。担任TPAMI, TKDE, TNNLS, Neural Network等学术期刊审稿人。主要研究方向是多视图聚类。

报告题目：基于低秩张量的邻近学习多视图聚类

报告摘要：面向图的多视图聚类方法通过使用隐藏在多视图数据中的关系和复杂结构，取得了显著的性能。然而，他们大多数仍然存在以下两个常见的问题。（1）他们的目标是研究视图之间的共同表征或成对相关性，而忽略了多个视图之间的全面性和更深层次的高阶相关性。（2）在统一的图构建和聚类框架中，不能考虑到视图表示的先验知识来获得共识聚类指示图。为了解决这些问题，我们提出了一种新的基于低秩张量的邻近学习方法用于多视图聚类（LTBPL），该方法在一个统一的框架下共同研究多个低秩概率相似性矩阵和反映最终聚类结果的共识聚类指示图。具体地说，多个相似性表示堆叠在一个低秩约束的张量中，以恢复其全面性和高阶相关性。同时，将携带不同自适应置信度的视图特定表示与共识指标图在一个框架中联合构建。在九个真实数据集上的大量实验表明，LTBPL与最先进的方法相比具有优越性。

胡庆拥报告嘉宾

牛津大学计算机科学系博士生

嘉宾简介：Qingyong Hu is currently a DPhil candidate in the Department of Computer Science at the University of Oxford. He received his M.Eng. degree in information and communication engineering from the National University of Defense Technology (NUDT) in 2018. His research interests lie in 3D computer vision, particularly in the semantic understanding of large-scale 3D point clouds, instance segmentation, and registration. He has published several papers in major journals and conferences including IEEE TPAMI/IJCV/CVPR/NeurIPS. His papers have been cited by 2000+ times (Google Scholar), and the RandLA-Net paper has also been listed as the most influential paper in CVPR 2020 (PaperDigest). Additionally, he also chaired 2 International Workshops (Urban3D) at ICCV’21 and ECCV’22. He was fortunately awarded the Huawei UK AI Fellowship during 2021-2023, and received the World Artificial Intelligence Conference Youth Outstanding Paper Award, and the outstanding student reviewer of ICCV 2021 (top 5%).

报告题目：Learning to Understand Large-Scale 3D Point Clouds

报告摘要：Giving machines the ability to precisely perceive and understand the 3D visual world is the fundamental step to allow them to interact competently within our physical world. However, the research on large-scale 3D scene understanding and perception is still in its infancy, due to the complex geometrical structure of 3D shapes and limited high-quality data resources. Among various 3D representations, point clouds have attracted increasing attention due to its flexibility, compactness, and the nature of closing to raw sensory data. Nevertheless, the semantic understanding of large-scale 3D point clouds remains challenging due to its orderless, unstructured, and non-uniform properties. The main goal of my DPhil project is to semantically understand large-scale 3D point clouds by learning general and robust representations using deep neural networks. In particular, several research questions including large-scale point cloud reconstruction, semantic segmentation and registration will be introduced in this presentation.

王龙光报告嘉宾

国防科技大学博士

嘉宾简介：王龙光，博士毕业于国防科技大学，师从安玮教授与郭裕兰副教授。主要研究方向为低层计算机视觉与三维视觉，专注于二者的交叉领域，特别是图像和点云的复原与重建。在IEEE T-PAMI、IEEE T-IP、CVPR、ICCV、ECCV上发表论文15篇，其中以一作CCF A类论文8篇。曾获湖南省优秀硕士学位论文、VALSE 2020焦点论文、光华奖学金等奖励，曾在CVPR上组织NTIRE 2022双目图像超分辨率重建挑战赛。担任IEEE T-PAMI、IEEE T-IP、IEEE T-MM等国际期刊以及CVPR、ICCV、ECCV等国际会议的审稿人。

报告题目：Unsupervised Degradation Representation Learning for Blind Super-Resolution

报告摘要：图像超分辨旨在利用低分辨率图像，重建得到更清晰、细节更丰富的高分辨率图像。超分辨作为图像退化的逆过程，与图像退化模型耦合紧密。当前大部分已有的基于CNN的图像超分辨方法往往假设退化方式固定且已知(比如双三次降采样)，当真实退化与假设不同时，这些方法的性能会出现明显的下降。为了处理真实场景中的未知退化，已有方法依赖于退化估计来引导图像超分辨率重建。然而，这些方法对退化估计精度较为敏感，并且退化估计通常比较耗时。为了解决这一问题，我们提出了一种基于退化表示学习的单帧图像盲超分辨算法。该算法不再显式地对图像退化进行估计，而是利用对比学习无监督地学习图像的退化表示，通过在表示空间中对不同退化进行辨识来隐式地获取退化信息。同时，该算法提出了一种退化感知的超分辨网络，能够根据提取的退化表示灵活地适应到不同的退化上。

冯瑛超报告嘉宾

中科院空天院博士

嘉宾简介：冯瑛超，中国科学院空天信息创新研究院特别研究助理，合作导师为付琨研究员。2022年于中科院空天院获得博士学位，导师为高鑫研究员。研究方向涉及遥感图像解译、跨模态多任务持续学习、模型轻量优化等。已发表学术论文20篇，以第一作者发表论文8篇，多篇成果发表于IEEE TIP、IEEE TGRS、ISPRS Journal等领域期刊。2022年获中科院院长优秀奖。

报告题目：大规模遥感图像多任务学习：方法与应用

报告摘要：随着我国天临空对地观测体系的迅猛发展，已积累海量多传感、多分辨遥感数据。快速精准提取大范围场景中的多类地物目标，是充分发挥遥感数据效益的关键。报告结合我国卫星地面应用系统建设需求，阐述面向复杂遥感图像的多任务学习模型构建、特征交互、性能优化等方法，在此基础上，简述在军民多个领域的典型应用案例。

王嘉凯报告嘉宾

北京航空航天大学博士

嘉宾简介：王嘉凯，博士毕业于北京航空航天大学，师从李未院士与刘祥龙教授。期间主要面向可信赖人工智能领域，针对物理世界下的图像识别开展对抗攻防研究，从多个角度围绕视觉深度学习对抗攻防进行了一系列探索，以保障计算机视觉图像识别技术的稳健发展和安全应用。在IEEE TIP、CVPR、ICCV、ECCV、ACM MM、ACM CCS等期刊会议上发表多篇论文。曾获国家奖学金、启智社区优秀开发者、北京市优秀毕业生等奖励，曾在CVPR、AAAI上组织多次人工智能安全相关Workshop。担任NIPS、ACM MM、CVPR、ECCV、Pattern Recognition等国际会议期刊的审稿人。

报告题目：Defensive Patches for Robust Recognition in the Physical World

报告摘要：由于对抗样本的出现，导致深度学习模型在真实世界中的应用部署受到不可知的安全威胁，影响了智能应用鲁棒性。这使得众多研究者致力于设计更加安全鲁棒的模型架构和训练技巧，也即是对抗防御技术，以保证智能模型和应用安全、可靠、可信赖。然而，此类对抗防御技术往往从模型端出发，每一次提升都需要重新训练、测试和部署，在实际应用中适应性受限，更具体地说，其对真实环境中多样的噪声和模型结构的泛化性及迁移性均有所不足，造成了对抗防御的应用复杂，成效低下。在本报告中，针对自动驾驶场景中的路牌识别任务，我们提出了一种鲁棒视觉对抗防御方法，另辟蹊径地从数据端而非模型端开展具有对抗防御能力的防御补丁生成工作，通过利用局部可识别模型和全局感知关联度，能够简单便捷地在真实世界防御对抗噪声。同时，所提出的对抗防御框架并不与现有方法冲突，可以共同作用进一步促进对抗防御能力的提升。

会议程序

点击论坛跳转到相应位置

博士生论坛

会议程序

主办单位

承办单位

联合承办