特邀报告-PRCV-中国模式识别与计算机视觉大会

金连文

华南理工大学教授、中国图象图形学学会（CSIG）常务理事

简介：金连文，华南理工大学教授，兼任中国图象图形学学会（CSIG）常务理事、CSIG文档图像分析与识别专委会主任、广东省图象图形学会副理事长、CSIG-CV、CAAI-PR和CAA-PRMI专委会常务委员等职。主要研究领域为光学文字识别、文档图像理解、手写文字分析与识别、计算机视觉及应用等，在国内外权威期刊及重要国际会议上发表论文200余篇，Google Scholar 论文被引用数10000余次、H指数53，部分研究成果在工业界得到规模化应用。先后荣获省部级科技奖5项（其中一等奖2项、二等奖3项），指导学生荣获国际国内权威学术竞赛冠军20余次。

报告题目：光学文字识别：从数据驱动到模型自监督

报告摘要：光学文字识别（OCR）技术在信息录入、图像理解、智慧金融、智能办公、智慧教育、电子商务、信息安全、文化传承等诸多领域有非常广阔的应用前景，是计算机视觉及人工智能领域的重要研究问题之一。近年来，基于数据驱动的深度学习方法已成为主流，但其性能极大依赖费时费力的海量数据收集和标注。在本报告中，我将从如何低成本利用大规模数据、如何降低深度学习模型对标签数据的依赖这一视角，来介绍OCR相关领域一些新的研究进展，并对此领域的一些重要问题及发展趋势进行讨论和展望。

王蕴红

北京航空航天大学教授、计算机学院院长、IEEE/IAPR/CCF/CAAI Fellow

简介：王蕴红，北京航空航天大学计算机学院教授、博士生导师，中国人工智能学会智能交互专委会主任、长期从事模式识别与计算机视觉方面研究，曾获中国青年科技奖、国家技术发明二等奖、北京市教学成果一等奖，因在生物特征识别、计算机视觉和模式识别方面的贡献于2018年当选为国际模式识别学会会士（IAPR Fellow），因在人脸识别和虹膜识别方面的贡献当选为2020年度IEEE Fellow 。2022年获得国际模式识别学会女性科学家Maria Petrou 奖。曾任国际权威期刊IEEE Transactions on Information Forensics and Security 编委，现任IEEE Transactions on Dependable and Secure Computing , IEEE Transactions on Biometrics, Behavior, and Identity Sciences 编委，曾任ICPR2020 分会联合主席（Track Co-Chair）, CVPR 和ICCV的领域主席（Area Chair)，国际生物特征识别大会（IJCB 2021）大会联合主席（General Co-Chair）。

报告题目：面向应用的生物特征识别技术

报告摘要：随着深度学习理论的发展，生物特征识别研究取得了巨大进展。这些进展不仅体现在大规模数据库测试中身份识别的高准确率，而且体现在向性别、年龄等多属性分析任务的不断拓展。当前日益增长的新需求对生物特征识别技术提出了新的挑战，尤其是非受控环境中的生物特征识别技术局限性很大。本报告聚焦面向实际应用的生物特征识别技术，结合人脸和步态两个典型代表性生物特征模态，介绍我们在该问题上的探索，并给出一些在深度神经网络可解释性和鲁棒性方面的思考。

薛建儒

西安交通大学教授、中国自动化学会&中国图象图形学学会会士

简介：薛建儒，博士，西安交通大学教授，中国自动化学会&中国图象图形学学会会士。长期从事计算机视觉、模式识别与机器学习、无人驾驶与混合增强智能研究。研究成果获国家自然科学二等奖、国家技术发明二等奖、亚洲计算机视觉会议最佳应用论文奖和IEEE智能交通学会杰出研究团队奖，获教育部长江学者奖励计划特聘教授（2015年）、国家“万人计划”科技创新领军人才（2017年）等多个学术荣誉。

报告题目：开放、动态交通场景下自主驾驶的探索与实践

报告摘要：自动驾驶在人工智能与机器人领域备受关注。然而，实现完全自主的自动驾驶系统依然面临着诸多不确定性、脆弱性和开放性问题，本报告结合团队在无人车上多年实践与探索，探讨交通场景理解、情境预测与驾驶决策的难点问题，并介绍研究团队在无人车自主定位、考虑交通参与者行为预测的驾驶策略学习等问题的研究进展。

鲁继文

清华大学自动化系长聘副教授、博士生导师、IAPR Fellow

简介：鲁继文，清华大学自动化系长聘副教授，博导，国家杰出青年科学基金获得者，IAPR Fellow，主要研究领域为计算机视觉、模式识别、无人系统。发表PAMI、CVPR、ICCV、ECCV论文130余篇，获授权国家发明专利50余项，主持基金委联合基金重点项目、优秀青年科学基金、国家重点研发计划课题等项目10余项，获中国电子学会自然科学一等奖、北京市高等教育教学成果一等奖、中国自动化学会高等教育教学成果一等奖、中国电子学会优秀科技工作者等奖励。担任国际期刊Pattern Recognition Letters主编，IEEE T-IP、T-CSVT、T-BIOM编委，国际会议ICME2022大会主席，FG2023、ICIG 2023、VCIP2022、AVSS 2021、ICME2020程序委员会主席。

报告题目：视觉基础模型及应用

报告摘要：基础模型是人工智能领域的研究热点，在计算机视觉和自然语言处理等领域取得了优异的性能，是视频监控、自动驾驶、智能终端等重要应用的支撑性技术。报告将面向图像数据、点云数据和多模态数据三个方面回顾视觉基础模型近年来的研究进展，同时介绍课题组在视觉基础模型方面所开展的一些工作，主要包括高阶递归模型、全局滤波模型、动态稀疏模型、跨域迁移模型等，以及它们在图像分类与识别、目标检测与分割、场景重建与理解等视觉任务中的应用。

耿新

东南大学首席教授、研究生院常务副院长

简介：耿新，东南大学首席教授，研究生院常务副院长，国家杰青、优青基金获得者，国际工程与技术学会杰出会士。主要从事机器学习、模式识别、计算机视觉等方面的研究。曾获国家自然科学二等奖、国家级教学成果一等奖等多项教学、科研奖励。现任国务院学位委员会计算机学科评议组成员，教育部高校计算机类专业教指委人工智能专家委员会委员，江苏省计算机学会副理事长，亚太国际人工智能会议指导委员会委员。

报告题目：机器学习的“基因”：让机器像人一样学习

报告摘要：本轮人工智能热潮的根本动力之一是现代机器学习、尤其是深度学习技术的发展。深度学习需要大量训练数据和计算资源。然而，人类往往通过少量样本就能快速学习一个新的概念。这是因为新生儿大脑并非随机，人类千万年的进化结果通过基因初始化了新生儿大脑。受此启发，我们提出机器学习的“基因”——Learngene。基于Learngene的全新学习框架有望改变目前深度学习领域的游戏规则：现在我们只需要在少数“模型供应商”处进行面向开放世界任务的大规模训练，而一个面向具体任务的“客户”只需要从“模型供应商”处购买一个Learngene，对自己的轻量模型进行初始化，即可用少量样本快速适应自己的目标任务，就像人的学习一样。

卢策吾

上海交通大学教授、博士生导师

简介：卢策吾，上海交通大学教授，博士生导师，2016年或海外高层次青年引进人才，2018年被《麻省理工科技评论》评为35位35岁以下中国科技精英（MIT TR35），2019年获求是杰出青年学者，2020年获上海市科技进步特等奖（第三完成人），2021获中国高被引学者。以通讯作者或第一作者在《自然》，《自然·机器智能》，TPAMI等高水平期刊和会议发表论文100多篇；担任《科学》等期刊审稿人，NeurIPS，CVPR，ICCV ，ECCV，IROS ，ICRA领域主席。研究兴趣包括计算机视觉，机器人学习。

报告题目：行为理解与具身智能

报告摘要：该讲座围绕智能体行为理解问题展开讨论，包括：从机器认知角度，如何让机器看懂行为？介绍人类行为知识引擎与庞加莱空间下的行为语义统一等工作。从神经认知角度：机器语义理解与脑神经认知的内在关联？介绍如何阐释视觉行为理解与其脑神经的内在关联，并建立稳定映射模型。从具身认知角度，如何让机器人具有第一人称的行为能力？介绍提出的PIE（perception- imagination-execution）方案，其中代表工作graspNet首次在未知物体抓取问题上达到人类水平。

黄国平

腾讯AI Lab高级研究员

简介：黄国平，博士，腾讯AI Lab高级研究员，毕业于中国科学院自动化研究所，研究方向为机器翻译、自然语言处理。长年专注于交互翻译的研究与应用，在ACL、AAAI、IJCAI、EMNLP等人工智能领域顶级会议与TASP等顶级期刊发表论文20余篇。

报告题目：人工智能新产品的理论发展和商业化挑战：以十年交互翻译之路为例

报告摘要：从统计学习时代到以深度学习为核心的现在，机器翻译一直聚焦于提供高质量、不可干预的自动翻译结果。尽管自动译文的精度一直难于满足用户的预期，但从模型方法到产品落地，工业界的商业产品与学术界的主流论文都默契地遵循这个原则。带来的结果是机器翻译产品基本千篇一律，其区别仅限于在不同领域的自动译文精度有不太明显的各有所长。交互翻译概念在上世纪90年代被提出，其核心思想是约束解码，即根据已输入的译文片断生成新的自动译文，循环往复，预期以尽可能少的人工操作量快速完成高质量译文的生产。但因为解码限制过多（比如仅前缀约束），且性能较差，所以长期以来一直停留在Demo演示状态，难以说服真实用户，无法投入实际应用。笔者在10年前开始交互翻译领域的研究，主要围绕放开约束解码限制和扩展交互方法展开，比如提出了辅助翻译输入法、端到端的翻译记忆实时融合、任意约束的解码方法等。目前的交互翻译已能实现从句子到词语、从精准到模糊的各层级的实时干预和模型增强。同时，负责的腾讯交互翻译同步进行了产品化和商业化探索，目前已取得阶段性进展。本次讲座的主要内容包括三个部分：机器翻译技术和产品的发展历程、交互翻译理论提出和演变过程、交互翻译的产品化和商业化过程中的经验与教训。希望我们的探索过程能对人工智能其它方向的发展有所启发。

程明明

南开大学教授、计算机系主任

简介：程明明，南开大学教授，计算机系主任。主持承担了国家杰出青年科学基金、优秀青年科学基金项目、科技部重大项目课题等。他的主要研究方向是计算机视觉和计算机图形学，在SCI一区/CCF A类刊物上发表学术论文100余篇（含IEEE TPAMI论文28篇），h-index为64，论文谷歌引用3.2万余次，单篇最高引用4300余次，连续6年入选Elsevier中国高被引学者榜单。技术成果被应用于华为、推想、金风、和中化农业等。获得多项省部级科技奖励。现担任中国图象图形学学会副秘书长、天津市人工智能学会副理事长和SCI一区期刊IEEE TPAMI, IEEE TIP编委。

报告题目：图像自适应感知技术

报告摘要：对图像内容的感知是人工智能的基本任务之一。随着深度学习技术的发展，相关的智能感知技术在军事、医疗、消费等领域得到了广泛的应用。然而，现有视觉感知技术依然面临着特征表达粒度自适应性差所带来的算不准问题，算力自适应性差所带来的算不动问题，对有限标注的数据自适应性差所带来的算不了的问题。为了解决上述问题，本报告将从粒度自适应表征、算力自适应的高效计算、和数据自适应的无监督学习等角度出发，介绍图像自适应感知技术的最新研究进展。

会议程序

金连文

王蕴红

薛建儒

鲁继文

耿新

卢策吾

黄国平

程明明

会议程序

主办单位

承办单位

联合承办