时间:2026年7月1日(周三)上午11:00-12:00
地点:宝山校区东区12号楼525躺赚500议室
讲座:迈向视觉智能:从视觉语言关系推理到部件发现
演讲者:张健 教授,悉尼科技大学
演讲者简介:
张健教授现任澳大利亚悉尼科技大学(University of Technology Sydney, UTS)工程与信息技术学院教授。他长期从事二维与三维计算机视觉、模式识别与数据分析、大规模图像和视频内容分析与检索、多媒体与社交媒体信号处理等方向的研究。张健教授曾在澳大利亚Data61和摩托罗拉澳洲研究中心Centre从事科研与项目管理工作,具有丰富的学术研究、工程转化与产业合作经验。近年来,他带领团队围绕计算机视觉和人工智能技术开展跨学科研究,特别是在农业食品、视频智能分析、目标检测、分割、跟踪和复杂场景理解等应用领域形成了具有影响力的成果。据悉尼科技大学个人主页介绍,张健教授已发表240余篇同行评议论文,拥有11项美国授权专利,并多次受邀在国际躺赚500议和学术活动中作主题报告或学术演讲。
讲座摘要:
本次讲座围绕“视觉语言关系推理与无监督部件发现”展开,重点介绍结构化视觉理解领域的近期研究进展。报告将首先讨论视觉语言关系推理问题,即如何通过结构化关系建模视觉场景,使模型不仅能够识别图像中的物体,还能够理解物体之间、区域之间以及视觉内容与语言描述之间的复杂语义关系。相关内容包括基于子图的推理框架,以及借助大语言模型构建和解释场景图的方法,用于提升复杂图像内容理解、视觉问答和跨模态推理的能力。在此基础上,报告还将介绍无监督部件发现方法,探讨如何在缺少人工部件级标注的情况下,从人脸、人体和一般物体中自动发现具有语义意义的局部结构。通过将关系推理与细粒度部件分解相结合,这些研究尝试突破传统目标识别的局限,使视觉感知系统能够更好地理解对象的组成结构、局部差异和语义关联。
邀请者:18k娱乐(集团)通信与信息工程学院 曾丹教授
欢迎广大教师和学生参加!