近日,神经信息处理系统大会(Neural Information Processing Systems,简称NeurIPS)和欧洲计算机视觉国际会议(European Conference on Computer Vision,简称ECCV)录用结果公示,人工智能学院共有7篇论文被NeurIPS 2024、ECCV 2024录用,第一作者分别是博士生赵栋(导师:王爽教授),博士生吴淞(导师:吴金建教授),硕士生武强(导师:冯志玺副教授),硕士生李宇健(导师:吴凯副教授),硕士生李小彬(导师:吴凯副教授),博士生李志浩(导师:侯彪教授),博士生王兆鑫(导师:王晗丁教授)。论文简要介绍如下:
NeurIPS 2024 录用论文
论文一:
论文题目:Connectivity-Driven Pseudo-Labeling Makes Stronger Cross-Domain Segmenters
论文作者:赵栋、王爽、臧琪、Nicu Sebe、钟准
作者单位:西安电子科技大学
论文概述:目前,在跨域语义分割中,伪标签法是一种流行的方法,它通过训练带有可靠伪标签的像素来提高模型在未见域上的性能。然而,这个范式存在两个关键限制:(1) 在相对严重的域偏移下,大多数选定的可靠像素显得零散且嘈杂。(2) 在处理开放数据时,一些属于开放集类的像素可能表现出高度的置信度。为了解决这些限制,我们提出了一种称为语义连通性驱动的伪标签法的新方法。该方法聚合像素语义,并在语义连通上建模不确定度,可以实现更加高效的语义噪声和开集噪声定位。实验结果表明,在室内图像,医学,遥感等场景上,该方法在多种跨域语义分割任务中表现出色,包括域泛化、一般域适应,开集域适应,以及无源和黑盒域适应,并可以显著提升现有域适应方法的性能。
论文二:
论文题目:Future Motion Estimation via Event Sequence Diffusion
论文作者:吴淞、朱智宇、侯军辉、石光明、吴金建
作者单位:西安电子科技大学
论文概述:预测物体的未来运动是计算机视觉中理解和与动态环境互动的重要任务。事件驱动传感器以卓越的时间精度捕捉场景变化,为实现更细致的运动预测提供了独特的思路。课题组长期从事事件相机系统设计及其信号智能处理。基于此,我们提出将视频扩散模型(Stable Video Diffusion)的强大学习能力与事件相机的丰富运动信息相结合,构建新型的运动预测框架。具体来说,我们首先使用预训练的视频扩散模型对事件序列数据集进行微调,从而将RGB视频的广泛知识迁移到以事件为中心的领域。随后,我们根据事件数据高时间分辨率的特性,重写扩散模型的去噪过程,以丰富的运动先验替代纯净的高斯噪声为起点进行去噪,充分利用事件数据中蕴含的运动信息。此外,我们还引入了一种运动对齐机制,利用强化学习技术提升扩散模型的逆向生成轨迹,确保性能和准确性的提高。通过广泛的测试与验证,我们展示了该方法在多种复杂场景中的有效性,表明其在自动驾驶、机器人导航和交互媒体等计算机视觉应用中,具有革命性推动运动预测领域发展的潜力。
论文三:
论文题目:Peri-midFormer: Periodic Pyramid Transformer for Time Series Analysis
论文作者:武强、姚戈昶、冯志玺、杨淑媛
作者单位:西安电子科技大学
论文概述:当前的时间序列分析方法在处理复杂的时变模式时存在挑战,尤其是面对多重周期性和隐含的周期关系时,如RNN和TCN,虽然能够捕捉时序依赖,但在长时间依赖和计算效率上存在局限;而基于Transformer的模型虽然能够通过注意力机制捕获时间点之间的依赖关系,但难以从分散的时间点中识别出可靠的周期性依赖。为了解决上述问题,作者提出了一种名为 Peri-midFormer 的模型,通过构建一个周期金字塔,将时间序列中的隐含多周期关系显式化。该金字塔从顶部的原始时间序列出发,逐层分解为具有不同周期长度的成分,明确表示各周期之间的包含和重叠关系。为了有效捕捉这些复杂的时变模式,作者引入了周期金字塔注意力机制,该机制不仅能捕获不同层级周期成分之间的依赖关系,还能捕捉同层级成分的相似性和相邻性。实验结果表明,Peri-midFormer 在五个主流时间序列分析任务(包括长、短期预测、分类、插补和异常检测)中表现优异,显著提升了模型在复杂时变模式下的处理能力,且解决了以往方法在周期关系建模方面的不足。
论文四:
论文题目:Rapid Plug-in Defenders
论文作者:吴凯、李宇健、娄坚、张肖瑜、王晗丁、刘静
作者单位:西安电子科技大学
论文概述:常见的对抗防御方法往往涉及大量对抗训练或利用从干净数据中学到的知识,需要大量额外计算资源和训练时间,还可能需要对已有模型进行更新。为了对已部署模型进行快速灵活的防御,本文关注快速插入防御( Rapid Plug-in Defender, RaPiD)问题,希望在不改变已部署模型本身的情况下快速防御对抗攻击。对此,作者提出了一种快速插件防御机制CeTaD,无需改变已有模型,在few-shot对抗性数据上有限微调通用预训练模型就可以得到相适应的可插入防御器。CeTaD有效利用了通用预训练模型的泛化能力和鲁棒性,在多种任务、攻击、目标模型的验证中都具有高效的适应能力。
论文五:
论文题目:Pretrained Optimization Model for Zero-Shot Black Box Optimization
论文作者:李小彬、吴凯、李宇健、张肖瑜、王晗丁、刘静
作者单位:西安电子科技大学
论文概述:作者提出了一种预训练优化模型(Pretrained Optimization Model,POM),用于零样本黑箱优化,旨在无需或仅需最少调整优化器的情况下优化未见过的目标任务。通过设计端到端可学习的优化模型,POM利用从多样化任务中获得的知识,通过直接应用或少量样本微调,提供高效的零样本优化解决方案。在BBOB基准测试及两个机器人控制任务上的评估表明,POM在高维任务中优于现有的黑箱优化方法。通过少量样本和预算微调,POM显著提升了性能,并在不同任务分布、维度、种群规模和优化范围上展现出强大的泛化能力。
ECCV 2024录用论文
论文一:
论文题目:Masked Angle-Aware Autoencoder for Remote Sensing Images
论文作者:李志浩、侯彪、马思腾、邬子同、郭贤朋、任博、焦李成
作者单位:西安电子科技大学
论文概述:为了克服遥感图像和自然图像之间固有的域差异,一些在遥感图像上的自监督表征学习研究取得了不错的进步,但它们都忽略了遥感目标本身的多样角度。本文提出Masked Angle-Aware Autoencoder (MA3E)来感知并学习角度信息。我们设计放缩中心裁剪(Scaling Center Crop)操作在每张图像上创建有着任意朝向的旋转crop来引入显式的角度变化。MA3E以该复合图像作为训练输入,在重建原图的同时复原角度,从而学习丰富的旋转不变性视觉表征。为避免直接重建旋转crop带来偏差,我们提出一个最优传输 (Optimal Transport, OT) loss为旋转crop的全部图像块自动匹配相似的原图patch用于重建。MA3E在三种下游任务的七个不同类型RS图像数据集上取得比现有方法更具竞争力的性能。
论文二:
论文题目:Preventing Catastrophic Overfitting in Fast Adversarial Training: A Bi-level Optimization Perspective
论文作者:王兆鑫、王晗丁、田聪、金耀初
作者单位:西安电子科技大学、西湖大学
论文概述:深度学习系统长期以来一直受到对抗扰动的困扰,在众多防御防御手段中,快速对抗训练是目前最为有效的一种方法,但是快速对抗训练非常容易使神经网络出现灾难性过拟合现象,每当出现这种现象,神经网络的防御能力会在极短的训练时间内消失,从而影响模型的鲁棒性。为了解决灾难性过拟合问题,作者从对抗训练双层优化的本质出发,从历史的扰动信息中生成新的扰动信息,采用一种自适应的机制对两类扰动进行整合后纳入对抗训练。结合提出的新的神经网络损失函数,可以有效的避免双层优化问题中内层问题崩溃,从而减轻了神经网络出现灾难性过拟合的风险。同时,实验表明,提出的方法还可以帮助其他方法跳出过拟合困境,恢复正常的训练。
据悉, NeurIPS 2024将于2024年12月9日至15日在加拿大温哥华举行。NeurIPS是人工智能与机器学习领域的三大国际会议(NeurIPS、ICML、ICLR)之一,CCF A类会议。今年NeurIPS投稿量再创新高,共有15671篇有效投稿,接收率25.8%。
ECCV是计算机视觉领域的三大顶级国际会议(CVPR、ICCV、ECCV)之一,今年将于9月29日至10月4日在意大利米兰召开。本次会议共收到来自全世界的8585篇有效投稿,录用率约27.9%。