论文精选

科研动态|2024实验室视觉大数据研究中心科研成果更新(2024.01-10)
2024-11-29

2024年1月至10月,大数据系统计算技术国家工程实验室视觉大数据研究中心已有多篇论文被CVPR、AAAI、ACM MM、IEEE TIFS、IEEE Transactions on Cybernetics、Pattern Recognition、International Journal of Intelligent Systems等顶级会议或期刊录用。

01

论文题目:FLIP-80M: 80 Million Visual-Linguistic Pairs for Facial Language-Image Pre-Training

论文作者:李煜东, 侯贤旭, 郑德智, 沈琳琳, 赵哲

会议名称:ACM MM 2024

论文归类:CCF-A

论文概述:为了推进推动人脸领域表示学习研究,本文提出了 FLIP-80M,它是一个大规模视觉语言数据集包含超过 8000 万张人脸图像与对应的文本描述。FLIP-80M 从通用领域的 50 亿条样本中筛选,并结合了 AI 生成内容 (AIGC) 方法进行质量管理和数据增强。数据创建过程涉及多种方法从视觉和语言角度筛选与人脸相关的样本,包括人脸检测、人脸文本分类、文本去噪和 AIGC 增强。因此,FLIP-80M 是迄今为止最大的人脸图文数据集。它展示了卓越的数据质量,并展示了提高面部表征模型性能的潜力。为了评估数据集的有效性,本文使用对比学习目标来训练 FLIP(人脸语言图像对比学习预训练)并评估其在各种下游任务中的表示能力。

02

论文题目:Generative Imperceptible Attack With Feature Learning Bias Reduction and Multi-Scale Variance Regularization

论文作者:解为成,牛增豪,林钦亮,宋思阳,沈琳琳

会议名称:IEEE TIFS

论文归类:CCF-A

论文概述:深度神经网络在各种计算机视觉任务中表现出的脆弱性,尤其是在分类、检测和分割任务中。传统的对抗攻击方法多基于梯度,例如FGSM和PGD等,这些方法尽管在白盒攻击中表现出较高的成功率,但其生成对抗样本时往往需要目标模型和标签信息,这对攻击的效率和适用性产生了限制。为了解决这一问题,生成对抗攻击逐渐成为一种有效的替代方案,但生成的扰动在攻击能力和不可察觉性之间的权衡仍然是一个重要挑战。因此,我们提出了一种新颖的生成攻击方法,通过减少特征学习中的偏差和多尺度方差正则化,增强攻击效果并提高扰动的不可察觉性。

03

论文题目:Multi-scale Dynamic and Hierarchical Relationship Modeling for Facial Action Units Recognition

论文作者:汪子晗,宋思阳,罗成,邓松鹤,解为成,沈琳琳

会议名称:CVPR 2024

论文归类:CCF-A

论文概述:人脸动作单元(AUs)以多层次的方式相互关联,它们不仅在空间和时间层面上相互关联,而且位于同一或相近面部区域的AUs比位于不同面部区域的AUs显示出更强的关系。然而现有方法没有充分建模AUs之间这种层次性的相互依赖关系,本文提出了一种全面建模AU的多尺度动态和不同AU之间层次性时空关系,以进行识别。具体而言,我们首先提出了一种新颖的多尺度时间差分网络和一个自适应加权模块,以在不同的空间尺度上明确捕捉帧间的面部动态,这种方法特别考虑了不同AUs激活的范围和幅度的异质性。接着,引入了一种两阶段策略,基于它们的空间分布(即局部和跨区域AU关系建模)层次化地模型化AUs之间的关系。在BP4D和DISFA上获得的实验结果表明,我们的方法在AU识别领域达到最先进的水平。

04

论文题目:cross-layer Contrastive Learning of Latent Semantics for Facial Expression Recognition

论文作者:解为成,彭智彬,沈琳琳,路文雅,张洋,宋思阳

会议名称:IEEE TIP 2024

论文归类:CCF-A

论文概述:卷积神经网络在面部表情识别任务上取得了显着的进步。然而,当前的训练仍然存在不同层之间学习强度不一致的问题,即与深层相比,浅层中的特征表示学习得不够充分。为此,这项工作提出了一个对比学习框架来对齐浅层和深层的特征语义,然后是一个注意力模块,用于以权重自适应的方式表示多尺度特征。所提出的算法具有三个主要优点。首先,通过跨层对比学习增强浅层特征的学习强度(定义为反向传播梯度的大小)。其次,在对比学习中探索和对齐浅层和深层特征中的潜在语义,从而可以在特征表示学习中考虑表情的细粒度特征。第三,通过将多层的多尺度特征与注意模块相结合以提高鲁棒性。提出的算法在三个野外数据集(RAF-DB、FERPlus、SFEW)上实现了最先进的性能,即 92.21%、89.50%、62.82%,在AffectNet上达到了次好的性能 65.29%。

05

论文题目:Boosting Adversarial Transferability across Model Genus by Deformation-Constrained Warping

论文作者:林钦亮,罗成,牛增豪,何锡麟,解为成,侯元波, 沈琳琳, 宋思阳

会议名称:AAAI 2024

论文归类:CCF-A

论文概述:提出了一种通用的约束性形变增强方式,用于提高在跨模型属场景下迁移黑盒攻击方法的迁移性。该方法利用形变增强对于各种信号(图像、视频、语音)的局部增强特点,有效模拟跨模型属模型的特征提取方式,并利用双层优化的方式对对抗样本进行自适应约束和在线增强,以获取更具有泛化性的攻击噪声。相比于以往的增强方法,我们的方法更好地提高了在跨模型属场景下的攻击性能。

06

论文题目:Towards High-resolution 3D Anomaly Detection via Group-Level Feature Contrastive Learning

论文作者:Hongze Zhu, Guoyang Xie, Chengbin Hou, Tao Dai, Can Gao, Jinbao Wang*, Linlin Shen.

会议名称:ACM MM 2024

论文归类:CCF-A

论文概述:高分辨率点云异常检测(AD)在精密加工和高端设备制造中至关重要。尽管已有多种3D-AD方法,但仍难以满足高分辨率点云AD的需求。为应对点云表征的各向异性和异常区域比例小的挑战,本文提出了一种新网络,称为Group3AD。该网络首先设计了簇间均匀性网络,将特征空间中不同组映射为多个簇,促进簇间更均匀的分布。其次,开发了簇内对齐网络,鼓励簇内组紧密分布。此外,提出基于几何信息的自适应组中心选择,以提高推理过程中潜在异常区域的像素密度。实验结果表明,Group3AD在Real3D-AD的对象级AUROC上比Reg3D-AD提高了5%,验证了其有效性。

07

论文题目:APSeg: Auto-Prompt Network for Cross-Domain Few-Shot Semantic Segmentation

论文作者:何伟钊,张洋,卓炜,沈琳琳,杨嘉琪,邓松鹤,孙亮

会议名称:CVPR

论文归类:CCF-A

论文概述:

小样本语义分割致力于仅利用少量标注样本实现对未见类别的准确分割。过往的方法通常假设训练数据和测试数据源自同一领域。然而,当将这些方法应用于未知领域时,其性能会显著下降。为此,我们提议利用先进的基础模型 SAM 来增强泛化能力。本文提出的 APSeg 旨在通过自动提示来指导 SAM 完成跨域小样本分割。具体而言,我们提出了一个双原型锚定转换模块,该模块可有效地将输入特征转换到一个与领域无关的空间中,从而减缓领域偏移的影响。此外,我们还引入了元提示生成器模块,用于自动生成提示嵌入,如此便不再需要人工视觉提示。我们构建了一个高效模型,该模型无需在目标域进行微调即可在实现高效的分割。

08

论文题目:Robust self-expression learning with adaptive noise perception

论文作者:Yangbo Wang,Jie Zhou*, Jianglin Lu, Jun Wan, Can Gao, Qingshui Lin

会议名称:Pattern Recognition

论文归类:中科院一区

论文概述:自表达学习方法通常会获得一个系数矩阵来度量样本对之间的相似性。然而,在自表达框架下直接使用原始数据来表示每个样本可能并不理想,因为在表示干净样本的过程中不可避免地会涉及噪声点。为了解决这个问题,这项工作提出了一种新的自表达模型,称为具有自适应噪声感知的鲁棒自表达学习(SENP)。SENP将每个样本分解为干净部分和噪声部分,并且具有较大自表达损失的样本可以被识别为噪声点。然后可以通过仅使用干净点来重建每个样本的干净部分来学习可靠的系数矩阵。通过同时检测每个样本的噪声部分和噪声点,并自适应地减轻它们的负面影响,生成的系数矩阵的表示能力得到提高。在基准数据集上进行的大量实验表明了 SENP 与几种最先进的方法相比的优越性。

09

论文题目:Fuzzy clustering guided by spectral rotation and scaling

论文作者:Jie Zhou, Ge Yue, Can Gao*, Xizhao Wang, Jianhua Dai, Witold Pedrycz

会议名称:IEEE Transactions on Cybernetics

论文归类:中科院一区

论文概述:通过不同空间信息互补,可提升数据的表示能力,更加适合下游学习任务求解。传统模糊 C 均值 (FCM) 聚类基于欧几里得几何角度表示样本,获得的隶属度不能充分捕捉数据结构。为了解决这个问题,我们提出了一种由谱旋转和缩放 (FCSR) 引导的新型模糊聚类模型。在 FCSR 中,谱嵌入和隶属度都被视为数据的新表示。它们可以从不同的角度相互补充,使模型能够学习数据的更多结构特性。求解隶属度问题的过程不仅继承了传统 FCM 的优点,还保留了基于相似度矩阵的谱分解所揭示的数据邻域结构。此外,为了提高 FCSR 的适应性和可扩展性,形成了 FCSR 的投影和核版本 (FCSR-P 和 FCSR-K)。FCSR-P 适用于高维场景,而 FCSRK可以提高数据之间的线性可分性。在各种基准数据集上的大量实验表明了所提方法的有效性。

10

论文题目:Typicality-aware adaptive similarity matrix for unsupervised learning

论文作者:

Jie Zhou, Can Gao*, Xizhao,Wang, Zhihui Lai, Jun Wan, Xiaodong Yue

会议名称:IEEE Transactions on Neural Networks and Learning Systems

论文归类:中科院一区

论文概述:以谱聚类和其变体为代表的基于图的聚类算法在机器学习邻域中得到了广泛的应用。它们常预先构造一个相似度矩阵或从概率的角度出发学习一个相似度矩阵。不合理的相似度矩阵被构造或学习会显著影响算法的性能。当前研究常聚焦于学习一个概率相似度矩阵,该行为可能会导致相似度度量具有相对性。为了克服该问题,本研究提出了典型性感知自适应图(TAG)概念,可以缓解噪声数据或异常值引起的负面影响,并且可以根据样本距离及谱嵌入距离更好地捕捉邻域结构。

11

论文题目:Weighted subspace fuzzy clustering with adaptive projection

论文作者:Jie Zhou, Chucheng Huang, Can Gao*, Yangbo Wang, Xinrui Shen, Xu Wu

会议名称:International Journal of Intelligent Systems

论文归类:中科院二区

论文概述:现有的子空间聚类方法通常包含两个阶段,获得数据的低维子空间,然后在子空间中进行聚类。因此,如何找到更好地表示原始数据的子空间成为一个研究挑战。然而,现有方法大多基于不同特征的贡献相等的前提,这对于真实场景可能并不理想,即重要特征的贡献可能会被大量冗余特征所淹没。本研究提出了一种具有局部性保留机制的加权子空间模糊聚类(WSFC)模型,该模型可以自适应地捕获不同特征的重要性,实现最优的低维子空间,并同时执行模糊聚类。由于每个特征都可以很好地量化其重要性,因此所提出的模型表现出模糊聚类的稀疏性和鲁棒性。大量实验结果表明,WSFC 可以根据数据分布和聚类任务为不同的特征分配适当的权重,并且在真实数据集上比其他聚类模型具有更优的性能。