论文题目: Multi-faceted Complementary Learning for Incomplete Multi-view Multi-label Classification
论文作者:肖鑫宇、漆舒汉(通讯作者)、彭佩玺、王强、邢超
作者单位:哈尔滨工业大学(深圳)、广东省安全智能新技术重点实验室、深圳至策科技有限公司、北京大学深圳研究院、鹏城实验室
论文简介:
由于数据采集的局限性和标注的可靠性,缺乏多视图数据会削弱对样本的全面理解,不完整的多视图多标签分类面临严峻挑战。为了解决这一问题,我们提出了一个多视图互补学习框架MC-IVLC,以充分挖掘视图之间的互补信息。具体来说,MC-IVLC提出对重构特征的崩溃进行补偿,并明确使用融合特征作为监督信号来指导缺失视图的完成。此外,MC-IVLC充分利用了实例层和语义层视图之间的互补关系。实例级对比学习旨在促进同一视图中相似特征的聚类,以增强跨视图特征的互补性。语义级对比学习利用伪标签来推断标签嵌入中的缺失标签。将伪标签语义信息与特征嵌入相结合,引导跨视图特征的语义关联。最后,MC-IVLC对视图标识进行了显式编码,并引入了视图-标签预测损失项,增强了视图信息的感知,并对单视图和多视图进行了对齐,进一步探索了视图和标签之间的内在联系。我们在五个广泛使用的数据集上进行实验。实验结果表明,与现有方法相比,MC-IVLC具有优异的性能。消融研究进一步验证了每个组成部分的有效性。

图1 MC-IVLC算法框架图

表1 基线方法实现对比效果
第一作者简介:肖鑫宇,哈尔滨工业大学(深圳)2023级博士研究生,研究方向为模态部分缺失下的多模态学习,多模态大模型具身智能。指导老师为漆舒汉教授。本论文受到广东省安全智能新技术重点实验室和国家自然科学基金面上项目的大力资助。对参与论文工作的各位合作老师表达由衷的感谢!
论文题目: ICAS: Detecting Training Data from Autoregressive Image Generative Models
论文作者:余泓垚、邱怡翔、杨易衡、方豪、庄天衢、洪家欣、陈斌(通讯作者)、吴昊、夏树涛
作者单位:哈尔滨工业大学(深圳)、清华大学深圳国际研究生院、深圳市深侬信息科技有限公司
论文简介:
机器学习模型训练过程中可能使用到隐私数据,可能危机隐私安全,因此,检测模型训练过程中是否存在未授权数据显得尤为重要。近年来,自回归图像生成技术成为了继扩散模型后的又一生成范式。本文首次提出了一种专为自回归图像生成模型设计的全新成员推理方法——ICAS。不同于以往针对大语言模型的检测方法,即估计在给定条件下生成token的概率,本文的方法转而考察生成token所对应条件的概率,称为“隐式分类”。然后,采用一种自适应得分聚合策略,将这些 token 级别的得分整合为最终得分,该策略对得分较低的 token 赋予更高权重。最终得分越高,表示该图像属于训练数据集的可能性越大。实验结果表明,本文提出的方法显著优于针对文本自回归模型的成员推理方法,并具有强大的可扩展性和鲁棒性。本文也探讨了针对自回归图像生成成员推理的线性缩放定律。

图1 成员推理算法ICAS示意图

图2 成员推理线性缩放定律

表1 与针对LLM的成员推理基线对比效果
第一作者简介:余泓垚,哈尔滨工业大学(深圳)2021级本科生,研究方向为人工智能安全。指导老师为陈斌副教授。本论文受到广东省安全智能新技术重点实验室和国家自然科学基金青年项目的大力资助。对参与论文工作的各位合作老师同学表达由衷的感谢!