您的当前位置：首页融合主题和视觉语义的图像自动标注方法

融合主题和视觉语义的图像自动标注方法

来源：爱站旅游

第２５卷第１１期２０１３年１１月

计算机辅助设计与图形学学报

ＪｏｕｒｎａｌｏｆＣｏｍｕｔｅｒ－ＡｉｄｅｄＤｅｓｉｎ　＆ＣｏｍｕｔｅｒＧｒａｈｉｃｓ　　　　ｐｇｐｐ

Ｖｏｌ．２５Ｎｏ．１１

Ｎｏｖ．２０１３

　融合主题和视觉语义的图像自动标注方法

赵　鹏１２，王文彬１２，朱伟伟１２

２）（安徽大学计算机科学与技术学院

，），），）

１）（安徽大学计算智能与信号处理教育部重点实验室

）３００３９　合肥　２

）３０６０１　合肥　２

（＿）ｚｈａｏｅｎａｄｈｕ．ｅｄｕ．ｃｎ＠ａｐｇ

摘要：为了减小图像语义检索过程中“语义鸿沟”的影响，提出融合主题和视觉语义的图像自动标注方法．该方法

模型拟合出主题集合；然后根据图像的高维视觉特征建立主先在训练集的文本空间中用概率潜在语义分析（ＰＬＳＡ），，题集合中每个主题的高斯混合模型（以准确描述其视觉语义信息，减小了“语义鸿沟”提高了图像自动标注ＧＭＭ）在Ｃ文中方法在标注的平均标准率和平均标全率上都表现良的准确性．ｏｒｅｌ数据集上进行了对比实验的结果表明，好，证明了其有效性．

关键词：高斯混合模型；概率潜在语义分析；图像自动标注；语义鸿沟；特征聚类中图法分类号：ＴＰ３９１．４１

ＡｕｔｏｍａｔｉｃＩｍａｅＡｎｎｏｔａｔｉｏｎｂＣｏｍｂｉｎｉｎＡｓｅｃｔｓａｎｄＶｉｓｕａｌＳｅｍａｎｔｉｃｓ　　　　　　ｇｙｇｐ　　

１，２）１，２）１，２）

，ＺｈａｏＰｅｎａｎＷｅｎｂｉｎａｎｄＺｈｕ　Ｗｅｉｗｅｉ　　　ｇ，Ｗｇ　

１）（２）（

）ＫｅＬａｂｏｒａｔｏｒｏＩｎｔｅｌｌｉｅｎｔＣｏｍｕｔｉｎａｎｄ　ＳｉｎａｌＰｒｏｃｅｓｓｉｎｏＭｉｎｉｓｔｒｏＥｄｕｃａｔｉｏｎ，ＡｎｈｕｉＵｎｉｖｅｒｓｉｔｅｅｉ３００３９　　　　２ｙ　ｙｆｇｐｇｇｇｆ　ｙｆ　ｙ，Ｈｆ　　　　　

）ＳｃｈｏｏｌｏＣｏｍｕｔｅｒＳｃｉｅｎｃｅａｎｄ　ＴｅｃｈｎｏｌｏＡｎｈｕｉＵｎｉｖｅｒｓｉｔｅｅｉ３０６０１　　　　　２ｆ　ｐｇｙ，ｙ，Ｈｆ：Ｔ，ｔＡｂｓｔｒａｃｔｏｒｅｄｕｃｅｔｈｅｉｎｆｌｕｅｎｃｅｏｆｔｈｅｓｅｍａｎｔｉｃｉｎｉｍａｅｒｅｔｒｉｅｖａｌｈｉｓａｎａａｅｒｒｅｓｅｎｔｓ　　　　　　　　　　　　ｇｇｐｐｐｐ　ａｕｔｏｍａｔｉｃｉｍａｅａｎｎｏｔａｔｉｏｎｍｅｔｈｏｄｃｏｍｂｉｎｉｎａｓｅｃｔｓａｎｄｖｉｓｕａｌｓｅｍａｎｔｉｃｓ．Ｔｈｉｓｍｅｔｈｏｄｃａｔｕｒｅｓｔｈｅ　　　　　　　　　　ｇｇｐｐ　ｒｏｂａｂｉｌｉｓｔｉｃｌａｔｅｎｔａｓｅｃｔｓｆｒｏｍｔｈｅｔｅｘｔｕａｌｓａｃｅｏｆｔｈｅｔｒａｉｎｉｎｉｍａｅｓｅｔｕｓｉｎｌａｔｅｎｔｓｅｍａｎｔｉｃ　　　　　　　　　　　　ｐｐｐｇｇｇ　　

ａｎａｌｓｉｓｍｏｄｅｌｆｉｒｓｔｌ．Ａｎｄｔｈｅｎ，ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌｏｆｔｈｅｅａｃｈｌａｔｅｎｔａｓｅｃｔｉｓｃｏｎｓｔｒｕｃｔｅｄ　　　　　　　　　　　　ｙｙｐ，ａｃｃｏｒｄｉｎｔｏｔｈｅｈｉｈｄｉｍｅｎｓｉｏｎａｌｉｍａｅｖｉｓｕａｌｆｅａｔｕｒｅｄｅｓｃｒｉｂｉｎｔｈｅｖｉｓｕａｌｓｅｍａｎｔｉｃｃｏｎｔｅｎｔｏｆｅａｃｈ　　　　　　　　　　　ｇｇｇｇ　　

ｍｅｔｈｏｄｒｅｄｕｃｅｓｔｈｅｓｅｍａｎｔｉｃａｎｄｉｍｒｏｖｅｓｔｈｅａｃｃｕｒａｃｏｆｔｈｅａｕｔｏｍａｔｉｃｉｍａｅａｓｅｃｔ．Ｔｈｉｓａ　　　　　　　　　　　ｐｙｇｐｇｐ，　ｍｅｔｈｏｄｉｓｃｏｍａｒｅｄｗｉｔｈｓｅｖｅｒａｌｏｔｈｅｒｓｔａｔｅｏｆｔｈｅａｒｔｍｅｔｈｏｄｓｏｎｔｈｅｓｔａｎｄａｒｄＣｏｒｅｌａｎｎｏｔａｔｉｏｎ．Ｔｈｉｓ　　　　　　　－－－　　　　　ｐｄａｔａｓｅｔ．Ｔｈｅｒｅｓｕｌｔｓｏｆｅｘｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔｔｈｉｓｍｅｔｈｏｄａｃｈｉｅｖｅｓｂｅｔｔｅｒａｖｅｒａｅｒｅｃａｌｌａｎｄｂｅｔｔｅｒ　　　　　　　　　　　　　ｐｇｒｅｃｉｓｉｏｎ．Ｔｈｅｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｔｈｉｓｍｅｔｈｏｄｈａｓｂｅｅｎｒｏｖｅｄ．ａｖｅｒａｅ　　　　　　　　ｐｐｇ

：Ｇ；ｐ；ａｒｏｂａｂｉｌｉｓｔｉｃＫｅｗｏｒｄｓａｕｓｓｉａｎｉｘｔｕｒｅｏｄｅｌａｔｅｎｔｅｍａｎｔｉｃｎａｌｓｉｓｕｔｏｍａｔｉｃｍａｅ　ｍ　ｍ　ｌ　ｓ　ａ　ｉｙｇｙ　

；ａｎｎｏｔａｔｉｏｎｓｅｍａｎｔｉｃａｆｅａｔｕｒｅｃｌｕｓｔｅｒｉｎ　　ｇｇｐ；语义鸿沟”的存在，低层视觉特征相似的　　由于“

图像可能在高层语义不相关，导致基于内容的图像检索面临着巨大的挑战．图像自动标注是利用易于理解的语义关键词或标签来表示图像的语义内容，

以减少语义鸿沟的制约，并且将更为成熟、高效的文本检索方法引入到图像检索中，把复杂的图像检索转换为文本检索．近年来，图像自动标注吸引了越来

［］１］

：越多的国内外研究者［Ｍｏｒｉ等２提出了在图像和

）；；收稿日期：修回日期：基金项目：国家自然科学基金（安徽省教育厅重点项目（安徽－－－－２０１２０９２４；２０１３０１１０．６１２０１４１３ＫＪ２００９Ａ００１Ｚ））；），省科技厅重大科技专项（安徽大学青年骨干教师培养基金（赵　鹏（女，博士，副教授，硕士生导师，主要研０８０１０２０１００２３３０１００１７．１９７６—），，究方向为智能信息处理；王文彬（男，硕士，主要研究方向为图像语义自动标注；朱伟伟（男，硕士研究生，主要研究方向为图１９８８—）１９８７—）像语义检索．

１７１０

计算机辅助设计与图形学学报　　　　　第２５卷

单词之间建立关联的方法，引起研究者们对图像标

［］注领域的关注．Ｄｕｕｌｕ等３提出了机器翻译模型ｙｇ

１　ＰＬＳＡ模型

［０］

假设在一个特定文档ｄＰＬＳＡ模型１ｉ＝１，ｉ（

（，ＴＭ），它将图像自动标注转化ｔｒａｎｓｌａｔｉｏｎｍｏｄｅｌ　）为区域视觉词元（向高层语义关键词翻译的过ｂｌｏｂ建立了ｂ为了学程，ｌｏｂ和关键词的一一对应关系．习文本关键词与图像区域之间的联合概率分布，Ｊｅｏｎ

］４

等［提出了跨媒体相关模型（ｃｒｏｓｓｅｄｉａｒｅｌｅｖａｎｃｅ－ｍ　

…，…，下生成每个元素ｗｊ（的过程２，Ｎ）２，Ｍ）ｊ＝１，

存在一个隐含变量ｚ；对于给定潜在主题ｚ假中，ｋ，设每个元素ｗｊ独立于其所属文档ｄ对应的联合ｉ，概率可表示为ｐ（ｄｚｗｊ）＝ｐ（ｄｚｄｐ（ｉ，ｋ，ｉ）ｋ｜ｉ）

；其中ｐ（和ｐ（可以通过ＥＭ算ｗｊｚｗｚ）ｚｄ）｜｜｜ｐ（ｋ）

１０］

法［估计得到．ＥＭ算法通过最大化对数似然函数

，，同样采用ｂｍｏｄｅｌＣＭＲＭ）ｌｏｂ来表征图像的语义内

容；但是ｂｌｏｂ是图像区域特征聚类离散化后得到的会造成视觉特征信息的丢失，影响标注结果．码字，

［］Ｌａｖｒｅｎｋｏ等５提出了连续空间相关模型（ｃｏｎｔｉｎｕｏｕｓ－ＮＭｉｊｉｊ，，ｓａｃｅｒｅｌｅｖａｎｃｅｍｏｄｅｌＣＲＭ）ＣＲＭ对图像分割的效　　ｐ

果比较敏感，并且假设任何图像的标注词都服从多因此其标注性能只是在某些数据集上表项式分布，

［６］现出一定的优越性．Ｆｅｎｅｒｎｏｕｌｌｉｇ等提出了多重Ｂ

Ｌ＝

ｉ＝１ｊ＝１

其中ｄ，ｗ）ｌｄ，ｗ）推导得到，ｇｐ（　∑∑ｎ（

表示在文档ｄｎ（ｄｗｊ）ｉ，ｉ中元素ｗｊ的个数．

２　ＧＭＭ

…，，给定样本ｘ来自第ｊ个分量的类ｉ＝１，ｎ）ｉ（条件概率密度表示为

１ｐ（２π）｜Σ｜ｊ槡，相关模型（ｍｕｌｔｉｌｅＢｅｍｏｕｌｌｉｒｅｌｅｖａｎｃｅｍｏｄｅｌ－　　ｐ

，采用多ＢＭＢＲＭ）ｅｒｎｏｕｌｌｉ分布代替ＣＲＭ中的多使用固定网格划分图像区域；但这些模项式分布，

型没有充分地利用文本空间的语义信息．受到文本空间中主题模型的启发，基于概率潜在语义分析（，，ｒｏｂａｂｉｌｉｓｔｉｃｌａｔｅｎｔｓｅｍａｎｔｉｃａｎａｌｓｉｓＰＬＳＡ）ＰＬＳＡ　　　－ｐｙ

［］［］

ＷＯＲＤＳ模型７和ＰＬＳＡ－ＦＵＳＩＯＮ模型８将图像

ｘ＝Σｉ；ｊ（ｊ，ｊ）μψｘ　ｅｐ－

１（Ｔ－１

ｘｘΣｉ－ｉ－ｊ）ｊ（ｊ）；μμ２

其中ｐ为样本ｘΣｉ的空间维数，ｊ为均值向量，ｊ为μ方差矩阵．

…，…，模型参数可以表示为Θ＝（ππ１，１，ｇ，μ…，，…，若随机样本ｘｘΣΣ１，１，ｎ服从分布：ｇ，ｇ）μｇ［］视作一系列潜在语义主题的混合，并针对每一语义主题生成图像视觉特征和文本关键词之间的概率

［］

但它们仍然是利用离散的视觉特征．分布，Ｓｈｉ等９

，采用基于高斯混合模型（Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ　　的图像自动标注方法，建立了每个关键词的ＧＭＭ）

并考虑了待标注图像的每个区域之间的联ＧＭＭ，系，用这种关系来修正标注模型，在一定程度上提但该方法存在２个缺陷，一高了图像标注的性能．

因为不同的是它对具体的关键词训练语义模型，

关键词可能表达相同的语义，所以没有利用关键二是在ｂ该方法词之间语义相关性；ｌｏｂ聚类的时，选择的是将聚类集合中样本数最多的类别作为训由于背景区域的干扰，该类别集合训练出练集合，

来的ＧＭＭ不一定能正确地表征对应关键词的语义信息．

针对以上问题，本文融合主题和视觉语义，提出简称为基于ＰＬＳＡ和ＧＭＭ的图像自动标注方法（，利用ＰＰＬＳＡ－ＧＭＭ）ＬＳＡ－ＧＭＭ对图像的低层视觉特征、文本信息、上下文信息以及图像与文本之间更为深刻地刻画了文的关联信息进行建模和集成，

本空间的隐含主题语义和低层视觉语义信息．

，则这些样本对应的模型ｘ）＝∑ｘ；πΣｐ（ｊｊ（ｊ，ｊ）μψｊ＝１

即为ＧＭＭ，其中πｊ个单高斯分量的权值，ｊ表示第

ｇ且满足条件

ｊ＝１

∑πｊ＝１；ｇ是单高斯分量的总数目，

每个单高斯分量反映样本向量空间中的一个聚类．最大化ＧＭＭ的参数Θ可以使用ＥＭ算法来估计，

ｎｇｉｊ对数似然函数ξ＝

ｉ＝１ｊ＝１

∑∑ｐ［ｌｎｌｎｘπｉ；ｊ＋ｊ（ｊ，μψ］；其中ｐｉ个样本ｘΣｉｉ属于第ｊ个单高斯ｊ）ｊ表示第

分量的概率．

得到模型参数后，对于未知样本ｘ可以通过ｌ，

ｇ这些模型参数来获得它的分布ｐ（ｘｘ＝∑πｌ）ｌ；ｊｊ（ψｊ＝１

．Σｊ，ｊ）μ３　基于ＰＬＳＡ和ＧＭＭ的图像自动标注方法

基于Ｐ首ＬＳＡ和ＧＭＭ的图像自动标注方法，

第１１期赵　鹏，等：融合主题和视觉语义的图像自动标注方法

１７１１

先使用ＰＬＳＡ对训练图像集的文本数据进行建模，然后根据图像的低层视觉特征进行ＧＭＭ的建模，学习视觉特征和文本关键词之间的关系．对于一个利用Ｐ给定的未标注图像，ＬＳＡ－ＧＭＭ对其进行自动标注．３．１　数据建模

数据建模主要分为两步，包括文本标签建模和低层视觉语义建模，具体描述如下：

Ｓｔｅ１．训练集图像的文本标签是由给定关键词词典中ｐ一些无序的关键词组成的．假设文本词典中的关键词总个数则图像ｄ为Ｎｗ，ｉ的文本标签可以表示成一个Ｎｗ维的向量，，…，）；其中ｎ（ｗ（ｄ＝（ｎ（ｄｗ１）ｎ（ｄｗ２）ｎ（ｄｗＮｗ）ｄｉ）ｉ，ｉ，ｉ，ｉ，表示图像ｄｗｉ的文本标签包含关键词ｗｊ）ｊ的个数．

Ｓｔｅ２．训练图像集的低层视觉语义是由图像的局部低ｐ首先进行图像分割并提取特征，形成一层视觉特征表示的．

，…，，…，系列ｂ表示为Ｒ＝｛其中Ｒ为ｌｏｂＲＲｉ＝１，２，１，ｉ（ｐ）ｐ｝一个低层视觉特征向量．

，这样为每一个ｚＲｚ?ｋ都学习建立其对应的ＧＭＭｐ（ｋ）…，其中参数集Θ＝｛ｋ＝１，２，Ｋ｝．Θ｜ｋ３．３　图像自动标注

Ｓｔｅ１．对于给定的一幅未标注图像进行低层视觉语义ｐ…，建模，ｄＲＲｍ｝．ｎｅｗ＝｛１，

并利用参数Θ＝Ｓｔｅ２．Ｒｐｉ作为每一个ＧＭＭ的输入，｛（…，得到的ＲＲｚｉ＝１，２，ｍ；ｋ＝１，Θ?ｋ｝ｉ的概率分布ｐ（ｉｋ）…，２，Ｋ）．

…，Ｓｔｅ３．计算图像ｄｋ＝１，２，Ｋ）ｐｎｅｗ标注隐含主题ｚｋ（的概率

ｚｄ＝?ｋｎｅｗ）ｐ（

Ｒｉｄｎｅｗ

ｚ?Ｒ）Ｒ?ｄｐ（∑ｐ（

ｋｉｉｎｅｗ

）

（）１

其中ｐ（是测试图像中第ｉ个ｂＲｄｌｏｂ的面积与图像的?ｉｎｅｗ）总面积之比

Ｒｚｚ?ｉｋ）ｋ）ｐ（ｐ（

ｚＲ＝．?ｋｉ）ｐ（

Ｒｉ）ｐ（Ｋ）代入ｐ（Ｓｔｅ４．将式（１ｗ｜ｄ＝ｐｎｅｗ）

ｋ＝１

ｗ｜ｚ）ｚ｜ｐ（∑ｐ（

ｋｋ３．２　模型学习和建立

模型的学习和建立分为２个阶段，即在文本空间学习语义主题和学习每一个语义主题的ＧＭＭ，

具体描述如下：

输入：训练集合中的每一幅图像ｄｉ的文本标签

，计算关键词词典中各关键词的后验概率，选取具有最ｄｎｅｗ）大后验概率的若干个关键词标注图像ｄｎｅｗ．

４　实　　验

４．１　实验数据与实验设计

为了检验Ｐ本ＬＳＡ－ＧＭＭ方法的性能和精度，

［］

并与其文使用标准图像库Ｃｏｒｅｌ５ｋ作为数据集３，

ｗ（ｄｉ）

即ＥＭ算法，得到参Ｓｔｅ１．通过ＰＬＳＡ参数估计算法，ｐ数ｐ（和ｐ（ｗｚ）ｚｄ）．??

这样就分析得到隐含主题ｚ下关键词的分布和训练图像集合中隐含主题ｚ的分布．关键词之间的关联关系通过隐含主题表达出来，共同表达了一个更为概括性的语义概念．

即对于每一个隐Ｓｔｅ２．学习每一个语义主题的ＧＭＭ，ｐ含主题ｚｋ：

）选取ｐ（值大于一定阈值α的Ｎ１个ｗ，其中Ｎ１ｉｗｚ?ｋ）表示和隐含主题ｚｋ相关关键词的个数．

）选取ｐ（值大于一定阈值β的Ｎ２个ｄ，其中Ｎ２ｉｉｚｄ）?ｋ表示和隐含主题ｚ这些图像的ｂｌｏｂ都和ｋ相关图像的个数，把这些图像的所有ｂ隐含主题ｚｌｏｂ组成ｋ有语义对应关系．的样本进行自适应ｋ最终在所有的聚类结果中选－均值聚类，取样本最多的前δ（个聚类．δ＜聚类类数ｋ）

由于每幅训练图像ｄｉ都包含关键词ｗ的视觉语义区域，因此在训练图像集合中，该类区域的分布相对集中，基本上能够聚到同一个类别中．但是训练集中的语义标注是基于整个图像，而不是基于具体的区域对象，因此无法确切判断哪一类中的样本对应哪个具体的关键词，所以选取δ个样本数目最多的聚类来拟合一个更为抽象的隐含主题所表达的语义，同时也部分地消除图像背景ｂｌｏｂ带来的干扰信息．

）将ｉ）中获得的聚类中的所有样本作为输入，训练一ｉｉｉｉ个ＧＭＭ来表征隐含主题ｚ利用ＥＭｋ所代表的语义概念．，，…，算法得到ＧＭＭ的一组参数Θ＝１２．πΣ｜ｋ＝｛ｋｋｋｊｇ｝ｊ，ｊ，ｊμ他主流的图像自动标注方法进行了对比实验．该数据集包含５涉及５每个语０００幅图像，０个语义类型，　义类型包含１每个图像标注有１～５个关００幅图像，

［１］

，键词．采用Ｎ每幅图像被ｏｍａｌｉｚｅｄＣｕｔ分割算法１　

分割为１～１整个数据集上共被分割为０个区域，对于每个区域，使用３４２３７９个区域；６维特征描述，　

包括有颜色、形状、位置等信息．整个数据集被分为３部分：４０００幅图像作为训练集，５００幅作为验证　集，验证集用于确定实验参数５００幅作为测试集．（，例如Ｐ参数确定之后，将其与ＬＳＡ结束条件）

形成４４０００幅图像的训练集合并，５００幅图像的训　　练集．

，，，本文采用标全率（标准率（ｒｅｃａｌｌＲ）ｒｅｃｉｓｉｏｎｐ，，，平均标全率（平均标准Ｒ）ａｖｅｒａｅｏｆｒｅｃａｌｌＡＲ）　　ｇ，率（和Ｆ值来衡量实验ａｖｅｒａｅｏｆｒｅｃｉｓｉｏｎＡＰ）　　ｐｇ效果．

…，，定义１．对于标注词ｗｉ＝１，Ｎｗ）Ａ是测ｉ（

试集中通过标注算法被标注为ｗｉ的图像个数，Ｂ是测试集中被标注为ｗｉ的正确图像个数；Ｃ是测试集中原先被标注为ｗｉ的图像个数．

１７１２

计算机辅助设计与图形学学报　　　　　第２５卷

）标全率定义为Ｒ１ＢＣ；?ｉ＝

）标准率定义为Ｐ２ＢＡ；?ｉ＝

Ｎｗ几个实例结果．选取后验概率最大的前５个关键词作为标注结果；表中的词汇顺序是按概率大小排序的，真实类标是测试图像标准的人工标注结果．表１显示，即使标注ＰＬＳＡ－ＧＭＭ方法的标注效果良好，中出现了一些在真实类标中未出现的关键词，但它们和真实类标里出现的关键词具有很大的语义相关”，性．例如，第２幅图像中的标注“第４幅图像中ｉｃｅ；的“而ＧＭＭ则引入了一些错误的不相关语ｓｎｏｗ””，义概念，例如第１幅图像中的标注“第４幅ｗａｔｅｒ”图像中的“分析其原因，是由于Ｐｈｉｌｌｓ．ＬＳＡ－ＧＭＭ方法针对主题建立ＧＭＭ，其中主题将若干语义相关的关键词关联起来，因此在ＰＬＳＡ－ＧＭＭ的标注结果中会多出一些具有很大语义相关性的关键词．在ＧＭＭ中，将ｂｌｏｂ聚类后选取样本数最多的类别作为训练集合，但有时会受到背景区域的干扰，使得因而样本数最多的类别无法真实地反映视觉语义，在标注结果中出现一些不相关的语义概念．而在将ｂＰＬＳＡ－ＧＭＭ中，ｌｏｂ聚类后选取样本数较多的

能够在一定程度上消除若干个聚类作为训练集合，背景干扰，更好地表达视觉语义．

）平均标全率定义为ＡＲ＝３

）平均标准率定义为Ａ４Ｐ＝ＡＲ×ＡＰ）５Ｆ＝２．

ＡＲ＋ＡＰ

ｉ＝１Ｎｗ∑ＲｉＮｗ；

ｉｉ＝１

∑ＰＮｗ；

由于实验中隐含主题个数Ｋ和聚类类别数Ｃ要通过实验确定，所以首先分别对不同的Ｋ值和Ｃ值进行实验；然后在同样的测试集上，比较不同图像其中包自动标注方法的平均标全率和平均标准率，

［］［］４］

，括ＣＭＲＭ［ＰＬＳＡ－ＷＯＲＤＳ７，ＧＭＭ９和本文

实验比较各种方法中标全率大ＰＬＳＡ－ＧＭＭ方法．

于零的关键词个数，并在２个关键词子集上对各个模型进行实验比较：４９个出现频率最高的关键词组以及在测试集中出现的２成的集合，６０个关键词组成的集合．

４．２　实验结果与分析

表１所示为ＧＭＭ和ＰＬＳＡ－ＧＭＭ自动标注的

表１　ＧＭＭ和ＰＬＳＡ－ＧＭＭ的标注结果实例对比

测试图像

类标及模型

真实类标

，ｌ，ａｒｄｅｎ，ｆｌｏｗｅｒｓａｎｄｓｃａｅｇｐ

，，ｂｅａｒｓｎｏｗ，ｔｕｎｄｒａｏｌａｒ　ｐ

ｔｒｅｅｓ

，，ｂｅａｃｈ，ｅｏｌｅｓａｎｄｗａｔｅｒ　ｐｐ，，，ｆｒｏｓｔｉｃｅｓｋｔｒｅｅｙ

ＧＭＭ

，，，，ｐ，ｂ，，ｂ，，，ｆｌｏｗｅｒｓｔｒｅｅｓｗａｔｅｒａｒｄｅｎｅａｒｓｎｏｗ，ｐｌａｎｅｗａｔｅｒｅｏｌｅｓａｎｄｏｌａｒｅａｃｈ，ｇｐｐ

，，，，ｆｒｏｓｔｉｃｅｎｅｓｔｓｋｈｉｌｌｓｙ

ａｌｍｔｕｎｄｒａｍａｒｅｐ

，，，ｂ，ｓ，ｉ，ｂ，，，ｅａｒｅａｃｈ，ｏｌａｒｅｏｌｅａｒｄｅｎ，ｒｏｓｅｆｌｏｗｅｒｓｔｒｅｅｓｎｏｗ，ｐｃｅｗａｔｅｒｔｒｅｅｐｐｇ

，，，，ｉｃｅｆｒｏｓｔｆｒｏｚｅｎｔｒｅｅｓｎｏｗ

ｌｉｃｈｅｎｔｕｎｄｒａｂｏａｔｓ

ＰＬＳＡ－ＧＭＭ

０～１８０，　　图１所示为隐含主题个数Ｋ取值从６

步长为２聚类类别数Ｃ取值从６～１步长为１，０，０，在不同参数组合下的平均标准率、平均标全率和

从表２～４中可以看出，ＰＬＳＡ－ＧＭＭ在标全率大于零的关键词个数、２种关键词集合上的平均标说明了Ｐ全率和平均标准率上都有所提升，ＬＳＡ－文本信息进ＧＭＭ能够地对图像的低层视觉特征、

能够较好地处理离散特征和连续特行建模和集成，

征，更为深入地描述图像的潜在语义特征，并能够在一定程度上消除背景特征引起的噪声．

表２　标全率大于零的关键词个数比较

ＣＭＲＭ　６６　

ＰＬＳＡ－ＷＯＲＤＳ　

８５　

ＧＭＭ　９４　

ＰＬＳＡ－ＧＭＭ

９８

Ｆ值．

实验显示，标注效果受Ｋ和Ｃ取值的综合影当取Ｋ＝１平均标全率最高；当响，６０，Ｃ＝１０时，

聚类类别数为６时，平均标准率和Ｆ测度Ｋ＝１４０，值都达到最大．

ＰＬＳＡ－ＧＭＭ方法与其他几种方法的自动标注性能如表２～４所示，其中Ｐ取ＬＳＡ－ＧＭＭ方法中，

Ｋ＝１６０，Ｃ＝１０时．

第１１期赵　鹏，等：融合主题和视觉语义的图像自动标注方法

１７１３

图１　不同参数下类别数Ｃ对标注效果的影响图的效果比较

表３　４９个出现频率最高的关键词标注性能比较

性能平均标全率平均标准率

模型

ＣＭＲＭ　ＰＬＳＡ－ＷＯＲＤＳＬＳＡ－ＧＭＭ　ＧＭＭ　Ｐ０．４８　０．４０　

０．３９　０．５１　

０．６４　０．４２　

０．６９０．５０

表４　２６０个在测试集合中出现的关键词标注性能比较

性能平均标全率平均标准率

模型

ＣＭＲＭ　ＰＬＳＡ－ＷＯＲＤＳＬＳＡ－ＧＭＭ　ＧＭＭ　Ｐ０．０９　０．１０　

０．０９　０．１２　

０．１７　０．１２　

０．１９０．１５

１７１４

计算机辅助设计与图形学学报　　　　　第２５卷

［］Ｊ，Ｌ４ｅｏｎａｖｒｅｎｋｏａｎｍａｔｈａｕｔｏｍａｔｉｃｍａｅ　Ｊ　Ｖ，Ｍ　Ｒ．Ａ　ｉｇ

５　结论和展望

本文通过ＰＬＳＡ模型从文本空间拟合图像的隐含语义主题，对低层视觉特征ｂｌｏｂ进行聚类形成视觉语义，利用ＧＭＭ建立隐含主题与低层视觉语义之间的关联，并通过实验验证了该方法的有效性．

然而本文方法在整个测试集中出现的关键词集合上仍然存在平均标全率和平均标准率不高的缺陷，如何构造能够更好地描述图像特征的描述子，以及如何建立更为高效的学习建模方法是下一步工作的方向．

）：参考文献（Ｒｅｆｅｒｅｎｃｅｓ

［］Ｌ，Ｓ，Ｌ，ｅ１ｉＺｈｉｘｉｎｈｉＺｈｉｉｎｉＺｈｉｉｎｔａｌ．Ａｓｕｒｖｅｏｆ　　　　　ｐｇｑｇｙ　

］ａｉｎｎｍａｅｅｔｒｉｅｖａｌ［Ｊ．Ｊｏｕｒｎａｌｆｓｅｍａｎｔｉｃ　ｍ　ｉ　ｒ　ｏｐｐｇｇ　ｉ，（）：Ｃｏｍｕｔｅｒ－ＡｉｄｅｄＤｅｓｉｎ　＆ＣｏｍｕｔｅｒＧｒａｈｉｃｓ２００８，２０８　　ｐｇｐｐ）１０８５１０９６（ｉｎＣｈｉｎｅｓｅ－　

（李志欣，施智平，李志清，等．图像检索中语义映射方法综］：述［Ｊ．计算机辅助设计与图形学学报，２００８，２０（８）１０８５－）１０９６

［］Ｍ２ｏｒｉａｋａｈａｓｈｉｋａｍａｅｔｏ－ｗｏｒｄ　Ｙ，Ｔ　Ｈ，Ｏ　Ｒ．Ｉ－ｇ

ｔｒａｎｓｆｏｒｍａｔｉｏｎｂａｓｅｄｏｎｄｉｖｉｄｉｎａｎｄｖｅｃｔｏｒｉｍａｅｓｕａｎｔｉｚｉｎ　　　　　ｇｇｑｇ　　］：ｗｏｒｄｓ［ＯＬ］．［２０１２９２４．ｈｔｔｃｉｔｅｓｅｅｒｘ．ｉｓｔ．ｓｕ．ｅｄｕｗｉｔｈ　－－???ｐｐ？ｖｉｅｗｄｏｃｄｏｗｎｌｏａｄｄｏｉ＝１０．１．１．３１．１７０４＆ｒｅ＝ｒｅ１＆ｔｅ＝?ｐｐｙｐｄｆｐ

［］Ｄ３ｕｕｌｕＰ，ＢａｒｎａｒｄＫ，ｄｅＦｒｅｉｔａｓＪＦＧ，ｅｔａｌ．Ｏｂｅｃｔ　　　　　　　ｙｇｊ

：ａｓｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎｌｅａｒｎｉｎａｌｅｘｉｃｏｎｆｏｒａｒｅｃｏｎｉｔｉｏｎ　　　　　　ｇｇ　ｆｉｘｅｄｉｍａｅｖｏｃａｂｕｌａｒＣ］Ｐｒｏｃｅｅｄｉｎｓｏｆｔｈｅ７ｔｈＥｕｒｏｅａｎ　　??　　　　ｇｙ［ｇｐ：Ｓ，ＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｕｔｅｒＶｉｓｉｏｎ．ＢｅｒｌｉｎｒｉｎｅｒＰｒｅｓｓ　　　　ｐｐｇ２００２：９７１１２－ａｎｎｏｔａｔｉｏｎａｎｄｒｅｔｒｉｅｖａｌｕｓｉｎｃｒｏｓｓ－ｍｅｄｉａｒｅｌｅｖａｎｃｅｍｏｄｅｌｓ　　　　　ｇ　［Ｃ］Ｐｒｏｃｅｅｄｉｎｓｏｆｔｈｅ２６ｔｈＡｎｎｕａｌＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭ??　　　　　　ｇＳＩＧＩＲｏｎｆｅｒｅｎｃｅｎｅｓｅａｒｃｈｎｄｅｖｅｌｏｍｅｎｔｎ　Ｃ　ｏ　Ｒ　ａ　Ｄ　ｉｐ，ＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ．Ｎｅｗ　Ｙｏｒｋ：ＡＣＭ　Ｐｒｅｓｓ２００３：１１９　－１２６

［］Ｌ５ａｖｒｅｎｋｏＶ，ＭａｎｍａｔｈａＲ，ＪｅｏｎＪ．Ａ　ｍｏｄｅｌｆｏｒｌｅａｒｎｉｎｔｈｅ　　　　　ｇ　

］ｓｅｍａｎｔｉｃｓｏｆｉｃｔｕｒｅｓ［Ｊ．ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎ　　　　　ｐ：Ｍ，ＰｒｏｃｅｓｓｉｎＳｓｔｅｍｓ．ＣａｍｂｒｉｄｅＩＴＰｒｅｓｓ２００４，１６：５５３　－ｇｙｇ　５６０

［］Ｆ６ｅｎＳＬ，ＭａｎｍａｔｈａＲ，ＬａｖｒｅｎｋｏＶ．ＭｕｌｔｉｌｅＢｅｒｎｏｕｌｌｉ　　　　ｇｐ　

ｒｅｌｅｖａｎｃｅｍｏｄｅｌｓｆｏｒｉｍａｅａｎｄｖｉｄｅｏａｎｎｏｔａｔｉｏｎ［Ｃ］?　　　　　　?ｇＰｒｏｃｅｅｄｉｎｓｏｆｔｈｅＩＥＥＥＣｏｍｕｔｅｒＳｏｃｉｅｔＣｏｎｆｅｒｅｎｃｅｏｎ　　　　　　ｇｐｙ　：ＣｏｍｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｎｉｔｉｏｎ．ＬｏｓＡｌａｍｉｔｏｓ　　　　　ｐｇ，ＩＥＥＥＣｏｍｕｔｅｒＳｏｃｉｅｔＰｒｅｓｓ２００４，２：１００２１００９　　－ｐｙ　

［］Ｍ７ｏｎａＦ，ＧａｔｉｃａＰｅｒｅｚＤ．Ｍｏｄｅｌｉｎｓｅｍａｎｔｉｃａｓｅｃｔｓｆｏｒ－　　　ｙｇｐ　　

］ｅｄｉａｉｍａｅｎｄｅｘｉｎＪ．ＩＥＥＥｒａｎｓａｃｔｉｏｎｓｎｃｒｏｓｓ－ｍ　　ｉ　Ｔ　ｏｇｇ［，２：ＰａｔｔｅｒｎＡｎａｌｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｅｎｃｅ００７，２９（１０）　　　　ｙｇ１８０２１８０７－［］Ｌ，Ｓ，Ｌ，８ｉＺｈｉｘｉｎｈｉＺｈｉｉｎｉｚｈｉｉｎｅｔａｌ．Ａｕｔｏｍａｔｉｃｉｍａｅ　　　　　ｐｇｑｇｇ

］，ａｎｎｏｔａｔｉｏｎｂｆｕｓｉｎｓｅｍａｎｔｉｃｔｏｉｃｓ［Ｊ．ＪｏｕｒｎａｌｏｆＳｏｆｔｗａｒｅ　　　　ｙｇｐ　　（）：）２０１１，２２４８０１８１２（ｉｎＣｈｉｎｅｓｅ－　

（李志欣，施智平，李志清，等．融合语义主题的图像自动标］（）：）注［Ｊ．软件学报，２０１１，２２４８０１８１２－［］Ｓ，Ｗ９ｈｉＦ，ＷａｎＪａｎＺ．Ｒｅｉｏｎ－ｂａｓｅｄｓｕｅｒｖｉｓｅｄａｎｎｏｔａｔｉｏｎ　　　ｇｇｇｐ　　

］ｆｏｒｓｅｍａｎｔｉｃｉｍａｅｒｅｔｒｉｅｖａｌ［Ｊ．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆ　　　　　ｇ，（）：ＥｌｅｃｔｒｏｎｉｃｓａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ２０１１，６５１１９２９９３６　　－［］Ｈ１０ｏｆｍａｎｎＴ．Ｕｎｓｕｅｒｖｉｓｅｄｌｅａｒｎｉｎｂｒｏｂａｂｉｌｉｓｔｉｃｌａｔｅｎｔ　　　ｐｇｙｐ　　

］，２：ｓｅｍａｎｔｉｃａｎａｌｓｉｓ［Ｊ．ＭａｃｈｉｎｅＬｅａｒｎｉｎ００１，４２（１２）　　?ｙｇ１７７１９６－［］Ｓ１１ｈｉＪＢ，ＭａｌｉｋＪ．Ｎｏｒｍａｌｉｚｅｄｃｕｔｓａｎｄｉｍａｅｓｅｍｅｎｔａｔｉｏｎ　　　　　　　ｇｇ

［］Ｊ．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｓｉｓａｎｄＭａｃｈｉｎｅ　　　　　　ｙ，（）：Ｉｎｔｅｌｌｉｅｎｃｅ２０００，２２８８８８９０５－ｇ

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文