计算机辅助设计与图形学学报
JournalofComuter-AidedDesin &ComuterGrahics pgpp
Vol.25No.11
Nov.2013
融合主题和视觉语义的图像自动标注方法
赵 鹏12,王文彬12,朱伟伟12
2)(安徽大学计算机科学与技术学院
,),),)
1)(安徽大学计算智能与信号处理教育部重点实验室
)30039 合肥 2
)30601 合肥 2
(_)zhaoenadhu.edu.cn@apg
摘要:为了减小图像语义检索过程中“语义鸿沟”的影响,提出融合主题和视觉语义的图像自动标注方法.该方法
模型拟合出主题集合;然后根据图像的高维视觉特征建立主先在训练集的文本空间中用概率潜在语义分析(PLSA),,题集合中每个主题的高斯混合模型(以准确描述其视觉语义信息,减小了“语义鸿沟”提高了图像自动标注GMM)在C文中方法在标注的平均标准率和平均标全率上都表现良的准确性.orel数据集上进行了对比实验的结果表明,好,证明了其有效性.
关键词:高斯混合模型;概率潜在语义分析;图像自动标注;语义鸿沟;特征聚类中图法分类号:TP391.41
AutomaticImaeAnnotationbCombininAsectsandVisualSemantics gygp
1,2)1,2)1,2)
,ZhaoPenanWenbinandZhu Weiwei g,Wg
1)(2)(
)KeLaboratoroIntellientComutinand SinalProcessinoMinistroEducation,AnhuiUniversiteei30039 2y yfgpgggf yf y,Hf
)SchooloComuterScienceand TechnoloAnhuiUniversiteei30601 2f pgy,y,Hf:T,tAbstractoreducetheinfluenceofthesemanticinimaeretrievalhisanaaerresents ggpppp automaticimaeannotationmethodcombininasectsandvisualsemantics.Thismethodcaturesthe ggpp robabilisticlatentasectsfromthetextualsaceofthetraininimaesetusinlatentsemantic pppggg
analsismodelfirstl.Andthen,GaussianMixtureModeloftheeachlatentasectisconstructed yyp,accordintothehihdimensionalimaevisualfeaturedescribinthevisualsemanticcontentofeach gggg
methodreducesthesemanticandimrovestheaccuracoftheautomaticimaeasect.Thisa pygpgp, methodiscomaredwithseveralotherstateoftheartmethodsonthestandardCorelannotation.This --- pdataset.Theresultsofexerimentsshowthatthismethodachievesbetteraveraerecallandbetter pgrecision.Theeffectivenessofthismethodhasbeenroved.averae ppg
:G;p;arobabilisticKewordsaussianixtureodelatentemanticnalsisutomaticmae m m l s a iygy
;annotationsemanticafeatureclusterin ggp;语义鸿沟”的存在,低层视觉特征相似的 由于“
图像可能在高层语义不相关,导致基于内容的图像检索面临着巨大的挑战.图像自动标注是利用易于理解的语义关键词或标签来表示图像的语义内容,
以减少语义鸿沟的制约,并且将更为成熟、高效的文本检索方法引入到图像检索中,把复杂的图像检索转换为文本检索.近年来,图像自动标注吸引了越来
[]1]
:越多的国内外研究者[Mori等2提出了在图像和
);;收稿日期:修回日期:基金项目:国家自然科学基金(安徽省教育厅重点项目(安徽----20120924;20130110.61201413KJ2009A001Z));),省科技厅重大科技专项(安徽大学青年骨干教师培养基金(赵 鹏(女,博士,副教授,硕士生导师,主要研0801020100233010017.1976—),,究方向为智能信息处理;王文彬(男,硕士,主要研究方向为图像语义自动标注;朱伟伟(男,硕士研究生,主要研究方向为图1988—)1987—)像语义检索.
1710
计算机辅助设计与图形学学报 第25卷
单词之间建立关联的方法,引起研究者们对图像标
[]注领域的关注.Duulu等3提出了机器翻译模型yg
1 PLSA模型
[0]
假设在一个特定文档dPLSA模型1i=1,i(
(,TM),它将图像自动标注转化translationmodel )为区域视觉词元(向高层语义关键词翻译的过blob建立了b为了学程,lob和关键词的一一对应关系.习文本关键词与图像区域之间的联合概率分布,Jeon
]4
等[提出了跨媒体相关模型(crossediarelevance-m
…,…,下生成每个元素wj(的过程2,N)2,M)j=1,
存在一个隐含变量z;对于给定潜在主题z假中,k,设每个元素wj独立于其所属文档d对应的联合i,概率可表示为p(dzwj)=p(dzdp(i,k,i)k|i)
;其中p(和p(可以通过EM算wjzwz)zd)|||p(k)
10]
法[估计得到.EM算法通过最大化对数似然函数
,,同样采用bmodelCMRM)lob来表征图像的语义内
容;但是blob是图像区域特征聚类离散化后得到的会造成视觉特征信息的丢失,影响标注结果.码字,
[]Lavrenko等5提出了连续空间相关模型(continuous-NMijij,,sacerelevancemodelCRM)CRM对图像分割的效 p
果比较敏感,并且假设任何图像的标注词都服从多因此其标注性能只是在某些数据集上表项式分布,
[6]现出一定的优越性.Fenernoullig等提出了多重B
L=
i=1j=1
其中d,w)ld,w)推导得到,gp( ∑∑n(
表示在文档dn(dwj)i,i中元素wj的个数.
2 GMM
…,,给定样本x来自第j个分量的类i=1,n)i(条件概率密度表示为
1p(2π)|Σ|j槡,相关模型(multileBemoullirelevancemodel- p
,采用多BMBRM)ernoulli分布代替CRM中的多使用固定网格划分图像区域;但这些模项式分布,
型没有充分地利用文本空间的语义信息.受到文本空间中主题模型的启发,基于概率潜在语义分析(,,robabilisticlatentsemanticanalsisPLSA)PLSA -py
[][]
WORDS模型7和PLSA-FUSION模型8将图像
x=Σi;j(j,j)μψx ep-
1(T-1
xxΣi-i-j)j(j);μμ2
其中p为样本xΣi的空间维数,j为均值向量,j为μ方差矩阵.
…,…,模型参数可以表示为Θ=(ππ1,1,g,μ…,,…,若随机样本xxΣΣ1,1,n服从分布:g,g)μg[]视作一系列潜在语义主题的混合,并针对每一语义主题生成图像视觉特征和文本关键词之间的概率
[]
但它们仍然是利用离散的视觉特征.分布,Shi等9
,采用基于高斯混合模型(Gaussianmixturemodel 的图像自动标注方法,建立了每个关键词的GMM)
并考虑了待标注图像的每个区域之间的联GMM,系,用这种关系来修正标注模型,在一定程度上提但该方法存在2个缺陷,一高了图像标注的性能.
因为不同的是它对具体的关键词训练语义模型,
关键词可能表达相同的语义,所以没有利用关键二是在b该方法词之间语义相关性;lob聚类的时,选择的是将聚类集合中样本数最多的类别作为训由于背景区域的干扰,该类别集合训练出练集合,
来的GMM不一定能正确地表征对应关键词的语义信息.
针对以上问题,本文融合主题和视觉语义,提出简称为基于PLSA和GMM的图像自动标注方法(,利用PPLSA-GMM)LSA-GMM对图像的低层视觉特征、文本信息、上下文信息以及图像与文本之间更为深刻地刻画了文的关联信息进行建模和集成,
本空间的隐含主题语义和低层视觉语义信息.
,则这些样本对应的模型x)=∑x;πΣp(jj(j,j)μψj=1
即为GMM,其中πj个单高斯分量的权值,j表示第
g且满足条件
j=1
∑πj=1;g是单高斯分量的总数目,
每个单高斯分量反映样本向量空间中的一个聚类.最大化GMM的参数Θ可以使用EM算法来估计,
ngij对数似然函数ξ=
i=1j=1
∑∑p[lnlnxπi;j+j(j,μψ];其中pi个样本xΣii属于第j个单高斯j)j表示第
分量的概率.
得到模型参数后,对于未知样本x可以通过l,
g这些模型参数来获得它的分布p(xx=∑πl)l;jj(ψj=1
.Σj,j)μ3 基于PLSA和GMM的图像自动标注方法
基于P首LSA和GMM的图像自动标注方法,
第11期赵 鹏,等:融合主题和视觉语义的图像自动标注方法
1711
先使用PLSA对训练图像集的文本数据进行建模,然后根据图像的低层视觉特征进行GMM的建模,学习视觉特征和文本关键词之间的关系.对于一个利用P给定的未标注图像,LSA-GMM对其进行自动标注.3.1 数据建模
数据建模主要分为两步,包括文本标签建模和低层视觉语义建模,具体描述如下:
Ste1.训练集图像的文本标签是由给定关键词词典中p一些无序的关键词组成的.假设文本词典中的关键词总个数则图像d为Nw,i的文本标签可以表示成一个Nw维的向量,,…,);其中n(w(d=(n(dw1)n(dw2)n(dwNw)di)i,i,i,i,表示图像dwi的文本标签包含关键词wj)j的个数.
Ste2.训练图像集的低层视觉语义是由图像的局部低p首先进行图像分割并提取特征,形成一层视觉特征表示的.
,…,,…,系列b表示为R={其中R为lobRRi=1,2,1,i(p)p}一个低层视觉特征向量.
,这样为每一个zRz?k都学习建立其对应的GMMp(k)…,其中参数集Θ={k=1,2,K}.Θ|k3.3 图像自动标注
Ste1.对于给定的一幅未标注图像进行低层视觉语义p…,建模,dRRm}.new={1,
并利用参数Θ=Ste2.Rpi作为每一个GMM的输入,{(…,得到的RRzi=1,2,m;k=1,Θ?k}i的概率分布p(ik)…,2,K).
…,Ste3.计算图像dk=1,2,K)pnew标注隐含主题zk(的概率
zd=?knew)p(
Ridnew
z?R)R?dp(∑p(
kiinew
)
()1
其中p(是测试图像中第i个bRdlob的面积与图像的?inew)总面积之比
Rzz?ik)k)p(p(
zR=.?ki)p(
Ri)p(K)代入p(Ste4.将式(1w|d=pnew)
k=1
w|z)z|p(∑p(
kk3.2 模型学习和建立
模型的学习和建立分为2个阶段,即在文本空间学习语义主题和学习每一个语义主题的GMM,
具体描述如下:
输入:训练集合中的每一幅图像di的文本标签
,计算关键词词典中各关键词的后验概率,选取具有最dnew)大后验概率的若干个关键词标注图像dnew.
4 实 验
4.1 实验数据与实验设计
为了检验P本LSA-GMM方法的性能和精度,
[]
并与其文使用标准图像库Corel5k作为数据集3,
w(di)
即EM算法,得到参Ste1.通过PLSA参数估计算法,p数p(和p(wz)zd).??
这样就分析得到隐含主题z下关键词的分布和训练图像集合中隐含主题z的分布.关键词之间的关联关系通过隐含主题表达出来,共同表达了一个更为概括性的语义概念.
即对于每一个隐Ste2.学习每一个语义主题的GMM,p含主题zk:
)选取p(值大于一定阈值α的N1个w,其中N1iwz?k)表示和隐含主题zk相关关键词的个数.
)选取p(值大于一定阈值β的N2个d,其中N2iizd)?k表示和隐含主题z这些图像的blob都和k相关图像的个数,把这些图像的所有b隐含主题zlob组成k有语义对应关系.的样本进行自适应k最终在所有的聚类结果中选-均值聚类,取样本最多的前δ(个聚类.δ<聚类类数k)
由于每幅训练图像di都包含关键词w的视觉语义区域,因此在训练图像集合中,该类区域的分布相对集中,基本上能够聚到同一个类别中.但是训练集中的语义标注是基于整个图像,而不是基于具体的区域对象,因此无法确切判断哪一类中的样本对应哪个具体的关键词,所以选取δ个样本数目最多的聚类来拟合一个更为抽象的隐含主题所表达的语义,同时也部分地消除图像背景blob带来的干扰信息.
)将i)中获得的聚类中的所有样本作为输入,训练一iiii个GMM来表征隐含主题z利用EMk所代表的语义概念.,,…,算法得到GMM的一组参数Θ=12.πΣ|k={kkkjg}j,j,jμ他主流的图像自动标注方法进行了对比实验.该数据集包含5涉及5每个语000幅图像,0个语义类型, 义类型包含1每个图像标注有1~5个关00幅图像,
[1]
,键词.采用N每幅图像被omalizedCut分割算法1
分割为1~1整个数据集上共被分割为0个区域,对于每个区域,使用342379个区域;6维特征描述,
包括有颜色、形状、位置等信息.整个数据集被分为3部分:4000幅图像作为训练集,500幅作为验证 集,验证集用于确定实验参数500幅作为测试集.(,例如P参数确定之后,将其与LSA结束条件)
形成44000幅图像的训练集合并,500幅图像的训 练集.
,,,本文采用标全率(标准率(recallR)recisionp,,,平均标全率(平均标准R)averaeofrecallAR) g,率(和F值来衡量实验averaeofrecisionAP) pg效果.
…,,定义1.对于标注词wi=1,Nw)A是测i(
试集中通过标注算法被标注为wi的图像个数,B是测试集中被标注为wi的正确图像个数;C是测试集中原先被标注为wi的图像个数.
1712
计算机辅助设计与图形学学报 第25卷
)标全率定义为R1BC;?i=
)标准率定义为P2BA;?i=
Nw几个实例结果.选取后验概率最大的前5个关键词作为标注结果;表中的词汇顺序是按概率大小排序的,真实类标是测试图像标准的人工标注结果.表1显示,即使标注PLSA-GMM方法的标注效果良好,中出现了一些在真实类标中未出现的关键词,但它们和真实类标里出现的关键词具有很大的语义相关”,性.例如,第2幅图像中的标注“第4幅图像中ice;的“而GMM则引入了一些错误的不相关语snow””,义概念,例如第1幅图像中的标注“第4幅water”图像中的“分析其原因,是由于Phills.LSA-GMM方法针对主题建立GMM,其中主题将若干语义相关的关键词关联起来,因此在PLSA-GMM的标注结果中会多出一些具有很大语义相关性的关键词.在GMM中,将blob聚类后选取样本数最多的类别作为训练集合,但有时会受到背景区域的干扰,使得因而样本数最多的类别无法真实地反映视觉语义,在标注结果中出现一些不相关的语义概念.而在将bPLSA-GMM中,lob聚类后选取样本数较多的
能够在一定程度上消除若干个聚类作为训练集合,背景干扰,更好地表达视觉语义.
)平均标全率定义为AR=3
)平均标准率定义为A4P=AR×AP)5F=2.
AR+AP
i=1Nw∑RiNw;
ii=1
∑PNw;
由于实验中隐含主题个数K和聚类类别数C要通过实验确定,所以首先分别对不同的K值和C值进行实验;然后在同样的测试集上,比较不同图像其中包自动标注方法的平均标全率和平均标准率,
[][]4]
,括CMRM[PLSA-WORDS7,GMM9和本文
实验比较各种方法中标全率大PLSA-GMM方法.
于零的关键词个数,并在2个关键词子集上对各个模型进行实验比较:49个出现频率最高的关键词组以及在测试集中出现的2成的集合,60个关键词组成的集合.
4.2 实验结果与分析
表1所示为GMM和PLSA-GMM自动标注的
表1 GMM和PLSA-GMM的标注结果实例对比
测试图像
类标及模型
真实类标
,l,arden,flowersandscaegp
,,bearsnow,tundraolar p
trees
,,beach,eolesandwater pp,,,frosticesktreey
GMM
,,,,p,b,,b,,,flowerstreeswaterardenearsnow,planewatereolesandolareach,gpp
,,,,frosticenestskhillsy
almtundramarep
,,,b,s,i,b,,,eareach,olareolearden,roseflowerstreesnow,pcewatertreeppg
,,,,icefrostfrozentreesnow
lichentundraboats
PLSA-GMM
0~180, 图1所示为隐含主题个数K取值从6
步长为2聚类类别数C取值从6~1步长为1,0,0,在不同参数组合下的平均标准率、平均标全率和
从表2~4中可以看出,PLSA-GMM在标全率大于零的关键词个数、2种关键词集合上的平均标说明了P全率和平均标准率上都有所提升,LSA-文本信息进GMM能够地对图像的低层视觉特征、
能够较好地处理离散特征和连续特行建模和集成,
征,更为深入地描述图像的潜在语义特征,并能够在一定程度上消除背景特征引起的噪声.
表2 标全率大于零的关键词个数比较
CMRM 66
PLSA-WORDS
85
GMM 94
PLSA-GMM
98
F值.
实验显示,标注效果受K和C取值的综合影当取K=1平均标全率最高;当响,60,C=10时,
聚类类别数为6时,平均标准率和F测度K=140,值都达到最大.
PLSA-GMM方法与其他几种方法的自动标注性能如表2~4所示,其中P取LSA-GMM方法中,
K=160,C=10时.
第11期赵 鹏,等:融合主题和视觉语义的图像自动标注方法
1713
图1 不同参数下类别数C对标注效果的影响图的效果比较
表3 49个出现频率最高的关键词标注性能比较
性能平均标全率平均标准率
模型
CMRM PLSA-WORDSLSA-GMM GMM P0.48 0.40
0.39 0.51
0.64 0.42
0.690.50
表4 260个在测试集合中出现的关键词标注性能比较
性能平均标全率平均标准率
模型
CMRM PLSA-WORDSLSA-GMM GMM P0.09 0.10
0.09 0.12
0.17 0.12
0.190.15
1714
计算机辅助设计与图形学学报 第25卷
[]J,L4eonavrenkoanmathautomaticmae J V,M R.A ig
5 结论和展望
本文通过PLSA模型从文本空间拟合图像的隐含语义主题,对低层视觉特征blob进行聚类形成视觉语义,利用GMM建立隐含主题与低层视觉语义之间的关联,并通过实验验证了该方法的有效性.
然而本文方法在整个测试集中出现的关键词集合上仍然存在平均标全率和平均标准率不高的缺陷,如何构造能够更好地描述图像特征的描述子,以及如何建立更为高效的学习建模方法是下一步工作的方向.
):参考文献(References
[]L,S,L,e1iZhixinhiZhiiniZhiintal.Asurveof pgqgy
]ainnmaeetrieval[J.Journalfsemantic m i r oppgg i,():Comuter-AidedDesin &ComuterGrahics2008,208 pgpp)10851096(inChinese-
(李志欣,施智平,李志清,等.图像检索中语义映射方法综]:述[J.计算机辅助设计与图形学学报,2008,20(8)1085-)1096
[]M2oriakahashikamaeto-word Y,T H,O R.I-g
transformationbasedondividinandvectorimaesuantizin ggqg ]:words[OL].[2012924.httciteseerx.ist.su.eduwith --???pp?viewdocdownloaddoi=10.1.1.31.1704&re=re1&te=?ppypdfp
[]D3uuluP,BarnardK,deFreitasJFG,etal.Obect ygj
:asmachinetranslationlearninalexiconforareconition gg fixedimaevocabularC]Proceedinsofthe7thEuroean ?? gy[gp:S,ConferenceonComuterVision.BerlinrinerPress ppg2002:97112-annotationandretrievalusincross-mediarelevancemodels g [C]Proceedinsofthe26thAnnualInternationalACM?? gSIGIRonferencenesearchndevelomentn C o R a D ip,InformationRetrieval.New York:ACM Press2003:119 -126
[]L5avrenkoV,ManmathaR,JeonJ.A modelforlearninthe g
]semanticsofictures[J.AdvancesinNeuralInformation p:M,ProcessinSstems.CambrideITPress2004,16:553 -gyg 560
[]F6enSL,ManmathaR,LavrenkoV.MultileBernoulli gp
relevancemodelsforimaeandvideoannotation[C]? ?gProceedinsoftheIEEEComuterSocietConferenceon gpy :ComuterVisionandPatternReconition.LosAlamitos pg,IEEEComuterSocietPress2004,2:10021009 -py
[]M7onaF,GaticaPerezD.Modelinsemanticasectsfor- ygp
]ediaimaendexinJ.IEEEransactionsncross-m i T ogg[,2:PatternAnalsisandMachineIntellience007,29(10) yg18021807-[]L,S,L,8iZhixinhiZhiinizhiinetal.Automaticimae pgqgg
],annotationbfusinsemantictoics[J.JournalofSoftware ygp ():)2011,224801812(inChinese-
(李志欣,施智平,李志清,等.融合语义主题的图像自动标]():)注[J.软件学报,2011,224801812-[]S,W9hiF,WanJanZ.Reion-basedsuervisedannotation gggp
]forsemanticimaeretrieval[J.InternationalJournalof g,():ElectronicsandCommunications2011,6511929936 -[]H10ofmannT.Unsuervisedlearninbrobabilisticlatent pgyp
],2:semanticanalsis[J.MachineLearnin001,42(12) ?yg177196-[]S11hiJB,MalikJ.Normalizedcutsandimaesementation gg
[]J.IEEETransactionsonPatternAnalsisandMachine y,():Intellience2000,228888905-g
因篇幅问题不能全部显示,请点此查看更多更全内容