特征提取是人脸识别系统中最为重要的一个组成部分。主成分分析[4]方法是应用最广泛的一种特征提取方法之一,它是一种统计学方法,在信号处理、模式识别、数字图像处理等领域已经得到了广泛的应用。特征脸方法是从主成分分析(PCA)导出的一种人脸识别和描述技术。它将包含人脸的图像区域看作一随机向量,采用K-L变换得到正交K-L基,对应其中较大特征值的基具有与人脸相似的形状,因此又被称为特征脸。利用这些基的线性组合可以描述、表达和逼近人脸图像,所以可进行人脸识别与合成。识别过程就是将人脸图像映射到由特征脸张成的子空间上,并比较其在特征脸空间中的位置。 1、人脸空间的建立
假设一幅人脸图像包含N个像素点,它可以用一个N维向量Γ表示。这样,训练样本库就可以用Γi(i=1,...,M)表示。 协方差矩阵C的正交特征向量就是组成人脸空间的基向量,即特征脸。
将特征值由大到小排列:λ1≥λ2≥...≥λr,其对应的特征向量为μk。这样每一幅人脸图像都可以投影到由u1,u2,...,ur张成的子空间中。因此,每一幅人脸图像对应于子空间中的一点。同样,子空间的任意一点也对应于一幅图像。 2、特征向量的选取
虽然协方差矩阵Ω最多有对应于非零特征值的k(k远小于M)个特征向量,但是通常情况下,k仍然很大,而事实上,根据应用的要求,并非所有的特征向量都有需要保留,而特征空间投影的计算速度是直接与创建子空间所用的特征向量的数目相关,若考虑到计算时间的因素,可以适当的减去一些信息量少的特征向量,而且,去掉这些特征向量之后不一定不利于分类结果,有的情况下反而能够提高识别性能。 3、人脸识别
有了这样一个由\"特征脸\"张成的降维子空间,任何一幅人脸图像都可以向其投影得到一组坐标系数,这组系数表明了该图像在子空间中的位置,从而可以作为人脸识别的依据。换句话说,任何一幅人脸图像都可以表示为这组\"特征脸\"的线性组合,其加权系数即是K-L变换的展开系数,也可以称为该图像的代数特征。因此,在获得特征脸之后,就可以对每一类别的典型样本进行投影,由此得到每个人脸的投影特征从而构成人脸特征向量,作为下一步识别匹配的搜索空间。 输入图像及其在人脸空间上的投影(重构图像),人脸图像在人脸空间中的投影变化不明显而非人脸图像的投影变化明显。因此,检测一幅图像中是否存在人脸的基本思想是,计算该图像中任意位置处的局部图像与人脸空间之间的距离ε。其中,ε是局部图像是否为人脸的度量。因此,计算给定图像任意一点上的ε,就可以得到一映射图ε(x,y)。 四、实验及结果分析
实验在两个图库上测试,一个是自建人脸库,该库包含31个不同人物,每人有5张不同表情和姿态下的图片,总共155幅。另一个是ORL人脸库,该库包含40个不同人物,每人有10张图片,共400幅。 用训练样本进行测试,识别率为100%。而随着训练样本的增加,识别率会有所提升,由于标准人脸库在采集时考虑了多种因素,人脸图像比较标准,所以识别率较自建的人脸库识别率高,但是训练样本并不是越多越好,当超过一定的训练样本数目时,识别率反而有所
下降。训练样本集在协方差矩阵的前k个最大特征值的特征向量的投影能反映样本绝大部分的差异信息。所以我们可以选取这前k个特征向量,尽量保持样本差异的同时达到降维目的。而PCA的这种降维能力是非常显著的。降维也大大节省了计算时间。但是,随着特征脸数目的增加,识别率并不能大幅度提高,即使识别中使用了所有的特征脸,识别率也只有80%左右。特征脸个数在33之前识别率是上升的,之后保持不变,当特征脸的个数超过35时,识别率下降继而保持稳定。由此可以看出特征脸个数并不是越多越好,而是在一定范围之内有最佳值存在。另外因为自建人连库的图片太少,即训练样本太少,也会对结果产生影响。进行直方图均衡化比灰度归一化的识别率高,预处理对识别的效果起着至关重要的作用。而此次实验的预处理还比较粗糙,PCA也只是起到了简单的特征脸降维的作用,要有更好的效果,还必须寻找更好的特征表达,使得可以尽量消除光照、表情、遮掩和姿势的影响。
对同一个体进行多项观察时,必定涉及多个随机变量X1,X2,…,Xp,它们都是的相关性, 一时难以综合。这时就需要借助主成分分析 (principal component analysis)来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息,而且希望综合指标互相地各代表某一方面的性质。
任何一个度量指标的好坏除了可靠、真实之外,还必须能充分反映个体间的变异。如果有一项指标,不同个体的取值都大同小异,那么该指标不能用来区分不同的个体。由这一点来看,一项指标在个体间的变异越大越好。因此我们把“变异大”作为“好”的标准来寻求综合指标。 1.主成分的一般定义
设有随机变量X1,X2,…,Xp, 其样本均数记为 , ,…, ,样本标准差记为S1,S2,…,Sp。首先作标准化变换
我们有如下的定义:
(1) 若C1=a11x1+a12x2+ „ +a1pxp, ,且使 Var(C1)最大,则称C1为第一主成分;
(2) 若C2=a21x1+a22x2+…+a2pxp, ,(a21,a22,…,a2p)垂直于(a11,a12,…,a1p),且使Var(C2)最大,则称C2为第二主成分;
(3) 类似地,可有第三、四、五…主成分,至多有p个。 2. 主成分的性质
主成分C1,C2,…,Cp具有如下几个性质:
(1) 主成分间互不相关,即对任意i和j,Ci 和Cj的相关系数
Corr(Ci,Cj)=0 i j
(2) 组合系数(ai1,ai2,…,aip)构成的向量为单位向量, (3) 各主成分的方差是依次递减的, 即 Var(C1)≥Var(C2)≥…≥Var(Cp) (4) 总方差不增不减, 即
Var(C1)+Var(C2)+ … +Var(Cp)
=Var(x1)+Var(x2)+ … +Var(xp) =p
这一性质说明,主成分是原变量的线性组合,是对原变量信息的一种改组,主成分不增加总信息量,也不减少总信息量。
(5) 主成分和原变量的相关系数 Corr(Ci,xj)=aij =aij
(6) 令X1,X2,…,Xp的相关矩阵为R, (ai1,ai2,…,aip)则是相关矩阵R的第i个特征向量(eigenvector)。而且,特征值i就是第i主成分的方差, 即
Var(Ci)= i
其中i为相关矩阵R的第i个特征值(eigenvalue)
1≥2≥„≥p≥0
3. 主成分的数目的选取
前已指出,设有p个随机变量,便有p个主成分。由于总方差不增不减,C1,C2等前几个综合变量的方差较大,而Cp,Cp-1等后几个综合变量的方差较小, 严格说来,只有前几个综合变量才称得上主(要)成份,后几个综合变量实为“次”(要)成份。实践中总是保留前几个,忽略后几个。
保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比(即累计贡献率),它标志着前几个主成分概括信息之多寡。实践中,粗略规定一个百分比便可决定保留几个主成分;如果多留一个主成分,累积方差增加无几,便不再多留。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- azee.cn 版权所有 赣ICP备2024042794号-5
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务