简介
我们描述一个站点视觉系统,这个系统的活动监视器能长期的工作。系统用一组可排列的监视器来覆盖站点,用一个适用的系统来侦测监视器中多样的活动物体。我们的假设是运动轨迹足够支持一系列站点活动的计算,我们现在示范用一个轨迹的移动数据来校准分布的监视器,来建立一个大体的站点模型,来区分发现的物体,从不同的物体活动中得到共同的活动模型并且检测异常的活动类型。 1. 一个激发的情节
我们的目标是建立一个能长期工作的视觉系统,得到站点的物体运动模型跟交互论证。系统应该提供可统计的活动类型的描述。例如,一天内某个特定的时间普通的交通流量跟步行者的路线,它应该发觉异常的活动,通过在测定点测试出的异常活动类型,比如,异常的交通流量,或者一个跟平时的观察很不一样的特殊运动,而且它应该侦测不同的物体间的交互,比如一个人将车停在了大楼前,下了车却没有走进大楼。
因为一个站点可能大的无法用一个单独的摄像机来侦察,我们的系统采用一种森林式的监视器分布在站点周围来监视活动,每一个监视器单元就是一个综合的摄像头,有计算能力,自己的内存,有交互通信的能力还有测定方位的工具(例如GPS)。类似的系统存在【4,5,8】,而且更强大的系统将会随着监视器的发展DSP的发展跟通信的进步而出现,我们任意的在站点周围分布监视单元,对于户外的站点我们可以把监视器绑在杆上,树上,或者建筑上,对于室内的站点我们可以把监视器固定到墙上,家具上。 森林式的系统应该得到站点的活动类型,然后控制跟分类建立在这些模型上的活动,简单来说,我们假定存在的一些基本的传感单元跟进程中心需要获悉跟监控活动。一个同等的森林式传感器相比与另一个系统应该有自己的尺度来决定各个摄像头的位置;大体的站点结构模型来决定地面的水平,跟有标志的占有区域;站点上精力充沛的物体检测跟可检测的物体因子;通过一段扩展的观察(比如通过几个星期)来获悉共同的活动模型;能在站点上检测异常活动。
我们控制的假设是这些任务能很容易被留心的移动物体完成。为了检验这些假设,我们需要一个稳定的系统能可靠的检测运动物体而且返回一个精确的被观察物体的描述,它的运动参数跟它的固有的参数例如大小跟类型;采用一些能调用这些轨迹数据来完成上面列出的任务的方法。 2.一个精力充沛的追踪系统
在这一节我们描述一个新奇的追中系统,它建立在一种关于背景减少的标准观念,简单的背景处理只是减去连贯跟开始的图像得到不同的结果的图像,来确定图像象素是符合运动,更多强大方法采用图像的平均值,适用高斯运算来得到背景图像相减。 然而一些方法经常在现实中使用,他们一般不会很强大,经常只发现引导和被拖动的物体边缘,他们受制于噪声的影响,而且他们易受小的运动影响,比如树枝在风中的摇曳。 我们计划一个更强大的系统模拟-数字-模拟处理与测试系统来适应被观察的场面,我们考虑每个象素作为你个独立的可统计的进程,从而记录观察到的在每个象素经过先前的n帧的强度,这组观察的采样是最佳采用高斯算法的组合,这些反射了相同的场景点中的例子很可能会显示正常的噪音分配的愿望,能同时观察不同进程的愿望,这与适合一个简单的高斯算法对于背景象素的历史跟需要一个运动物体的模型的Pfinder[12]有很大差别。在一个简单的象素上观察到的复杂进程的例子包括,一个象素经常发现树枝的地方摇摆的树枝,,通常树
枝后的背景;还有能反映天空的波动的水,地平线或者简单出现的水的颜色。 在时间t一个被观察的象素值为Xt出现的概率如下:
这里Wj是赋值给第j个分组象素的最小模型的权值,Uj是中间数,∑j是他的协方差矩阵,简单的我们用
我们现在显示一个独特的象素通过参数Wj,Uj,∑j完全的表现为
高斯整体如何等同一系列最近观察到的模型。
为了确定背景模型,我们考虑每个象素是独立的,我们让K按照
因为如有如此大的
数据的分配更可能成为稳定的背景分配,我们选择最早的B分配通过计算预先定义的片断,这里T是一个被背景处理引长的迹象的小片断的一个估计,
因此一个由反复的背景运动(树叶,旗帜建筑的灰烬)引起多样的分配导致了几种包含在背景模型中的颜色,背景模型通过控制每个象素的颜色来控制透明度的影响。
校正模型,每个象素值Xt,与存在的分配对比,一直到发现一个匹配,一个匹配被定义为一个象素在内部一个分配的两个标准背离,如果没有模型的分配能匹配给定的值,最小可能的分配被删除而且用一个平均值的分配代替,最初的高变化跟最低的优先级。 分配的权值在时间t由以下公式调整:
这里a是学习比率,Mj,t是1代表匹配的分配,0代表残存的模型,1/a定义了在美给分配参数变化的速率,Wj,t是一个低通开始的象素值能匹配模型j较晚可能性,这是对和在过
去的证据上的一扇指数的窗户这价值的期待同等物。
U和a参数对于没有匹配的分配保持不变,参数对于匹配的分配,j随着以下公
式在变化
这些类似上面提到的相同类型的低通原因,除了只有数据匹配的模型被包括在估计中,这允许中间数跟轨迹的变化变化却当大变化产生时让背景分配保持不变。
任何象素只要超过2个标准分配与背景分配就被定义为一部分前景变化的物体,这些象素就被成群的连成一个结构,而且一个倍增的使用线性Kalman追踪系统被用来定义运动实时通信从一个帧到另一个帧,它包括线性预报在x,y跟型号参数。
一个例子关于关于一个追踪系统的结构体现在图一,注释,这个进程没有明确的删除阴影,而且一个方法例如用来[2]可以包括控制这个案例。
对于每一个被追综的物体,我们可以记录一系列用于后续进程的信息,包括它的大小,种类
()象标准的图像单元,物体的位置跟速度,还有物体的运动方向,被追踪物体经过一个小时的运动轨迹被显示在图2中
图一:追踪系统运行,左上角显示一个当前图像,右上显示最可能的背景图像左下显示连接的被追踪物体,右下显示被追踪物体由速率向量覆盖。接下来的链接提供了一组追踪系统连贯的运行了好几个星期,时时的图像抑郁和4个小时的轨迹信息被提供:http:、、www.ai.mit.edu/projects/usam/这个例子的一部分在图8中显示。 3. 用追踪系统来校准
自从我们的目标是建立和维护一个在一个关于大的可扩展的场景中的活动全球表现,它的本质等同从不同的源头调整各个独立的视频流。转换多样的观察资料到一个共同的结构,将所有的当地数据用共同的结构来表达将依靠于全球活动的理解。
我们需要系统的自己标准来强健,无人监控,而且在实际中依靠摄像头的电流从变化中恢复。系统必须同样运行在不同的地点有同样的背景,例如市内或者户外的环境,在这些场景中,静止的特征侦测器会发现很多必须要被剪除错误通信,而用传统的方法代价会很高。
我们的系统在搭接图片在现实中两个视图间的通信时来建立采用图片区域中物体的轨迹。每个摄像头独立的跟踪一个物体的运动在自己的视角范围,而且存储图片的质心的
相配之物,
图片2:跟踪模式的范例,顶部图像显示观察区域,底部图像显示轨迹模型
在每个例子中,车辆的航线和标准步行路径很容易区分
每个新的通信在一对摄像头中间提供一种附加的约束用来估计摄像头的关系几何。 我们用一个有有关系几何的摄像头模型对于户外的情形遭遇,市内监控软件,在这些场景中运动的物体是一些代表性的在地面上运动的车辆跟人群,因此物体的运动是平坦的,摄像头中相应的图片要点关于物体的轨迹被一个投影线性变化或者单应性联系起来。
我们已经测试了动力要点的价值对于估计实验室设定的地面水平度下的图像间的单应性,三个摄像头同时监视一个运动的物体。对于每一个摄像头,一个小的却是足够的点是很随即的从一个大缓冲器中取样,最近点通信和一个最近解决办法对于单应性是很适合这些简单通信,这种重新计算估计类似当前通信估计对于摄像头发现平均立方错误,关于两个估计基于所有点间通信缓冲区,有最适合模型被保留为当前最好的估计。 对于每一对拥有搭接视角的摄像头,地面水平单应性被不断的更新,单应性的搜集被用来弯曲引入的视频流从南所有摄像头视角到一个单独的视角参考点,结果是一个合成视频流显示在显示中球形的场景物体运动贯穿这长期的场景,这个合成的视频流显示被跟踪物体的位置从一个单独的视角甚至当物体没有被闭塞或者内部区域参考摄像头的视角,结果是一个合成的视频流显示了现实中球形运动的物体通过整个场景,这个合成的视频显示被追踪物体的位置从一个单独的视角,甚至当物体既没有被闭塞或者没有被参考摄象头拍到,在这种情况下,扩展场景被任何摄象头都无法看到的区域都能被找到(看图三):
图三:一组顺序摄象头拍到的复杂镜相,一个单独的祯从每个树的输入视频顺序,下下面的一个单独的帧从合成的顺序视频由弯曲来合成到一个调整系统中。
为了控制真实场景的观察而增加的功能是对追踪系统的先前部分跟第5部分描述的级别的加强。适用于追踪系统的背景模型使连续更新评估摄像头跟从故障中恢复变的有可能,这种情况下,由物体级别关联起来多样的假设追踪系统可以用来消除因为摄像头由于不同运动源所引起的错误,反过来,水平线的绘制对于一个对等系统允许在每个摄像头拍到的活动模型为了分析贯穿整个扩展场景连续的球形活动模型转变为一个普通的
程度。
4 用追踪系统建模
4.1 提取一个世界并列框架
对于我们用来校准森林式监视器关于一个普通图像校准,我们可以同等的观察森林,现在我们需要使这种共同的摄像头并列的结构关于世界并列的结构发生关系,我们因此需要定义地面上的摄像头的姿态。
我们的假设是我们通过观察站点的活动得到我们需要的信息,我们确信站点可以通过一个单独的地面水平大体的模型化,如果我们追踪一个物体运动通过站点,我们可以用观察到的变化在用它的权重来决定地面水平参数。
假定并列结构的起源是摄像头的我们可以作为针孔设计的焦点,焦距为f,让z轴沿着关周,让被追踪的物体的底部跟顶部由图像点p跟r在一个时间点上来描述,通过q跟s在第二时间点上描述,如果我们假定观察的物体是垂直于水平的(例如,人们走在一个笔直的地面),那么标准单元水平地面n必须由以下向量决定: (r×p)×(q×s)
任何点水平地面上的点p必须满足P*n=d这里:
h是图像中被观察物体的高度,H是物体的实际高度,v是一个图像中P跟r之间的单位向量,注释H是未知的,虽然我们可以提供一个估计,例如,如果我们观察的物体是一个人,那么我们大似的知道他的高度。我们现在使任何观察的物体的高度规格化,来为了节约投影计算如果t是一个新观察物体的基准向量,沿着基准向量u跟图像高度l的轴,相应的现实物体高度就是
这个提供给我们规格化世界的方法,我们可以用来区分物体。 4.2 绘制站点地图
一旦我们有一个地面水平的估计,还有一个用来估计物体高度的方法,我们可以用这些信息综合我们观察的物体来决定一个大体的站点模型,在我们的步骤[10],我们最初考虑站点象摄像头中看到的一样, 完全被填满了,现在设想我们观察一个运动的物体,我们用上面的方法估计那个物体的高度,通过我们的水平地面跟高度估计我们可以估计物体的距离,这个允许我们推论站点的一部分在摄像中心跟被测物体必须没有被闭塞,因此我们切开站点模型的那部分作为空闲区域。我们继续追踪物体,其他的空闲区域被清除,而且,当物体被阻碍,这个放置一个小范围距离站点被阻的区域,因此承认我们大体被阻塞的位置,既然我们知道地面水平程度,我们可以放置一些障碍在在那个地面,图四举出了一个室内控制的实例。
5
图四:用一个被追踪物体来创造一个大体的站点模型,左边的图像显示了一个背景图像,一个图像包括了一个运动的物体,萃取的移动物体跟当前粗略的深度图有强烈的编译距离,右边的图像显示最终的结果,有背景图像,图像深度跟图像质地都体现到了图像深度。 用追踪系统来分类
我们可以将这些片断整合进一个更完整的系统,我们用追踪系统来观察移动的物体,在每个结构中为每个被测物体记录一组有关的参数,例如,运动的位置,方向速度,大小高度,每个联系的区域外表比率,我们现实中通常运行系统在一个SBI O2每秒处理7帧,我们通常几个星期不间断运行我们的系统,记录每个被测摄像头运行模式,图8举出了每个小时读出了每个摄像头的轨迹模式。 5.1 物体分类
我们用这些轨迹模式来区分共同的活动模式,首先单独的被测物体能分到一个一般的类,基于被测的数据,举例,被测物体的外表能用来识别汽车,卡车跟行人,这些特征远远的加好于现实信息,依赖于系统的标准,这就让我们为个别的被测物体分类,搜集站点内的精致活动,例如,计算一天内不同时间步行者或者车辆的数量。
图五:被测物体的分散区域,坐标用外表(x轴)与之相对的大小(y轴),圆圈是车辆,叉叉为行人,一个标准的算法会很容易区分这两类。
在图五,我们分析了一个十分钟的片断,每个进入这个场景的物体,总共33个车辆跟34个人被检测到,系统正确的区分了每辆车除了一个特殊,就是他把两个个相同的车划分成一个物体了,因为两辆车在同一个地点同时进入和离开了场景,而且在两个例子中只发现了一个人,就是两个人走路的时候有身体接触,系统同样计算为两个物体,因为他们有暧昧的接触为了太久来维持他们的身份。 5.2 行动的分类
移动的物体轨迹同样可以用来区分活动,通过聚类轨迹的共有属性,,我们可以
自动推论出车交通路线,步行道,而且我们能自动的调整每天的交通流量,我们用用运动信息来分类活动的途径相似于[3]虽然我们在几个重要的资料上有区别。 一旦我们已经萃取了活动的运动模型特征,我们用我们的系统来寻找异常事件,这些就是在从群中的例外,一个例子体现在图二中,一个卡车通过步行道靠近码头,他的推机很容易被检测出在一个角落,因为它在这个区域相比正常的活动模型来讲是离群的,因此被标注而特别注意,其他的例子包括一个车辆以一个高速运行在这个区域,或者在一天内相应的时间内,流量却与平时相差甚大。
我们考虑到两个用来区分行动的途径,在第一个方法中,我们用Wallace[11]最小平均值运算法则来是追踪系统成群输出。NIHC运算由一个随机数开始来B树(一个每个内节点都有两个子树的二进树)形结构来反复的减小树的总共的高斯平均值。每一次反复,运算贪婪的减少子树,直到最大限度的减少整个树的子树,当没有单独的树来移出来更大限度的减少平均值,运算结束(虽然一个或两个或更多的次序可能仍回减少平均值,但不加以考虑了),最后得到的树是个部分最佳聚类树,MDL(最小描述长度)切除被作为发现最佳描述数据的聚类的程度。长度描述是一个函数,在所有的聚类中被切掉的平均值加上用来切除的成本,因此长度描述由切除一个最小聚类做补偿,因为最小的聚类有最小的平均值,但是为这样的修剪付出了代价,因为这样的修剪耗时太大。
我们用一个改进的Wallace算法来适应追踪系统的输出,图六就是一个实例,场景聚类的结果就在那个图片中,我们从食品中截取三分钟的轨迹数据,数据被有六维:x跟y位置记录了运动物体的大小,物体的速度,还有运动的方向向量单元,所有聚类的一个(x,y)发射被展示在图六中。
图六:给出了两个场景的轨迹数据,我们的方法找出了最好的基于所有行人的聚类,左下角显示了(x,y)这些聚类的发射,如果我们指定特殊的行人,比如低速没有方向性,我们能萃取出,比如队列中的行人,同样显示在右下角的图像中。 给出了聚类的描述,我们发觉一般的有指定参数的活动就是那些活动的典型。举例,为了发现一个队列中的一组人,我们可以寻找包括那些有低速运动而且没有明显方向性的聚类,图六中低级的图像显示了所有有上述特征的聚类,符合队列
中的人。
第二个用来区分行动的方法包括首先量化六维连续的观察
(x,y,dx,
dy,大小,表面比率)描述了被跟踪物体的状态,这种状态空间的减少由一个有
大数的高斯值熟练的完成,每个描述了一个小的关于(x,y,dx,dy,大小,表面比率)的静态空间区域,这些典型的数据近似状态由K-means近似值发现,一旦空间被量化了,一个被测的物体产生了一个观察的次序,O1,…..OT,其中
,这个次序被一个相应于不连续的状态标签来描述,
,向量化同样可用于[6]来减少连续空间状态到一个不连
续的空间。
我们通过利用每个作为同等级别的标签次序计算发生的标签统计表,这导致了一个N乘N矩阵,C:
这里,S是可用到的次序的数量,Ts是次序s的长度Ci,j是状态lj跟li将会发生同样的次序的可能性。,如果一个物体将要作为li跟lj一样出现,相应的可能性将会更高,如果数据库中没有物体类似于li跟lj出现,我们用类似的方法来聚类类似状态而不用固定的方法在空闲大的状态确定他们的亲近关系。
我们普遍的研究很多不同的方法来抽象化根本的过程通过使用发生过的事情统计表。给出了两个简单的设想底层进程是IID(独立的同一的分布的)越过标签而且序列有相同的长度,T-Ci,j接近一个稍偏有利节点可能的密度的估计,因为序列的长度增加:
Πk是第k个进程的预先和pk(i)是第k个进程产生表i(Pr(li | Modelk)),随着序列长度的增加偏见消失了,剩下的仅是
这时,C是有利的所有最底层分区共同可能性的总和,当最低分层都标志独立时,最低层的进程可以由最直接的方法或者用一个从最基本的组成密度的最小的平方数来解决。
不幸的是,在我们的实例中,上面我们的假定没有完全有效,所以不可能确定最低的进程。不过胜于聚类序列到N个不同的活动聚类,就象在[6],我们确定一个简洁的份等级的描述,我们的目的是确定在每个描述级别上相关的独立近似状态的系列。
这一个问题进入一个曲线图的格式形式双区域时一样适合,由对于一个普通的事件,我们从一组相应的接近者状态开始,我们递归的划分
将削减共发减少到最少的组,这协调的划分父类为两个子类,象经常发生在一个队列却经常保留在一个类中的表,为了发现一个最小的组,我们用一个跳跃的网络来寻找一个最小值的函数
其中Si=1如果li时左儿子的一部分,Si=-1如果li时右儿子的一部分,这是作为一个标准跳跃网络的工具,图七显示分等级的等级用一个消失追踪一个特别的场景:
图七:初步的聚类结果,左上角发生矩阵(k乘k)跟成员函数(15乘k),右上角:相应的场景,中间:接近者状态分等级的聚类。
每个状态的近似显示象一个由一条线的盒子,盒子的大小跟线的方向和长度描述相似的大小方向跟物体的速度,金字塔的顶部对应异常的事件,评估一个异常的特殊序列给出了一种方法关于典型事件的,左支对应往东的交通,它的子代对应更快或者更慢和更大或者更小状态的子集,其他的节点代表步行者的交通,西向的交通,东支步行者或者西支步行者。
我们计划研究其他的划分方法(比如不是二进制不是唯一的),研究用这些机构来左其他的类别任务(比如视觉分类),研究用这些方法来是多样的分类系统整体化(比如行为,类型,颜色种类),用这些方法来创造一个最低限度的监督种类,还有确定如何让这些种类更普及到新的位置。
我们计划研究用这些机构来实现其他类别的任务(比如视觉系统),研究多样的类别系统(比如行动,类型,还有颜色类别),创造一个最低限度的监督种类,另外,我们将检查其他的区域函数(比如,不是二进制,不是唯一)和探究如何让这些种类更普及到新的位置。
图八:在扩展很长时期的轨道模式上选择的例子,每个行显示了一个例子图像每个轨道模式代表了一个消失,时间从上午7点持续到下午4点
6 总结
我们的假设是强健的,适应性强,多样的追踪,可以作为系统的基础来检测和分类在扩展站点的活动,虽然在报告里还有很多需要做的工作,我们已经示范如何用这样的系统信息用复杂的摄像头标准下,大体的站点模型化,物体的检测物体的分类还有行动的检测跟分类 参考:
[1] Faugeras , O.D.,三度空间的计算机视觉: 一 几何学的观点,麻州理工学院杂志报纸,1993.
[2] Friedman , N。, S. 罗素,视频序列的图像分割
: 盖然性的逼近方式 Proc。 智能追踪显示性的不确定性,1997.
[3] 詹森, N。,,D. C., 在对于每个事件物体的轨迹区域分配的研究: Pycock,D (编者)英国人以机器制造视觉会议 1995 , vol.2, pp.583-592. BMVA,1995.
[4] Horswill,我。M. Yamamoto, 一个 $1000个活跃的音响视觉系统, Proc。, IEEE/ IAP 对于视觉系统的研究-,西雅图, 1994 年八月.
[5] Horswill,视觉的常式和视觉的搜寻 I.: 一即时的
落实和自动机械装置- 理论上的分析, ProcIJCAI,1995. [6] 詹森, N。 D. Hogg。在对于每个事件物体的轨迹区域分配的研究, vol。 14(8),1996 年八月, pp。 609-615.
[7] Koller , D。,J. 韦伯, T. 黄, J. Malik , G. Ogasawara,
B. Rao 和 S. 罗素,向强健的自动 trac即时的 Proc 的现场分析。 ICPR ,以色列,1994. [8] Konolige , K。,小的视觉系统: 硬件和 软件,在机械手工程上的第八界关于机器人研究技术的座谈会, Hayama ,日本, 1997 年十月.
[9] Stauer , C。,适合的背景混合模型,准备中。
[10] Stauer , C。, 用积存的视觉印象来实现场景重现, SM 论题,麻州理工学院, 1997 年六月.
[11] 华莱士, R。,经过热力学之函数发现天然的群通过减到最小限度,博士学位论题, CMU,CMU-CS-89-183,1989.
[12] Wren, C。,A. Azarbayejani , T. Darrell , A. Pentland。
Pnder: 人类的身体即时的追踪,IEEE Trans。 PAMI,19(7):780{785 , 1997 年七月.
因篇幅问题不能全部显示,请点此查看更多更全内容