您好,欢迎来到爱站旅游。
搜索
您的当前位置:首页序列模式挖掘综述

序列模式挖掘综述

来源:爱站旅游
维普资讯 http://www.cqvip.com 第25卷第7期 2008年7月 计算机应用研究 Application Research of Computers V01.25 No.7 Ju1.20HD8 序列模式挖掘综述 陈摘卓,杨炳儒,宋威,宋泽锋 (北京科技大学信息工程学院,北京100083) 要:综述了序列模式挖掘的研究状况。首先介绍了序列模式挖掘背景与相关概念;其次总结了序列模式挖 掘的一般方法,介绍并分析了最具代表性的序列模式挖掘算法;最后展望序列模式挖掘的研究方向。便于研究 者对已有算法进行改进,提出具有更好性能的新的序列模式挖掘算法。 关键词:数据挖掘;序列模式;周期模式;增量式挖掘 中图分类号:TP31l 文献标志码:A 文章编号:1001—3695(2008)07—1960—04 Survey of sequential pattern mining CHEN Zhuo,YANG Bing—rll,SONG Wei,SONG Ze—feng (School ofInformation Engineering,Beiifng University 0厂Science&Technology,Beijing 100083,China) Abstract:This paper provided a review of the research of sequential pattern mining.Firstly,introduced the background and context.Secondly,summarized the general methods of sequence pattern mining,introduced and analyzed the most representative algorithm to provide a basis for improving old algorithms or developing new effective ones.Finally,discussed some future re— search trends on this area. Key words:data mining;sequential pattern;periodic pattern;incremental mining 数据挖掘作为知识发现的核心步骤,旨在从海量数据中提 取有效的、新颖的、潜在有用的、易被理解的知识。序列模式挖 掘(sequenti ̄pattern mining)是数据挖掘中非常重要的一个研 究领域,最早是由Rakesh Agrawal和Ramakfishnan Srikant在针 对超市中购物篮数据的分析提出来的。序列模式挖掘是要找 出序列数据库中所有超过最小支持度阈值的序列模式u 。它 有着广泛的应用领域:商业组织利用序列模式挖掘去研究客户 购买行为模式特征、计算生物学中序列模式挖掘用来分析不同 氨基酸突变模式、用户Web访问模式预测以及DNA序列分析 定义6序列的包含:设存在两个序列a, 。其中:a= (。,,。 ,…,。 ),卢=(b,,b ,…,b )。如果存在整数l≤_『,< <…< ≤m,使得0l bjl,n2 6 ,…,n 6 ,则称序列a是 IB的子序列,又称IB序列包含a,记为ac_/3。 定义7支持数:序列a在序列数据库S的支持数为序列 数据库S中包含a的序列个数。 定义8支持度:序列的支持度是一个预先设定的阈值。 定义9频繁序列:给定最小支持度阈值,如果序列a在序 列数据库中的支持数不低于该阈值,则称序列a为频繁序列。 定义l0序列模式:最大的频繁序列称为序列模式,最大 序列就是不被其他任何序列所包含的序列。 Agrawal等人 将序列模式挖掘定义为在序列数据库中挖 和谱分析。序列模式挖掘与关联规则挖掘在许多方面相似,但 它更关心数据之间顺序的关联性。 1 序列模式挖掘任务定义 基本概念: 掘那些支持数超过预先定义支持度的序列模式的过程。 2序列模式挖掘方法 2.1 基本序列模式挖掘 定义l事务数据库(transaction database):以超市数据为 例来说明,即由顾客交易记录组成的数据库。Custom—ID、 TransactionTime、hemset分别代表顾客标志、交易时间和交易 大多数早期序列模式挖掘算法都是基于Agrawal提出的 关联规则挖掘算法Apifoi,它的特性是频繁模式的任何子模式 f物品集合。 定义2项集(itemset):各个项(item)组成的集合。 都是频繁的。基于这个启发,研究者提出一系列类Apfiofi算 法,如AprioriAll、AprioriSome、DynamicSome。Srikant等人 提 出了GSP(generalized sequential pattern)方法。Zakil3 提出了 定义3序列(sequence):不同项集的有序排列。序列S 可以表示为S=(s,,s ,…,s )。其中:Sj(1≤ ≤ )为项集,也 称为序列S的元素。 定义4序列的元素(element):表示为( ,, ,…, )。 其中: (1≤k≤m)为不同的项。 定义5序列长度:一个序列包含的所有项集的个数,长 度为l的序列记为l一序列。 收稿日期:2007—08—24;修回日期:2007—11—17 SPADE方法。这两个方法同样是基于Apriori的。随后学者们 又提出了一系列基于数据投影的算法,它们包括韩家炜在 2000年提出的FreeSpan和Pei在2001年提出的PrefixSpan。 Han于2004年提出了一种结合了图模式生长和频繁计数,形 成了结构模式挖掘的算法gSpan。Lin和Lee于2002年提出的 作者简介:陈卓,博士,主要研究方向为数据挖掘(chenzhou613@sina.con);杨炳儒,教授,博导,主要研究方向为数据挖掘、推理机制与知识发 现等 维普资讯 http://www.cqvip.com 第7期 陈卓,等:序列模式挖掘综述 ・l96l・ MEMISP算法则是基于内存索引的。Garofalakis等人通过利用 正则表达式约束方法提出了SPIRIT算法。 2 1 1 类Ap ̄ofi算法:AprioriAll、AprioriSome、DynamicSome 候选序列的方法上:GSP每次相同长度的候选集是通过连接在 前一次扫描得到的频繁序列来产生的;而MFS候选集则是通 过连接不同长度的所有已知频繁序列来产生的。实验结果表 明MFS与GSP产生相同的频繁序列集合,但在降低1/0消耗 方面要比GSP高效。 此外,文献[5]介绍了一个通用的序列模式挖掘框架。它 文献[1]中提出的类Apfiofi序列模式挖掘算法是经典的 关联规则挖掘算法Apfiofi算法的变形。它将序列模式挖掘分 为五个阶段。假定事务数据库有三个属性:顾客ID、交易时间 和购买商品。第一阶段为排序阶段,原始事务数据库进行索 引,顾客ID是主键,交易时间是辅助键,结果是顾客序列的集 合。第二阶段为频繁项集阶段,即找出所有的频繁项集,每个 大项集对应着一个频繁1一序列。第三阶段为转换阶段,将原 始数据库中的顾客序列转换为它们相应的频繁项集。第四阶 将不同的约束,如结构、时间、项以及概念层次等都集成到一个 统一的系统中,而且也提出了相应的序列模式计算方法和阈值 的设置方法。 2,1 3 PreifxSpan算法 文献[6]提出的PreifxSpan算法是一种使用数据库投影技 段找出所有的频繁序列。第五阶段为最大化阶段,是从频繁序 列集合中找出最大序列集即频繁模式集。 算法ApriorlAll与Apriorl类似,首先遍历数据生产候选序 列并利用Ap6ofi的特性进行剪枝来得到频繁序列。每次遍历 时通过连接上一次得到频繁序列来生成新的长度加1的候选 序列。然后对每个候选序列进行扫描,按照最小支持度来确定 哪些序列是频繁序列模式。它的主要缺点是遍历数据库次数 太多,而且产生了太多的候选序列,因此它的效率并不高。 算法ApfiofiSome与AprioriAl1只是在序列阶段有所不同, AprioriAll是首先生成所有的频繁序列后再在最大化序列阶段 删除那些非最大的序列。ApfiofiSome将序列分成两个部分分 别计数:前半部分只对一定长度的序列计数;后半部分跳过已 经计数的序列。在实际过程中两个部分是混合在一起的,以减 少候选序列占用的资源。 算法DynamicSome与ApfiofiSome相似,仅多了一个初始 化阶段。在前半部分跳过对预先设定好的一定长度的候选序 列的计数;后半部分的算法与ApfiofiSome完全相同。其效率 不及AprioriAll和ApfiofiSome高,是由于在前半部分产生太多 的候选。后两者的优点是可避免计数许多非最大序列。 2,1.2 GSP算法 文献[2]提出的GSP算法也是一个基于Apriori的频繁模 式挖掘算法。它在以下三个方面进行改进:a)增加了时间约 束,在序列的邻近元素之间增加了最大和最小间隔。如果邻近 元素没有介于它们两者之间,则认为这两个元素不是在序列中 连续的元素。b)定义了一个滑动窗口来弱化事务的定义,允 许项来自不同的事务,只要这些事务在指定的滑动窗口范围 内。C)对序列中的项使用了概念层次进行分层,使得挖掘过 程可以在多个概念层上进行。在GSP中候选序列的数目大大 减少了,而且在挖掘过程中引入了时问约束和概念分层来生成 更多知识,因此GSP相对于AprioriAll有着较好的性能。 AprioriAll中所有在数据库中的序列都被表示为它们包含 的子序列,所以很容易得到候选序列的支持数。由于在GSP 中引入了最大和最小时间间隔,得到候选序列的支持数相对较 困难。在此GSP在计算候选序列支持数时采用了hash树来提 高算法的效率。 由于GSP与ApfiofiAll一样都需要多次遍历数据,为了提 高挖掘效率,文献[4]中提出一种基于GSP的算法MFS(mi— ning frequent sequence),它不需要多次遍历数据库。MFS提出 了一个两阶段的算法,首先挖掘样本数据库来获得频繁序列的 一个粗糙评价。基于这些评价,遍历数据库去检查并细化候选 序列直到没有频繁序列再产生。MFS与GSP的区别是在生成 术的序列模式挖掘算法,其性能优于GSP与AprioriAll,且拥有 能够处理非常大的序列数据库的能力。PrefixSpan主要使用数 据库投影方法来使下一次遍历的数据库变得更小,它不需要产 生候选序列,只要根据它们的前缀递归地将后缀投影到投影数 据库中,然后对投影数据库进行挖掘来得到频繁序列模式。为 了提高算法性能,它研究了三种投影技术:逐层投影、隔层投影 以及伪投影。 逐层投影第一步是扫描序列数据库来得到长度为1的序 列,实际上也就是1一频繁序列。然后根据1一频繁序列将数据 库分为不同的部分。每一个部分是将相应的1一频繁序列作为 前缀序列数据库的投影。投影数据库仅包含这些序列的后缀, 通过遍历投影数据库产生所有以1一序列模式作为前缀的2一序 列模式;投影数据库再次根据2一频繁模式分成各个部分。递 归地执行上述步骤直到投影数据库为空或者再没有频繁序列 模式产生。 隔层投影用来减少投影数据库的大小和数目,它首先扫描 序列数据库,产生所有长度为1的序列模式,再次扫描序列数 据库,构造相应的下三角矩阵来得到所有长度为2的序列模 式。接下来构造长度为2的序列模式所对应的投影数据库,对 每个投影数据库重复上面的操作,直到没有新的序列模式产生 为止。 当投影数据库能够存储在内存时可使用伪投影技术。事 实上它并没有构建物理投影数据库。每一个后缀用一对指针 和偏移量来表示。由于避免了复制数据库,伪投影比其他两种 投影方法更加高效,然而它的限制是数据库的大小必须能存储 在内存中。 文献[7]提出的FreeSpan同样是基于投影数据库的算法。 其基本思想是将频繁序列的挖掘与频繁模式的挖掘结合起来, 并投影序列数据库以精简搜索空间,并减少候选子序列的数 目。它只需在原始数据库进行三次扫描,基于当前已经得到的 频繁集,递归地将数据库投影到一系列较小的数据库上,在投 影数据上进行子序列挖掘。这样产生了较少的候选序列。文 献[8]中提出的gSpan算法结合了图模式生长和频繁计数,形 成了有效的结构模式挖掘算法。文献[9]中提出一种SPMDS 算法通过对投影数据库的伪投影作单项杂凑函数,检测是否存 在重复的投影,避免大量重复扫描数据库。 2.1.4 SPADE算法 文献[3]提出的SPADE算法是利用格技术和简单的连接 方法来挖掘频繁序列模式的一种高效算法。它仅需扫描三次 数据库即可挖掘出所有的频繁序列;同时利用格技术将挖掘搜 索空问分解为若干个较小的搜索空间,每个小的搜索空间可以 维普资讯 http://www.cqvip.com ・1962・ 计算机应用研究 第25卷 存储在内存中。实验表明,SPADE方法性能要优于AprioriAll 则是首先挖掘多维信息的模式,然后再挖掘多维信息投影下的 和GSP。 数据库序列模式。由于通常多维序列模式的长度较短,投影数 在该算法中,序列数据库被转换为垂直数据库格式,通过 据库仅包含那些带频繁序列模式的元组,多维序列模式挖掘更 扫描垂直数据库来生成1一频繁序列,第二次遍历数据库时生 加高效多产。实验结果表明,多数情况下Seq—Dim有着良好的 成新的垂直数据库以及2一序列,用生成的2一序列来构建格,使 性能;当维数较低时多维模式也较短,UniSeq较其他两种方法 得具有相同前缀项的序列在同一格内,这样格被分解为足够小 高效;Dim—Seq在挖掘过程中许多模式并未形成多维序列模 并能存入内存中。在第三次扫描数据库过程中,通过用时态连 式,因此效率较低。 接的方法产生所有的频繁序列。同时该算法采用广度优先搜 2.3 增量式序列模式挖掘算法 索(BFS)和深度优先搜索(DFS)策略来产生频繁序列。与 现实世界中序列数据集往往是实时更新的。相应地,有趣 GSP生成候选过程一样利用Apriori特性进行剪枝。 模式在多次挖掘时也会随时间呈现出某种变化,已有的规则可 2.1.5 MEMISP算法 能不再有效,而新的有趣模式还有待进一步发现。通常有两种 在文献[10]中提出的memo ̄indexing for sequential pat— 维护规则的方式:第一种方法是强更新,重新进行挖掘,用新的 tern mining(MEMISP)是基于内存索引的序列模式挖掘方法。 规则来替换所有旧的规则;第二种是弱更新,仅重新计算与增 MEMISP只需要遍历一次或最多两次数据库,并且它避免生成 量有关的数据,替换不适用的旧规则。考虑到序列模式挖掘的 候选序列和投影数据库。实验结果表明,MEMISP比GSP和 复杂性,更加倾向于采用弱更新的方式。增量式序列模式挖掘 PrefixSpan要高效,而且对于数据库大小和数据序列数目有着 关注于当数据持续增加或减少时来维护序列模式。 良好的线性可伸缩性。 文献[13]提出了一种基于GSP和一种基于MFS的增量 对于那些能够存储在内存中的数据库,该算法首先扫描数 式挖掘算法。在文献[14]提出了一种基于SPADE的增量挖 据库并把它写到内存中形成MDB(memo ̄database),在这个 掘算法ISM。文献[15,16]分别给出了ISE和IUS算法。同时 过程中计算1一序列的支持数来得到1一频繁序列;然后再利用 文献[16]还讨论了在何时需要更新序列模式。增量式序列模 1一频繁序列以及构造内存索引来生产序列模式;最后用索引以 式挖掘定义为:给定序列数据库,通过插入或删除序列形成新 及MDB根据支持度大小找到频繁模式。循环执行直到再没有 的序列数据库,在新的序列数据库中寻找所有的最大频繁序列 新的序列模式产生为止。 模式。 对于那些较大的不能装入内存的数据库,该算法把它分解 文献[13]中提到的GSP+与MFS+算法是基于GSP算法 为各个能够存储在内存中的部分,然后每个部分分别应用 的增量式序列模式挖掘算法。GSP+与GPS有着相同的结构, MEMISP来得到频繁模式,整个候选序列模式从各个部分集成 根据在前一次扫描中生成的频繁序列来得到候选序列;不同的 得到。最终的频繁序列模式的确定需要根据实际的支持度再 是GPS+采用了不同的剪枝策略,它仅仅去遍历更新的那部分 次遍历数据库。大型数据库仅需遍历两次。 数据库来检测候选序列的支持数,同时文献给出了两个剪枝策 2.1.6 SPIRIT算法 略的定理,基于这两个定理的剪枝技术,减少了候选序列的数 在文献[11]中提出的SPIRIT(sequential pattern mining 目。同样的剪枝策略亦用于MFS+算法中,它首先将在旧的数 with regular expression constraints)算法是在通过正则表达式约 据库中得到频繁序列作为新数据库的频繁序列集的评价。将 束来挖掘用户特定序列模式的一种挖掘算法。这种方法避免 所有可能的1一序列看做候选序列,通过扫描新旧数据集能够 了挖掘用户不感兴趣的模式的浪费,同时也避免了挖掘那些潜 得到所有这些候选序列的支持数。利用最小支持度阈值,将最 在的并无用处的模式。 大频繁序列放入集合中。在数据集上进行剪枝,并循环这个过 传统的序列模式挖掘用户参与挖掘只是给定了一个最小 程直到再没有生成候选或者再没有频繁序列模式产生。 支持度,用户参与对特定的问题作出经验判断,此外还会产生 文献[14]中提出一种基于SPADE方法的增量式序列模 大量的无用结果。SPIRIT算法是受用户限制的挖掘,将用户 式挖掘算法ISM。ISM算法在数据库更新时不仅能获得频繁 指定的正则表达式也加入到算法中,使用户参与到模式挖掘过 模式,而且它提供一个与用户交互的接口,用于修正最小支持 程中,算法本身与GSP算法非常相似,只是在其中加入了一系 度与包含或不包含项等的限制。ISM算法假定在旧的数据库 列能够读取和中断正则表达式限制的操作。最终形成的序列 所有序列模式均已计算出支持数,并且这些序列的反向边界以 模式综合考虑了最小支持度与用户的约束条件。针对不同的 及支持数可用在一个格里。通过构建一个增量序列格(incre— 约束程度,文中形成了四种不同的算法,SPIRIT[N]、SPIRIT mentla sequence lattice,ISL)并利用其特性,为潜在的新的序列 [L]、SPIRIT[V]、SPIRIT[R],它们的约束程度依次增强。 缩小了搜索空间。使用垂直数据存储方式在建立数据结构方 2.2多维序列模式挖掘 面的花销要比其他大多数序列模式挖掘算法在速度上有所 单维挖掘序列模式只关心一个带有时间戳的属性,多维序 提高。 列模式的挖掘目的则是寻找不同维度属性具有更多信息的有 ISM算法仅仅考虑了增加新的序列情况,文献[15]中同时 用模式。文献[12]中阐述了多维序列模式挖掘的思想,并提 考虑了增加新序列以及在序列中增加新后缀的情况,并提出一 出了三种挖掘多维序列模式的方法,分别是Seq—Dim、Dim—Seq 种新算法ISE。假定旧数据库中最大频繁模式的长度为k,ISE 以及UniSeq算法。UniSeq算法将多维信息融入到序列中形成 算法将挖掘过程分为两个子问题,对于那些长度大于k的候选 新的序列数据库,然后按照PrefixSpan方法对新的序列数据库 序列,直接应用GSP算法。而对于那些长度小于或等于k的 进行挖掘。Seq—Dim算法首先挖掘原始序列的序列模式,然后 序列进行如下操作:第一次遍历新增数据库,并计算每个单独 对序列投影下的数据库多维信息的模式进行挖掘。Dim—Seq 项的支持数。利用先前挖掘结果,能够得到在旧数据库中并不 维普资讯 http://www.cqvip.com

第7期 陈卓,等:序列模式挖掘综述 ・1963・ 频繁的频繁序列集合,定义为Ldbl。通过连接Ldbl生成2候 选序列进行后检测它们是否存在于新增数据库中。遍历数据 库从2候选序列中得到2.频繁序列。将那些按照时间顺序的 Lldb的序列与相应的序歹Ij关联起来。依次循环,直到再没有 小于等于k+1的候选序列生成。两种剪枝技术用于优化ISE 算法,旨在利用当前信息在早期减少生成候选序列的数量。 1SE仅考虑在原始数据库中扩展频繁序列的后缀,而文献 大模式算法非常相似。在第一次扫描时生成所有周期的1一频 繁模式和候选频繁模式;第二次扫描时生成所有周期的命 中集。 实验证明在单周期与多周期模式挖掘中,用最大子模式命 中集方法要优于基于Apriori算法。原因是扫描时间序列数据 库的次数和所需空问存储明显减少,同时基于最大子模式命中 集算法仅扫描两次数据库,而Apriori则需多次扫描数据库,对 于挖掘非常大的数据库时基于Ap6ofi算法需要很大的磁盘存 [16]中提出的IUS算法同时考虑了扩展前缀和后缀,它也像 ISM算法一样应用了反向边界,但ISM中没有内存管理方法。 IUS定义了反向边界的最小约束,只有那些支持度超过这个约 储空间和I/0操作。 束的序列才能被反向边界包含,因此IUS算法需要的内存空间 较小。 文献[17]中提出一种IncSpan算法,引入近似频繁序列 集、逆向匹配和共享投影等新思路进行增量挖掘。在文献 [18]中提出了一种可迭代的移动序列模式挖掘及增量更新方 法,该方法基于投影技术,只需要对数据库进行一次扫描。文 献[19]中提出了分布式序列模式挖掘的思想并给出相应的算 法。文献[20]给出了序列模式图的概念,并由此来挖掘序列 模式。 2.4周期模式挖掘 周期模式挖掘可看做序列模式挖掘的延伸,它旨在时间序 列数据库发现所有的再生模式。周期模式挖掘有以下三种任 务:a)全周期模式挖掘,在时间序列中的每一个点都为时间序 列周期模式做出贡献。b)部分周期模式挖掘,时间序列的其 中部分为周期模式做出贡献。C)周期关联规则挖掘,关联规 则是周期发生的事件集合。 大多数全周期模式挖掘可以用统计分析方法或者转换为 序列模式挖掘。部分周期模式挖掘在现实世界中普遍发生,因 此周期模式挖掘大多数有意义的问题集中在此。部分周期模 式挖掘定义为时间序列在一个时期内或者在一个特定周期范 围内挖掘序列所有频繁模式。文献[21—24]讨论了部分周期 模式挖掘。其中文献[21]中韩家炜介绍了部分周期模式挖掘 的难点,并提出了单周期与多周期模式的两种挖掘算法。 单周期模式挖掘旨在对于给定周期、支持度约束和可信度 约束,在时间序列中发现所有的部分周期模式。一种方法是将 序列分割成周期片断后直接应用传统的Apriori算法来进行挖 掘,使用Apriori特性来进行剪枝大序列的候选,发现频繁序列 的问题与在关联规则中找到频繁项集类似。在此算法中扫描 的总数不多于周期的长度。在这个方法中最坏情况下需要的 存储空间为2 一1,F是1一频繁模式的数目。另一种方法叫做 最大子模式命中集方法。在周期片断中候选模式中的最大子 模式即为命中集。整个时问序列S的命中集是所有在S中的 频繁最大子模式的集合。与Apriori算法中一样在第~次扫描 时产生1一频繁模式,在第二次扫描,生成每个周期片断的命中 集以及支持数,并存储在树结构中。序列频繁模式从带有计数 的命中集中得到。在这个算法中仅需扫描两次数据库,存储空 间为rain{m,2 一1},m是时间序列的周期总和。 以单周期利用基于命中集方法为原始方法,部分周期模式 的多周期模式挖掘直接将最大模式命中集方法应用到序列的 每一个周期。该方法由于序列中有k个循环,k为在特定范围 的周期数目,扫描次数是2 X k,需要的空间为∑ k。rain{m,, 2 }。多周期模式挖掘的另外一种方法与单周期模式挖掘最 由于时间序列数据库随时变化,在文献[22]中提出部分 周期模式的增量挖掘算法。该挖掘算法结合了两个挖掘数据 库。上述周期模式的研究焦点在于挖掘同步的周期模式,但是 实际上由于存在随机性和噪声干扰,有一些周期模式不能被识 别。文献[23]提出时问序列数据异步周期模式挖掘,用于发 现那些在子序列频繁发生但可能随干扰而变化的模式。文献 [24]中介绍在噪声环境下的序列模式挖掘相关研究。MOW— CATL(minimal occurrences with constraints and time lags)方 法 从序列中找出周期性片段的事件相关模式,并应用于预 测其他序列的类似事件。 3结束语 近些年来,序列模式挖掘取得了长足进步,但处于发展阶 段,面临着不少问题:a)序列模式挖掘过程中如何让用户有效 参与到挖掘过程中,与相关领域知识相结合进行有指导的挖 掘,避免挖掘的盲目性。b)序列模式挖掘的评价还没有一个 统一的标准和框架。C)阈值的设定还没有好的方法来评判, 如可信度、支持度与感兴趣度。d)针对海量数据,序列模式挖 掘在挖掘效率上还不高。 . 本文认为,以下几个方面是序列模式挖掘今后的发展方 向:将先验知识、领域知识与计算智能算法相结合来指导挖掘 过程,以缩小搜索空间,提高算法效率以及规则的兴趣度;多维 序列模式挖掘,寻找不同维度属性具有更多信息的有用模式; 增量式挖掘,进行规则的更新与维护;周期模式的关联规则挖 掘的高效算法;分布式序列模式挖掘以及序列模式图的研究; 设计面向非关系数据库(面向对象数据库、多维数据库、数据 仓库)的序列模式挖掘算法。 参考文献: [1]AGRAWAL R,SRIKANT R.Mining sequential pattenr[C]//Proc of the 1 1 tIl International Conference on Data Engineering.Taipei:[S. n,],1995, [2]SRIKANT R,AGRAWAL R.Mimng sequentila paaerns:Generalizations and performance improvements[C]//Proe of the 5th International Con— ference on Extending Database Technology.Avignon:[S.n.],1996. [3]ZAKI M J.SPADE:An efficient algorithm for mining frequent se— quences[J].Machine Learning。2001,41(1):31—60. [4]ZHANG M,KAO B,YIP C,et a1.A GSP—based efifcient algorithm for mining fequent sequences[C]//Pine of International Conference on Artiifcial Intelligence.Nevada:[S.n.],2001. [5]JOSHI M,KARYPIS G,KUMAR V.A universal fomrulation of se— quentila pattems[C]//Proe of the KDD’2001 Workshop on Temporal Data Mining、San Francisco:[s.n.],2001. (下转第1976页) 维普资讯 http://www.cqvip.com ・1976・ 计算机应用研究 第25卷 蘑 (a)Ei151 (b)Ei176 (c)Kroal00 (d)Lin318 局部优化加快了蚂蚁算法的收敛速度,避免了早熟和停滞现象 的发生,增强了寻优能力。经过多个TSP实例测试,实验结果 表明:对中小规模的TsP,该算法基本上能找到最优解;对大规 模的TSP,也能明显地改善解的质量。 参考文献: f 1 f DORIGO M,GAMBARDELI A I M.Ant colony system:a cooperative 图2各TSP实例的最好路径 对Kroa100、LOACA和ACA算法的收敛特性比较如图3 所示。从图中可以看出,对于基本蚁群算法,路径长度变化大 (22 288~38 218,前五次迭代在图中未列出),收敛速度慢;而 优化算法路径长度变化小(21 282~21 610),收敛速度快,仅 用了25轮即取得已知最优解21 282。 learning approach to the traveling salesman problem[J].IEEE Trans on Evolutionary Computation,1997,1(1):53—66. [2]TALBI H,DRAA A,BATOUCHE M.A new quantum—inspired genetic al— gorithm for solving the traveling salesman problem[C]//Proc of IEEE International Conference on Industiarl Technology.2004:1 192—1 197. [3]SONG Chi—hua,LEE K,LEE W D.Extended simulated annealing for augmented TSP and multi—salesmen TSP[c]//Prco of Intenaritonal Joint Conference on Neural Networks.2003:2340-2343. [4]MICHEL G,GILBERT L,FREDERIC S.A tabu search heuristic for the undirected selective traveling salesman problem[J].European J of Operational,1998,1O6(1):539—545. [5]YANG Hai—qing,YANG Hai—hong.An self-organizing neurla network 6 8 14 16 17 25 34 5O 51 417 1 000 iteration with convex—hull expanding property for TSP[c]//Proc of Interna— tional Conference on Neurl Netaworks and Brain.2005:379—383. 图3 LOACA和ACA的收敛特性对比 [6]王文峰,刘光远,温万惠.求解TSP问题的混合离散粒子群算法 [J].西南大学学报:自然科学版,2007,29(1):85-88. [7]黄雪梅,李涛,徐春林,等.一种基于免疫遗传的TSP求解方法 4 结束语 本文根据TSP的特点,设计了三种局部优化算子,每一轮 搜索结束后,采用该算子对结果路径进行变异,以寻求更优解。 (上接第1963页) [J].四川大学学报:工程科学版,2006,38(1):86.91. [8]孙力娟,王良俊,王汝传.改进的蚁群算法及其在TSP中的应用研 究[J].通信学报,2004,25(10):111-116, New York:ACM Press.1999:251-258. [6]PEI J,HAN J.PrefixSpan:mining sequentila patterns efficiently by prefix-projected pattern growth[c]//Proc of the 7th International Conference on Data Engineering.Washington DC:IEEE Computer So— ciety,2001:215-224. [15]MASSEGLIA F,PONCELET P,TEISSEIRE M.Incremental mining of sequential patterns in large databases[J].Data and Knowledge En- gineering,2003,46(1):97—121. [7]HAN J,PEI J,MORTAZVI—ASL B,et a1.FreeSpan:frequent pattern- projected sequentila pattern mining[C]//Proc of the 6th ACM SIGK- DD International Conference on Knowledge Discovery and Data Min— ing.New York:ACM Press,2000:355-359. [16]ZHENG Qing-guo,XU Ke,MA Shi—ling,et a1.The algorithms of upda— ting sequential patterns[C]//Prc ofo the 5th International Workshop on High Perfor—mance Data Mining.Washin【ton DC:[s.n.],2002.g [17]CHENG Hong,YAN X,HAN J.IncSpan:incrementla mining of se— quential patterns in large database[C]//Proc of the lOth Internatio. nal Conference on Knowledge Discovery and Data Mining.New York: ACM Press,2004:527-532. [8]HAN J,PEI J,YAN X.From sequentila pattern mining to structured pattern mining:a pattern—growth approach[J].Journal of Computer Science and Technology,2004,19(3):257—279. [18]牛兴雯,杨冬青,唐世渭,等.OSAF2tree——可迭代的移动序列 模式挖掘及增量更新方法[J].计算机研究与发展,2004,41 (1O):1761-1767. [9]张坤,朱杨勇.无重复投影数据库扫描的序列模式挖掘算法[J]. 计算机研究与发展,2007,44(1):126—132. [10]LIN Ming-yen,LEE S Y.Fast discovery of sequential patterns by memory indexing[c]//Proc of the 4th International Conference on Data Warehousing and Knowledge Discovery.London,UK:Springer- Verlag,2002:150—160. [19]邹翔,张巍,刘洋,等.分布式序列模式发现算法的研究[J].软件 学报,2005,16(7):1262-1269. [2O]吕静,王晓峰.序列模式图及其构造算法[J].计算机学报,2004, 27(6):782-787. [11]GAROFALAKIS M N,RASTOGI R, SHIM K.Spiirt:sequential pat- tern mining with regular expression constraints[C]//Proc of the 25th International Conference on Very Large Databases.San Francisco, CA:Morgan Kaufmann Publishers Inc,I999:223.234. [21]HAN J,DONG G,YIN Y.Eficifent mining of partila periodic patterns in time series datbaase[C】//Prc oof the 15th International Conference on Data Engineering.Washington DC:IEEE Computer Society,1999. [22]YANG J,WANG Wei,YU P S.Mining asynchronous periodic patterns in time series data『C]//Proc of the 6th International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2000: 275.279. [I2]PINTO H,HAN J,PEI J,et a1.Multi—dimensional sequential pattern mining『C]//Proc of the 10th International Conference on Information and Knowledge Management. Atlanta,New York:ACM Press,2001: 81.88. [23]ELFEKY M G.Incrementla mining of partial periodic patterns in time— series databases[EB/OL].(2000).http://citeseer.ist.psu.edu/ 421296.htm1. [13]ZHANG Ming-hua,KAO B,CHEUNG D W,et a1.Eficifent algorithms orf incremental update of frequent sequences[c]//Proe of the Paci- ic—Asifa Conference on Knowledge Discovery and Data Mining.Lon- don,UK:Springer-Verlag,2002:186-197 [24]BETI'INI C,WANG X S,JAJODIA S.Mining temporal relationships with multiple granularities in time sequences[J].Data Engineering Bulletin,1998,21:32—38. [14]PARTHAsARATHY S,ZAKI M J,OGIHARA M,et a1.Incremental and interactive sequence mining[c]//Proc of the 8th International Conference on Information and Knowledge Management..Kansas City, [25]HARMS S K,DEOGUN J S.Sequential association rule mining with time lags[J].Journal of Intelligent Information Systems,2004,22 (1):7.22. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- azee.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务