基于图论的频繁模式挖掘


计算机研究与发展 ISSN 100021239/ CN 1121777/ TP Journal of Computer Research and Development 42 (2) : 230~235 , 2005  收稿日期 :2003 - 07 - 08 ;修回日期 :2004 - 10 - 29  基金项目 :国家自然科学基金项目(69933010 ,60303008) ;国家“八六三”高技术研究发展计划基金项目(2002AA4Z3430)   基于图论的频繁模式挖掘 汪  卫  周皓峰  袁晴晴  楼宇波  施伯乐 (复旦大学计算机与信息技术系  上海  200433) (weiwang1 @fudan1edu1cn) Mining Frequent Patterns Based on Graph Theory Wang Wei , Zhou Haofeng , Yuan Qingqing , Lou Yubo , and Sui Baile ( Department of Com puting & Inf ormation Technology , Fudan University , S hanghai 200433) Abstract  Mining the frequent pattern from data set is one of the key success stories of data mining re2 search1 Currently , most of the efforts are focused on the independent data such as the items in the market2 ing basket1 However , the objects in the real world often have close relationship with each other1 How to gain the frequent pattern from these relations is the objective of this paper1 Graphs are used to model the re2 lations , and a simple type is selected for analysis1 Combining the graph2theory and algorithms to generate frequent patterns , two new algorithms are proposed1 The first algorithm , named AM GM , is based on the Aproiri idea and makes use of matrix1 For the second algorithm , a new structure SFP2tree and an algo2 rithm , which can mine these simple graphs more efficiently , have been proposed1 The performance of the algorithms is evaluated by experiments with synthetic datasets1 The empirical results show that they both can do the job well , while SFP performs better than AM GM1 Such algorithms are also applied in mining of the authoritative pages and communities on Web , which is useful for Web mining1 At the end of the paper , the potential improvement is mentioned1 Key words  SFP tree ; connected frequent graph ; data mining 摘  要  对图数据频繁模式的挖掘是近年的研究热点1 选择了惟一标号图进行分析 ,结合图论和频集 生成的算法 ,提出了基于 Aproiri 思想、运用矩阵乘法的 AM GM 算法和基于 SFP 树的 SFP 算法1 它们可 有效地挖掘简单图中连通频繁子图1 实验表明 ,这两个算法是十分有效的 ,其中 SFP 算法的性能优于 AM GM 1 该算法还被运用于发现 Web 上的权威页面和社团 ,具有良好的效果1 关键词  SFP 树 ;频繁连通图 ;数据挖掘 中图法分类号  TP301 1  引   言 经过近 10 年的发展 ,关联规则的研究逐渐拓展 到 Web 挖掘、生物信息学、购物篮分析等众多实际 应用领域1 在这些应用包含大量复杂类型的数据 , 如在化学数据中由于原子与原子之间存在化学键 , 其数据构成一个图1 Web 网站的结构也是一种图的 结构等1 如何对图结构数据进行关联规则分析是一 项很有意义的工作1 本文从标号图的连通频繁子图的分析入手 ,提 出对包含结构信息的数据进行初步分析的方法 ,以 求将原先对单个项的频繁模式生成工作扩展到项对 的领域上1 本文在第 2 节介绍相关工作 ;在第 3 节引入标 号图等基本概念 ,在此基础上提出两种算法 :基于 Aproiri 思想、利用矩阵乘法的 AM GM 算法和基于 FP2Growth 算法的 SFP 算法 ;在第 4 节中 ,将给出 这两种算法的思想与实现 ,然后通过一系列实验对 比说明这两种算法的特性 ;在第 6 节 ,这些算法将被 运用于发现 Web 权威资源发现 ;最后给出算法的一 些扩展方向1 2  相关工作 在频繁模式挖掘方面 Aproiri[1 ] 算法是最著名 的基于广度优先思想的算法 ,另一个是 Mannila 等 人提出的 LevelWise 和 Guess & Correct 算法[2 ] ,随 后 Park 等人利用 Hash 技术提出了 DHP[3 ]算法 ,而 Brin 等人提出的 DIC[4 ]算法则充分利用了动态技术 的技巧1 这些工作都是为了减少在频繁项集生成过 程中候选项集产生的个数1 与广度优先相对应的是 深度优先算法 ,它以 Agarwal 等人的 DepthFirst [5 ]和 Tree2Project [6 ]算法为代表1 这类算法特点是适合于 生成长模式1 2000 年裴健等人提出了不产生候选项 集的 FP2Growth 算法[7 ] ,简化了频繁项集的生成工 作 ,之后 ,又有不少工作对该算法进行了改进 ,例如 H2Mine[8 ]等 ,以求逐步提高效率1 在处理的数据对象类型方面 ,算法从最初的对 购物篮数据的处理逐步演化到具有结构特性的序列 数据的处理[9 ] ,Web 访问日志的处理[10 ]等1 以及化 学物质结构、生物 pathway 等图类型数据1 本文针对在 Web 数据管理中广泛应用的惟一 标号图提出了频繁子图的挖掘算法1 目前已有 AGM[11 ]和 FSG[12 ]两个子图的挖掘算法1 这 2 个算 法都利用邻接矩阵分别对图的顶点和边进行逐层构 造 ,以最终获取频繁的子图1 所不同的是 AGM 是求 出了导出(induced) 子图 ,图不一定连通 ,而 FSG 则 求出了连通的频繁子图1 本文提出了两种频繁子图挖掘算法 :第 1 个是 基于 Aproiri 思想和处理这类方法常用的邻接矩阵 的 AM GM 算法 ;第 2 个是基于 FP2Growth 思想的 SFP 算法 ,它没有使用邻接矩阵1 并以惟一标号图 描述 Web 资源 ,研究了 Web 资源中 d 的权威页面 (对应于图中的频繁顶点) 和权威社团 (表征了权威 页面之间的紧密关系)1 3  基本概念 在详细介绍算法之前 ,首先给出有关的基本概 念和定义1 定义 11 无向简单图1 设 V = { v1 , v2 , ⋯, v n}是 一个非空集合 , E = { e| e =〈 vi , vj 〉, vi , vj ∈V } ,其 中〈 vi , vj〉为无序对 ,并且 Πei , ej ∈E , ei ≠ej ,称 ( V , E) 为无向简单图 ,简称图 ,记为 G ( V , E) , V 中的 元素为顶点 , V 为顶点集; E 为边集1 若结点上的 标号互不相同 ,则为惟一标号图1 由于图中所有的顶点被惟一地标号 ,因此图中 所有的边也由无序标号对〈li , lj 〉惟一标定 ,记该标 号边为 lilj1 下文讨论的图都是惟一标号图 ,用标号 图简称1 定义 21 图数据集合1 图库 GD = { G1 , G2 , ⋯, GN} , 其 中 , Gi 为 标 号 图 , 称 N 为 图 库 的 大 小 (size) ,所有标号的全体构成库标号集 L D1 定义 31 子图1 图 G′= ( V′, E′) 为图 G = ( V , E) 的子图 ,当且仅当 V′Α V 且 Πvi , vj ∈V′,〈 vi , vj〉∈ E ]〈vi , vj〉∈E′,记做 G′Α G,或称 G 包含 G′1 定义 41 支持度1 给定图库 GD ,图 G 的支持度 为 GD 中包含图 G 的图的数目1 定义 51 频繁(子) 图1 给定图库 GD ,图 G 为频 繁图 ,当且仅当 s ( G) ≥minsup1 minsup 为指定的 最小支持度 ,称为阈值1 定义 61 连通图1 设 u 和 v 是图 G 的两个不同 的顶点 ,若 u 和 v 之间存在一条路 ,则称顶点 u 和 v 是连通的1 若图 G 中任何两个不同顶点之间存在一 条路 ,则称 G 为连通图 ,否则称 G 为不连通图1 本文的目标是在给定标号图库中 ,找出该图库 中所有的频繁连通子图1 4  生成频繁连通图 假设图数据以以下的格式存储 ,如表 1 所示 : Table 1  A Sample of Graph 表 1  图的例子 GID EID ⋯ ⋯ 23 AB ,BD ,〈B〉⋯ ⋯ ⋯ 表 1 中 , GID 代表标号图的 ID 号 , EID 是图中 边的列表1 图中每条边都以 lilj 形式存储 ,每条边的 两个顶点以字母序排序1 132汪  卫等 :基于图论的频繁模式挖掘 411  AMGM 算法 AM GM 算法是基于 Aproiri 的 ,它采用逐层构 造的方法 :先构造只含有一条边的频繁子图;然后以 此为基础构造含两条边的候选连通子图 ,通过扫描 数据库找到含有两条边的频繁连通图集1 以此类 推 ,从含有 k 条边 ( k2阶) 的频繁连通图找到 k + 12 阶的候选连通图集 ,根据最小支持度 ,找到 k + 1 阶 的频繁连通图集1 AM GM 算法采用邻接矩阵存储图数据 ,在矩阵 中行坐标为边 ,列坐标为图1 由于点集的标号有限 , 所以边的数目也是有限的 ,而且该数目不大于 C2 n1 AM GM 算法的描述如下 : 算法 11 AproiriMatrixGraphMining( GD , minsup)1 输入 :图库 GD ,最小支持度 minsup1 输出 :频繁连通图集 F1 {扫描 GD , 统计 GD 所有点集 V 和边集 E , E 为 12阶候选集合 C1 F0 = { v| v ∈V , s ( v) ≥minsup} 计算 C1 中各边的 support ,生成 12阶频繁连通 图集 F1 C2 = gentwocandidate ( F1 ) / 3 生成 22阶候选 连通图集 3 / for ( k = 2 ; ; k ++ )  { 计算 Ck 中各子图的支持度   Fk = { g| g ∈Ck , s ( g) ≥minsup}   if ( Fk = §) 算法结束   Ck + 1 = gencandidate ( Fk)   if ( Ck + 1 = §) 算法结束} } 该算法首先扫描数据库 ,并将符合支持度的点 作为频繁图输出1 再利用符合支持度的边的信息构 造矩阵 A ( A 中行向量为边 , 列向量为图库中的 图)1然后生成含有两条边的候选连通图 , 并计算其 支持度 ,将频繁的连通图输出1 然后生成下一轮的 候选连通图1 为了计算 Ci 中每个候选子图的支持度 , Ci 也 用矩阵表示 , 行向量为候选图边 , 列向量为边的集 合1通过计算 Bi = Ci × A 可以得到频繁图同图库中 的图包含关系 ,通过将 Bi 同一个只有一列的且元素 全为 1 的矩阵相乘可以得到每个候选图的支持度1 算法中关键的一步是候选图集的生成1 与 Aproiri 算法类似 ,我们首先耀确定那些 k2阶频繁图 可以合并生成 k + 12阶候选图1 Gencandidate 过程 的描述如下所示1 Gencandidate ( Fk) { C′k 为 Fk 对应的矩阵 Dk = C′k × ( C′k ) T / 3 Dk 中置 1 的位 dij 代表了第 i 个图可以与 第 j 个图进行合并构成一个新的 k + 12阶的图 for ( i = 1 , k = 0; i ≤s′; i + + )  for ( j = i + 1 ; j ≤s′; j + + )  {if ( dij ! = 0)   C′k 的第 i 行与第 j 行进行“按位与”运算后 加入矩阵 Ck + 1}   删除 Ck + 1中的重复图   返回( Ck + 1) } 由于算法通过有公共 k - 1 条边的 k2阶图生成 k + 12阶图 ,所以除了从 12阶频繁集生成 22阶候选 集这一步外 , 均能保证了图的连通性1 由于算法中 组成图的两个单边的图有公共顶点 ,因此所得的图 均连通1 412  基于 FP2Growth 思想的 SFP 算法 与 Aproiri 类似 ,在 AM GM 算法中候选图集的 生成和支持度计算仍是瓶颈1 本文提出了基于 FP2 Growth 的 SFP 算法1 SFP 算法的工作分为 2 步 : 构建 SFP 树和从 SFP 树中获取频繁连通图1 SFP 树是一棵包含结构信息的 FP2树1 在树的 每个结点上 ,不仅记录下该结点所代表的标号边及 其支持度 ,还记录该结点与该结点所在的树分支中 其他结点的连接信息1 与 FP2树一样 ,算法维持用于 索引树中标号头表1 该表以支持度从大到小排序1 另外 ,建树时还临时保留于生成只包含一个点的频 繁图集的标号顶点表1 构建 SFP 树的算法如下所示1 算法 21 FP 树的构建1 输入 :图库 GD ,最小支持度 minsup1 输出 :一棵 FP 树1 方法 : constructS FPtree( GD , minsup) { FV 为记录 GD 中各顶点支持度的列表 FE 为记录 GD 中各边支持度的列表 将支持度初始化为 0 对 GD 中的每个图 g {得到 g 的顶点集 V g 和边集 Eg 所有的 v ∈V g ,修改 FV 中的对应项 所有的 e ∈Eg ,修改 FE 中的对应项} for 所有 v ∈FV ,do if ( v1support ≥minsup) 输出( v , v1support) 将 FE 中的边按支持度从大到小排序 删除 FE 中不满足支持度的边 232 计算机研究与发展  2005 , 42 (2) / 3 FE 构成 FP 树的头表 3 / 初始化 FP 树 T ,建立根结点 ,并标志为“空” for all g ∈GD{  按照 FE 中的顺序 ,对 g 中的频繁边进行排序  insert ( [ e| E] , T)  return( T) } } insert ( [ e| E] , T) {if ( T 有一个子女结点 N 并且 N 1edgeid = e1edgeid)  N1 count ++ else{ 创建新的结点 N , 并且 N 1edgeid = e1edgeid , N 1 count = 1 , N1 parent = T 将 N 链接到头表中 将 N 与它所有有关的祖先结点建立双向链接 if ( E ≠§) insert ( E , N)  return( T) } } 该算法扫描 2 次图数据集1 第 1 次扫描建立用 于索引的头表1 头表中记录边的有关信息 , 如边的 标号、支持度 , 并对图中的顶点利用标号顶点表计 数1第 1 遍扫描完成后 ,利用支持度阈值进行过滤 , 并将已符合支持度的点作为频繁图输出1 在第 2 次扫描中将剔除不符合支持度的边和孤 立点 ,将余下的边按其在头表中的支持度从大到小 按照路径加入到 SFP 树中1 加入结点时 , 首先判定 该结点在特定分支上是否存在1 如存在 , 则只增加 支持度;否则 ,建立新的结点 ,并与其相连接祖先结 点进行双向连接1 下面将利用 SFP 树构建连通频 繁图1 算法 31 挖掘频繁连通图集1 输入 :SFP 树 T ,最小支持度 minsup1 输出 :频繁连通图集1 方法 :递归调用 S FPMining 过程 , 初始调用为 S FPMining ( T ,NULL) S FPMining ( Tree ,α) {对于 Tree 的头表中的每一项 ai ,do  {if ( i < n - 1) then return  β = union (α, ai ) , 并 且 β1support = ai1support  if β是连通图 ,then 输出(β,β1support)  生成β的条件数据库 Dβ  Treeβ= constructCS FP( Dβ)  If ( Treeβ≠§) then S FPMining( Treeβ,β) }} 算法利用 SFP 树的头表自下而上地依次从 SFP 树中抽取连通频繁图1 对于每个头表中的标号 边 ai ,将其与生成目前的 SFP 树的前缀模式 α合 并1如果 ai 和α合成后是连通的 ,则作为结果输出1 然后 ,对 ai 和α构成的新的前缀模式β, 在当前的 SFP 树上 ,生成β的条件图库 ,并调用 constructCS FP 算法生成β条件 SFP 树 ,以递归进行挖掘 ,直至不再 生成新的 SFP 树1 constructCS FP 算法与 constructS FP 基本类似 ,惟一区别在于它不必考虑顶点频繁的问 题 ,只要考虑边的情况1 这个算法的核心包括 2 部分 :β的生成和连通 性的判定和β条件图库的生成1 β本身的生成和连通性的判定利用顶点的标号 完成1 判定方法如下所示1 算法 41 β的生成和连通性判定1 假定α=γ1 ∪γ2 ∪⋯∪γn ,这里 i (1 ≤i ≤n) 是 连通子图 , Πγi ,γj (1 ≤i , j ≤n) 不连通1 Pi ( i = 1 , ⋯ n) 为组成γi 中所有边的点的集合 ,并且 P = ∪Pi1 显然 , ΠPi , Pj ( i ≠j) Pi ∩Pj = §1 假定 ai =〈v , w〉, union (α, ai) {for all Pi , Pj in P {if v ∈Pi , w ∈Pj {β= (α- γi - γj ) ∪(γi ∪γj ∪{ ai} ) } if v ∈Pi , w | Pj{β= (α- γi) ∪(γi ∪{ ai} ) } if v | Pi , w ∈Pj{β= (α- γj) ∪(γj ∪{ ai} ) } if v | Pi , w | Pj{β=α∪{ ai} } } } 例 11 给定 a1 =〈1 ,3〉, a2 =〈2 ,7〉, a3 =〈7 ,8〉, 以及α = {〈1 , 2〉,〈2 , 6〉,〈3 , 4〉,〈4 , 5〉〈3 , 5〉} = {〈1 ,2〉,〈2 ,6〉} ∩{〈3 ,4〉,〈4 ,5〉〈3 ,5〉} 1 这里 ,前缀 模式α由两个连通子图构成 ,这两个部分互不相连1 我们可以根据算法 3 计算以下 3 个集合 : β1 = union (α, a1) = {〈1 ,2〉,〈2 ,6〉,〈1 ,3〉,〈3 , 4〉,〈4 ,5〉,〈3 ,5〉}1 这个计算根据的是第 1 条规则 , 显然它是连通的1 β2 = union (α, a2) = {〈1 ,2〉,〈2 ,6〉,〈2 ,7〉,〈3 , 4〉,〈4 , 5〉,〈3 , 5〉} = {〈1 , 2〉,〈2 , 6〉,〈2 , 7〉} ∩{〈3 , 4〉,〈4 ,5〉,〈3 , 5〉} , 根据规则 2 , 形成的是两个连通 分量1 β3 = union (α, a3) = {〈1 ,2〉,〈2 ,6〉,〈3 ,4〉,〈4 , 5〉,〈3 , 5〉,〈7 , 8〉} = {〈1 , 2〉,〈2 , 6〉} ∩{〈3 , 4〉,〈4 , 5〉,〈3 ,5〉} ∩{〈7 ,8〉} ,根据第 3 条规则 ,形成 3 个连 通分量1 另外 ,当 α有 n 个互不连通的连通子图时 , 要 将这些子图连通起来 , 至少需要 n - 1 条边 , 因此 , 如果头表中 ai ( i > 0) 的下标 i 一旦小于 n - 1 ,则不 可能在α的基础上产生连通图 ,因此可以直接返回 上一层的递归调用 ,而不必进行下面的工作1 332汪  卫等 :基于图论的频繁模式挖掘 为了提高效率 ,β条件图库生成时可利用连通 关系剔除今后对图的连通性无用的边1 当前的 SFP 树是前缀模式 α的条件 SFP 树 , 因此 , 我们对于当 前树中每一个标号为 ai 的结点 ,自该结点沿树的分 支一直向上到根 ,路径上的所有能与 ai 连通的结点 或者能与α连通的结点将构成β条件图库中的一个 图1 这样可以剔除那些既不与α连通 ,又不与 ai 连 通的点1 同时考虑与 ai 连通的边和与α连通的边也 可以避免 ,有的边不能在分支上与 ai 连通 , 但却可 以通过α与 ai 其连通 ,反之亦然1 5  实验与分析 测试环境为 PIII800 ,512MB 的 RAM1 算法用标 准的 C ++ 库编写 ,在 Windows 2000 Server 上测试1 测试数据生成有 5 个参数 :标号点集的大小 N ,图数据集合的大小| D| , 是否连通 , 图中的平均 顶点数| T| 和图中边的数目| E| 1 生成的测试数据 值服从正态分布1 首先生成标号点的全集 ,然后按照图数据集合 的大小逐个生成图 ,根据每个图的平均顶点数 ,按正 态分布函数生成实际的顶点数 ,并从标号点全集中 随机挑选出符合相应的标号点 ,生成标号边1 AM GM 算法只扫描数据库一遍 , 每一条边用 1b 表示 ,矩阵的运算基本都是位运算1 但随着数据 量的增大 ,矩阵随之增大1 而 SFP 算法摒弃了候选 图集的生成工作 ,虽然在构造时要考虑连通性 ,但总 体讲 ,代价比候选图集生成小得多1 我们对两个算 法进行了测试以进行比较1 我们做了如下 3 项测试 : (1) 对于一定大小的图集 (| D| = 200 , | T| = 20) ,测试运行时间随支持度的变化情况 (结果见图 1)1 Fig1 1  The performance and support1 图 1  运行时间与支持度 (2) 对于一定大小的图集 (| D| = 200) 和支持 度 15 % ,测试运行时间随顶点数的变化情况 (结果 见图 2)1 (3) 对于一定大小的图 (| T| = 20) 和支持度 15 % ,测试运行时间随图数的变化情况(结果见图 3)1 Fig1 2  The performance and number of nodes1 图 2  运行时间与平均顶点个数 Fig1 3  The performance and size of graph database1 图 3  运行时间与图库大小   由实验结果可以看到 SFP 比 AM GM 的性能高 很多 ,特别在支持度小和数据规模大的时候1 6  利用惟一标号图的频繁模式发现权威 Web 资源   权威网页和权威社团的获取是 Web 检索中的 重要问题1 我们基于 SFP 实现了一个权威社团的获 取系统1 为了获取 Web 网页 ,我们实现了一个抓取网页 的工具 pageSnagger ,它以搜索引擎返回的结果为种 子 ,抓取这些网页链接的网页 ,本文设置搜索的页面 深度为 2 1 对获取的网页生成 Web 网页图库 GD1 然后对 GD 应用 SFP 算法 ,获得最频繁出现的 社团 ,所谓社团就是那些针对某一主题 ,相互之间具 有协作关系的网页集合1 这些社团和我们所关心的 主题高度相符1 在本文中就是频繁出现的网页结构1 我们以 XML 作为检索词 ,对返回的结构构造 图库 ,以 13 作为最小频繁度 ,则找到 14 个网页 ,利 用 SFP 进行分析1 可以获得两个最大的频繁子图 , 它们分别以 w31org 和 xml1com 为中心1 7  结   论 本文针对惟一标号图提出能生成连通频繁图的 AM GM 算法和 SFP 算法 ,相比之下 ,SFP 算法的性 能更优于 AM GM 算法1 今后的工作将主要放在如 何从非惟一标号的图中产生连通频繁图方面1 参 考 文 献 1 Rakesh Agrawal , Ramakrishnan Srikant1 Fast algorithms for min2 432 计算机研究与发展  2005 , 42 (2) ing association rules in large databases1 VLDB1994 , Santiago , Chile , 1994 2 Heikki Mannila , et al11 Search and borders of theories in knowl2 edge discovery1 Data Mining and Knowledge Discovery , 1997 , 1 (3) : 241~258 3 Jong Soo Park , et al11 An effective Hash based algorithm for min2 ing association rules1 SIGMOD1995 , San Jose , USA , 1995 4 Sergey Brin , et al11 Dynamic itemset counting and implication rules for market basket data1 SIGMOD1997 , Tucson , USA , 1997 5 Ramesh C1 Agarwal , et al11 Depth first generation of long pat2 terns , KDD 2000 , Boston , USA , 2000 6 Ramesh C1 Agarwal , et al11 A tree projection algorithm for gen2 eration of frequent itemsets1 J1 of Parallel and Distributed Com2 puting , 2001 , 61(3) : 350~371 7 Jiawei Han , Jian Pei , Yiwen Yin1 Mining frequent patterns with2 out candidate generation1 SIGMOD2000 , Dallas , USA , 2000 8 J1 Pei , et al11 H2Mine : Hyper2structure mining of frequent pat2 terns in large databases1 ICDM’01 , San Jose , CA , 2001 9 Mike Perkowitz , Oren Etzioni1 Adaptive sites : Automatically learning from user access patterns1 WWW’97 , Santa Clara , 1997 10 J1 Pei , et al11 PrefixSpan : Mining sequential patterns efficiently by prefix2projected pattern growth1 ICDE’01 , Heidelberg , 2001 11 Akihiro Inokuchi , et al11 An apriori2based algorithm for mining frequent substructures from graph data1 PDKK2000 , Lyon , France , 2000 12 Michihiro Kuramochi , et al11 Frequent subgraph discovery1 ICDM 2001 , San Jose , USA , 2001 Wang Wei , born in 19701 Received Ph1D1 degree in computer science from Fudan Uni2 versity in 19981 Now he is a professor in Fu2 dan University1 His current research inter2 ests include database , data mining and man2 agement of XML data1 汪卫 ,1970 年生 ,博士 ,教授 ,主要研究方向为数据库技术、 数据挖掘、XML 数据管理1 Zhou Haofeng , born in 19751 He received Ph1D1 degree in Computer Science from Fu2 dan University in 20031 Now he is working with IBM1 His current research interests in2 clude database , data mining1 周皓峰 ,1975 年生 ,博士 ,主要研究方向为 数据挖掘1 Yuan Qingqing , born in 19751 She received master degree in computer science from Fu2 dan University in 20031 Now she is a Ph1 D1 candidate in computer science of UCSB1 Her current research interests include database , data mining1 袁晴晴 ,1978 年生 ,博士研究生 ,主要研究方向为数据挖掘1 Lou Yubo , born in 19751 He received mas2 ter degree in computer science from Fudan University in 20031 His current research in2 terests include database , data mining , etc1 楼宇波 ,1978 年生 ,硕士 ,主要研究方向为 数据挖掘1 Shi Baile , born in 19351 Professor and Ph. D. supervisor in Fudan University1 His cur2 rent research interests include database , data mining , digital library and security database1 施伯乐 ,1935 年生 ,教授 ,博士生导师 ,主 要研究方向为数据库系统及其应用、数据 仓库与数据挖掘、数字图书馆、安全数据库1 Research Background Mining the frequent pattern from data set is one of the key success stories of data mining research1 Currently , most of the efforts are focused on the independent data such as the items in the marketing basket1 However , the objects in the real world often have close relationship with each other1 For example the structure of molecule and the map of web site can all be described by graph data1 The structure of XML data can be considered as a tree (a special kind of graph) 1 How to gain the frequent pattern from these graph data is the objective in this paper1 We select a simple type graph (the labels in the node are unique) for analysis1 Combining the graph2the2 ory and algorithms to generate frequent patterns , two new algorithms are proposed1 This paper is supported by the following projects : (1) The key project of NSFC“Research on the key techniques of digital library”; (2) The project of NSFC“The techniques of query and manage aggregate data”; (3) The 863 High Tech Plan“Web based Database new techniques”1 532汪  卫等 :基于图论的频繁模式挖掘
还剩5页未读

继续阅读

下载pdf到电脑,查找使用更方便

pdf的实际排版效果,会与网站的显示效果略有不同!!

需要 3 金币 [ 分享pdf获得金币 ] 0 人已下载

下载pdf

pdf贡献者

jingbo158

贡献于2014-04-23

下载需要 3 金币 [金币充值 ]
亲,您也可以通过 分享原创pdf 来获得金币奖励!
下载pdf