• 1. 密文全文检索系统中大规模密文文档管理研究
  • 2. 报告内容1、选题来源及研究的意义 2、国内外研究现状及分析 3、主要研究内容 4、研究方案及进度安排
  • 3. 1、选题来源及研究的目的和意义来源863 项目计划   分布式密文全文检索系统关键技术研究 ( 国家863计划项目 ) ( 2007AA01Z403 ) ( 2007 - 2009 )
  • 4. Mimir数据特点Mimir数据属性: (1)密态小文档: (2)结构化XMl文档加密后大小3-10k; (3)数目达到百万甚至千万篇(T级数据) (4)密钥更换 (5)全文检索服务 管理难点: (1)块数据管理 (2)单xml文档管理 (3)热点数据的处理
  • 5. 目标细化结构上: (1)文档管理模块与上层查询模块松耦合,实现由文件名透明访问文件 性能上: (2)实现百万篇级密文文档分布式存储、随机访问 (3)查找并内容返显的时间控制在一定范围[目标500ms/30篇] (4)文档密钥更换以及安全审计 (5)优化的压缩算法和解压速度
  • 6. 课题意义有助于加强各行各业文献信息资源建设、开发、利用,其产品的推广也将带来巨大的社会和经济效益,对我国科技进步和经济、社会发展具有十分重要的战略意义。 (1)密文全文检索系统(协作) (2)涉密小文档的管理(独立)
  • 7. 2、国内外研究现状及分析2.1 搜索引擎中的文档管理体系结构 2.2 搜索引擎中的文档存储策略 2.3 搜索引擎中的文档数据更新维护策略 2.4 密文全文检索系统中密文文档管理需求
  • 8. 2.1 搜索引擎中的文档管理体系结构(1)基于数据库思路的: Yahoo!PNUTS (2)基于文件系统思路的: Google: GFS+Bigtable+MapReduce 天网搜索 类似Google,但又有差别[blocksize/ Read] (3)基于网络虚拟存储思路的: 目前没有用于搜索引擎的,p2p文件共享的 居多
  • 9. 2.2 搜索引擎中的文档存储策略共性: (1)目标都是一致的,为检索请求提供及时的数据。 “三本”方式 (2)存储策略的选择依赖搜索引擎选择的存储体系结构。 (3)搜索引擎中数据的存储量非常大、单个文件大小不一致、数据格式不统一、数据内容千差万别、数据更新速度不一致等等。 (4)对数据进行分类压缩存储,并保证一定的解压速度 (5)数据在块级别上一般都实现了冗余备份,具有一定的容错性 特性: Google Bigtable 行列 Yahool! PNUTS table
  • 10. 2.3 搜索引擎中的文档数据更新维护策略(1)数据更新维护的范围和粒度 局部少、全局频繁、块级别、单文档 (2)数据更新维护的类型和内容 读、写、删除、移动 (3)数据更新维护的代价 数据库、文件系统
  • 11. 2.4 密文全文检索系统中密文文档管理需求(1)块级别管理 密态小文档合并成块后,系统对大块数据的管理能够提供扩展性、灵活性。系统能够管理千万篇的文档数据,在大数据集下系统性能稳定。 (2)单密态文档管理 适应涉密企事业单位的涉密公文的类型、大小、加密和密钥更换需求,同时对热点文档做优化处理。
  • 12. 3、主要研究内容1.MStore框架设计 2.MStore数据存储策略 3. MStore数据操作
  • 13. 1.MStore框架设
  • 14. 2.MStore数据存储策略BigtableMtable
  • 15. 3. MStore数据操作
  • 16. 4、技术方案与进度安排主要技术关键包括: 1、块的大小选择和属性定义。 2、加密粒度和快速解压设计。 3、热点文档的处理。 4、块数据和单密文文档数据的缓存策略