CN103646073A - 一种基于HBase表的条件查询优化方法 - Google Patents

一种基于HBase表的条件查询优化方法 Download PDF

Info

Publication number
CN103646073A
CN103646073A CN201310667847.0A CN201310667847A CN103646073A CN 103646073 A CN103646073 A CN 103646073A CN 201310667847 A CN201310667847 A CN 201310667847A CN 103646073 A CN103646073 A CN 103646073A
Authority
CN
China
Prior art keywords
region
hbase
data
query
condition query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310667847.0A
Other languages
English (en)
Inventor
郭美思
吴楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201310667847.0A priority Critical patent/CN103646073A/zh
Publication of CN103646073A publication Critical patent/CN103646073A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation

Abstract

本发明提供一种基于HBase表的条件查询优化方法,针对分布式计算框架对数据的分析处理能力及并行计算的特点,把HBase表的条件查询基于MapReduce计算框架,提高查询效率。该优化方法主要通过Region预分配、RowKey设计及MapReduce模块来实现。该一种基于HBase表的条件查询优化方法和现有技术相比,提高了条件查询的效率,为条件查询提供了优化的方法;该方法的条件查询过程较为简洁,且支持并行计算,因此更为高效,实用性强,易于推广。

Description

一种基于HBase表的条件查询优化方法
技术领域
本发明涉及通信信息技术领域,具体的说是一种基于HBase表的条件查询优化方法。
背景技术
随着数据的海量剧增,大数据已然成为了当今的焦点。在大数据所需的技术中,分布式文件系统、分布式数据库等都是适用于大数据的技术。HBase是一个分布式的、面向列的开源数据库。它是利用Hadoop HDFS作为其文件存储系统。随着HBase在性能和稳定性持续改善,HBase逐渐成为在大数据NoSQL领域的标准之一。HBase 已经被很多大公司采用,如 Facebook,Twitter,Adobe, Cloudera,IBM等等。因此,基于HBase表的条件查询优化是非常重要的。 
目前对于HBase的查询实现有两种方式:一种是按指定RowKey获取唯一一条记录的Get方法;另一种是按指定的条件获取一批记录的Scan方法。其中实现条件查询功能使用的是Scan方法,scan可以通过setCaching与setBatch方法提高速度(以空间换时间);同时也可以根据setStartRow与setEndRow来限定范围。范围越小,性能越高。通过巧妙的RowKey设计使批量获取记录集合中的元素集中在一起(应该在同一个Region下),可以在遍历结果时获得很好的性能。
在分布式计算框架中,并行计算在效率上有很大提高,并且分布式文件系统HDFS能保存大量的数据,可扩展性强。基于上述原因,提出一种基于HBase表格的条件查询优化方法。该方案采用Region预分配与设计合理的RowKey来将源数据导入到HBase表中。并利用MapReduce框架来实现HBase表的条件查询,提高查询效率,并通过设置集群中相应的配置参数达到优化的效果。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种基于HBase表的条件查询优化方法。
本发明的技术方案是按以下方式实现的,该一种基于HBase表的条件查询优化方法,该方法的具体实施过程为:
根据表格的数据量大小及集群的配置来确定预分配表分区Region个数:Region预分配中,根据导入HBase的数据量及分布式集群的规模确定Region的个数,然后按数据量,Row Key的规则预先设计并分配好Region,HBase的Region随着大小的不断变大会触发一个阈值,一旦触发,Region会自动分裂;较多的Region会保证并发性能;
根据条件查询的应用来设计合理的RowKey:如果记录的Row Key落在某个Region的start key和end key的范围之内,该数据就会存储到这个Region上;
根据Region预分配、RowKey和分布式编程框架来提高查询性能:MapReduce计算框架中,Map模块需要根据条件查询HBase表中符合的记录,根据条件查询的特点及RowKey设计出条件查询的优化方案,利用Scan中的StartKey和EndKey参数提高查找性能,同时根据分布式集群参数合理配置Map数量,达到优化效果。
所述MapReduce编程框架是最后得到条件查询结果的处理过程:Map模块处理了根据条件查询hbase表,最终得到查询的记录,再对查询的记录进行处理,得到想要的查询记录格式,并提供遍历的编程接口。
所述优化方法的详细步骤为:
首先在表分区Region预分配中,根据集群中的环境及配置,设置zookeeper的属性,创建预导入的HBase表名及列族名称,然后根据编写的Split函数创建HBase表;其中Split函数是根据源数据格式来确定Split的个数,通过二维数组来表示region的个数;待Region预分配结束,可以根据RowKey的设计将源数据生成Hfile文件;最后将用completebulkload命令完成数据的导入,这时数据按照预定的格式导入到了HBase表。
编写MapReduce程序:该用户编写的MapReduce程序是一个作业,用户配置并将一个作业提交到框架中,框架会将这个作业分解成一些列的Map tasks和reduce tasks;框架负责task分发和执行;在此查询优化中,需要完成map阶段的工作,最后将符合用户的查询结果输出,该输出过程为:
根据用户程序指定的查询条件,首先根据输入的查询参数进行格式的处理,将查询参数拼接成符合HBase表中行键RowKey的格式,再根据scan中的startKey和endKey来设置查询的起始位置,以及scan中的参数设置;然后将根据initTableMapperJob函数提交到Hadoop框架中,在此过程中框架split的每一个数据块对应一个Map任务;对于每一个Map任务,按照迭代的方式,将每一个数据记录按照Map函数中指定的方法进行处理。
在map函数中,首先根据value.getRow()得到符合条件查询的RowKey,根据value.value()得到第一列的数据;然后将提取的RowKey及第一列的数据进行处理转换成用户期待的输出格式,可以根据substring函数截取需要的字符串并设定成预定的格式,直接将符合条件的结果输出结果输出到指定的文件中,并通过setOutputPath函数来设定输出的路径。 
本发明与现有技术相比所产生的有益效果是:
本发明的一种基于HBase表的条件查询优化方法具有并行计算能力,通过对RowKey的合理设计及预分配region,并实现了条件查询的map接口,达到优化的目的:Hadoop分布式集群的HDFS提供了充分的存储能力,map任务可以通过数据就近获取来减少数据传输消耗的资源;在Hadoop分布式集群中,可以设置map数量及HBase中相应的参数来并行处理作业,提高了条件查询的效率,为条件查询提供了优化的方法;该方法的条件查询过程较为简洁,且支持并行计算,因此更为高效,实用性强,易于推广。
附图说明
附图1为本发明 HBase表条件查询优化的执行流程图。
附图2 为Hregion Server的结构图。
附图3为无reduce阶段的计算框架执行流程图。
具体实施方式
下面结合附图对本发明的一种基于HBase表的条件查询优化方法作以下详细说明。
HBase是一个分布式的、面向列的开源数据库。它是利用Hadoop HDFS作为其文件存储系统。随着HBase在性能和稳定性持续改善,HBase逐渐成为在大数据NoSQL领域的标准之一。因此,基于HBase表的查询优化是非常重要的。针对HBase表的条件查询优化,本发明提供一种基于HBase表的条件查询优化方法,主要涉及建表时Region的预分配,RowKey的设计,查询时方案设计三方面。根据表格的数据量大小及集群的配置来确定预分配Region个数,并根据RowKey的合理设计(根据条件查询设计合理的RowKey)将源数据均匀分布到这些Region中。为HBase表的条件查询做好准备工作,并提供合理的查询环境;根据条件查询的应用来设计合理的RowKey;Map阶段:根据Region预分配、RowKey和分布式编程框架来提高查询性能,达到优化效果,该阶段是根据条件查询传入的参数按照Scan的查询结果做加工处理,将符合条件查询的记录处理成用户期待的格式,因为没有Reduce阶段,因此可以直接将结果输出到输出目录中,减少传输的带宽限制。
该方法的具体实施过程为:
根据表格的数据量大小及集群的配置来确定预分配表分区Region个数:Region预分配中,根据导入HBase的数据量及分布式集群的规模确定Region的个数,然后按数据量,Row Key的规则预先设计并分配好Region,可以大幅降低Region Split的次数, 甚至不Split。HBase的Region随着大小的不断变大会触发一个阈值,一旦触发,Region会自动分裂。较多的Region会保证并发性能。因此,根据分布式集群环境的规模来合理的确定region的个数,编程实现符合应用的Region个数,提高并发性能。
根据条件查询的应用来设计合理的RowKey:如果记录的Row Key落在某个Region的start key和end key的范围之内,该数据就会存储到这个Region上。如果在某个时段内,很多数据的row key都处在某个特定的row key范围内。那这个特定范围row key对应的region会非常繁忙,而其他的region很可能非常的空闲,导致资源浪费,影响性能。因此,在RowKey设计时要参考导入数据的应用及尽量保证单位时间内写入数据的row key对于region呈均匀分布。
根据Region预分配、RowKey和分布式编程框架来提高查询性能:MapReduce计算框架中,Map模块需要根据条件查询HBase表中符合的记录,根据条件查询的特点及RowKey设计出条件查询的优化方案。利用Scan中的StartKey和EndKey参数提高查找性能,同时根据分布式集群参数合理配置Map数量,保证达到优化的效果。
所述MapReduce编程框架,用于大规模数据集(大于1TB)的并行运算,是最后得到条件查询结果的处理过程。Map模块处理了根据条件查询hbase表,最终得到查询的记录,再对查询的记录进行处理,得到想要的查询记录格式。不使用Reducer,可以减少集群中带宽的限制。将处理结果输出到指定的输出目录中。该过程可以设置多个map数量,提高了处理效率,大大提升了性能。MapReduce框架简化了并行处理程序时的编程麻烦,提供了遍历的编程接口。
所述优化方法的详细步骤为:
首先在Region预分配中,根据集群中的环境及配置,设置zookeeper的属性,创建预导入的HBase表名及列族名称,然后根据编写的Split函数创建HBase表。其中Split函数是根据源数据格式来确定Split的个数,通过二维数组来表示region的个数。待Region预分配结束,可以根据RowKey的设计将源数据生成Hfile文件,其中由于对数据分析并合理的设计RowKey,这就保证了每个region中的数据都是均匀的,不会发生哪个Region数据很多或者哪个Region数据很少的现象。最后将用completebulkload命令完成数据的导入,这时数据按照预定的格式导入到了HBase表。
上述技术方案中的ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
根据HBase表来条件查询优化方法是通过编写MapReduce程序实现的。用户编写的MapReduce程序是一个作业,用户配置并将一个作业提交到框架中,框架会将这个作业分解成一些列的Map tasks和reduce tasks。框架负责task分发和执行。在此查询优化中,需要完成map阶段的工作,最后将符合用户的查询结果输出。 
基于HBase表的条件查询优化主要实现了Map接口。该模块主要处理流程是:根据用户程序指定的查询条件,首先根据输入的查询参数进行格式的处理,将查询参数拼接成符合HBase表中RowKey的格式,再根据scan中的startKey和endKey来设置查询的起始位置,以及scan中的参数设置,如Batch及Caching等。然后将根据initTableMapperJob函数提交到Hadoop框架中,在此过程中框架split的每一个数据块对应一个Map任务。对于每一个Map任务,按照迭代的方式,将每一个数据记录按照Map函数中指定的方法进行处理。在map函数中,首先根据value.getRow()得到符合条件查询的RowKey,根据value.value()得到第一列的数据。然后将提取的RowKey及第一列的数据进行处理转换成用户期待的输出格式,可以根据substring函数截取需要的字符串并设定成预定的格式,为了保证性能,防止网络带宽的限制,不适用Reduce函数,直接将符合条件的结果输出结果输出到指定的文件中,可以通过setOutputPath函数来设定输出的路径。 
根据分布式框架可以提高并行度,然后根据搭建的Hadoop集群规模设置map任务数及HBase中的相关读操作的参数配置,如caching设置大一些有利于读。Batch设置大一些有利于一次可以抓取多条数据,通过这些参数的合理设置可以提高性能,达到优化的目的。
具体实施方式如附图1、图2、图3所示,其具体操作过程为:
首先部署分布式集群环境,该集群中的硬件环境是7台服务器,每台服务器是96G内存,cpu有24core,硬盘是12*2T。操作系统是centos6.3。按照官方文档在服务器中安装hadoop组件。然后将hdfs、mapreduce及hbase按照正常顺序开启服务。本实例中源数据的格式是QVW75520121124120403222, 22222,4, 3。第一列前6位代表车牌号,第一列中后8位代表日期,第一列最后9位代表时分秒及毫秒,第二列代表卡口号。条件查询是指给定车牌号码及起始日期时间和结束日期时间,查找在这期间中固定车牌号经过的卡口信息。源数据有100亿条数据,提高查询效率是必要的。经过分析,在源数据导入HBase时可以将RowKey设计成符合此次查询的效果,可以将车辆号码及日期时间作为RowKey,这样可以很快速的提取出想要查询的记录。基于HBase表的条件查询优化方法的执行流程图如附图1所示。首先根据Split函数得到region的个数M,用region预分配程序调用Split函数生成有M个region的HBase表,然后根据设计好的RowKey将数据导入到HBase表中,最后编写mapreduce程序来条件查询达到优化的结果。
在HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据。Hregion Server的结构图如附图2所示,HRegionServer内部管理了一系列HRegion对象,每个HRegion对应了Table中的一个Region,HRegion中由多个HStore组成。每个HStore对应了Table中的一个Column Family的存储,每个Column Family其实就是一个集中的存储单元,因此最好将具备共同IO特性的column放在一个Column Family中,这样最高效。因此,在数据导入到HBase时,我们首先根据region预分配将数据均匀分布到M个region中,然后根据应用查询条件合理的设计RowKey,将全部的数据按照预先制定的RowKey导入到HBase表中。
在优化查询中,首先是客户端与regionserver通信一次,会找到regionserver的region,并扫描region返回一定数据。这个数据量是由scan的Batch指定的。而caching的作用就是通信一次找到region,调用扫描caching次,也就是说用这两个参数的话,一次通信可以返回的数据为caching*batch条。显然这会减少客户端和rs的通信量。
在编写MapReduce中,为了减少带宽的限制,不用reduce函数。无reduce阶段的计算框架执行流程图如附图3所示。 MapReduce算法运行过程中有一个主控程序,称为master。主控程序会产生很多作业程序,称为worker。并且把M个map任务这些worker,让它们去完成。被分配了map任务的worker读取并处理相关的输入数据,将分析出的键/值(key/value)。由于没有reduce函数,map()函数产生的中间结果键/值(key/value)直接输出到输出文件中。
Map函数的编写首先对起始日期和结束日期进行解析,用SimpleDateFormat类中的parse函数将输入的参数解析成日期的格式,再将解析的Date设置成想要的格式,用SimpleDateFormat类中的format函数,这时可以将起始日期及车配号码组合成RowKey的格式。在本次条件查询中,RowKey被设计成车牌号码+日期时间的组合,这样可以根据车牌号码及起始日期和时间将条件查询中的起始位置确定出来,在根据车牌号码及结束日期和时间将条件查询中的结束位置确定出来,将这两个值分别赋予scan中的startkey和endkey。由于在车辆号码固定的情况下,查找它经过的卡口信息可能都在一个region中,返回数据时先放到客户端进行缓存的,通过caching配置项可以设置HBase scanner一次从服务端抓取的数据条数。通过将其设置成一个合理的值,可以减少scan过程中next()的时间开销,代价是scanner需要通过客户端的内存来维持这些被cache的行记录。在本试验中,有7台服务器,每台服务器都有96G内存,因此,可以将cache设置为较大的值来提高性能。然后我们根据initTableMapperJob(sourceTable,scan,Mapper.class,Text.class,Text.class,job)函数开始执行任务,其中sourceTable指导入到HBase中的表,即要查询的表格,scan中通过设置startkey、endkey和相应的caching和batch大小去查询表格的符合记录。Mapper.class中主要有map函数的执行过程,该过程将符合条件的记录进行处理,在输出的记录中格式为:QVW755  2012-11-24 10:23  22222。根据value.getRow()函数得到RowKey,再根据value.value()得到卡口信息,对上述信息进行处理得到想要的输出格式,可以对RowKey进行substring,得到日期信息,时间信息,然后根据输出格式将其转化为预期的效果,由于没有reduce阶段,因此,可以直接将map阶段的结果输出到指点的文件即可,可以根据setOutputPath来设置输出的目录。最后对整个集群中的配置文件进行优化调整,将mapreduce任务相关的参数,如map任务数等。hbase相关的参数,对于读请求先到Memstore中查数据,查不到就到BlockCache中查,再查不到就会到磁盘上读,并把读的结果放入BlockCache。一个Regionserver上有一个BlockCache和N个Memstore,它们的大小之和不能大于等于heapsize * 0.8,否则HBase不能启动。默认BlockCache为0.2,而Memstore为0.4。对于注重读响应时间的系统,可以将 BlockCache设大些,比如设置BlockCache=0.4,Memstore=0.39,以加大缓存的命中率。
以上所述仅为本发明的实施例而已,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于HBase表的条件查询优化方法,其特征在于该方法的具体实施过程为:
根据表格的数据量大小及集群的配置来确定预分配表分区Region个数:Region预分配中,根据导入HBase的数据量及分布式集群的规模确定Region的个数,然后按数据量、行键Row Key的规则预先设计并分配好Region,HBase的Region随着大小的不断变大会触发一个阈值,一旦触发,Region会自动分裂,较多的Region会保证并发性能;
根据条件查询的应用来设计合理的RowKey:如果记录的Row Key落在某个Region的start key和end key的范围之内,该数据就会存储到这个Region上;
根据Region预分配、RowKey和分布式编程框架来提高查询性能:MapReduce计算框架中,Map模块需要根据条件查询HBase表中符合的记录,根据条件查询的特点及RowKey设计出条件查询的优化方案,利用Scan中的StartKey和EndKey参数提高查找性能,同时根据分布式集群参数合理配置Map数量,达到优化效果。
2.根据权利要求1所述的一种基于HBase表的条件查询优化方法,其特征在于:所述MapReduce编程框架是最后得到条件查询结果的处理过程:Map模块处理了根据条件查询hbase表,最终得到查询的记录,再对查询的记录进行处理,得到想要的查询记录格式,并提供遍历的编程接口。
3.根据权利要求2所述的一种基于HBase表的条件查询优化方法,其特征在于:所述优化方法的详细步骤为:
首先在表分区Region预分配中,根据集群中的环境及配置,设置zookeeper的属性,创建预导入的HBase表名及列族名称,然后根据编写的Split函数创建HBase表;其中Split函数是根据源数据格式来确定Split的个数,通过二维数组来表示region的个数;待Region预分配结束,可以根据RowKey的设计将源数据生成Hfile文件;最后将用completebulkload命令完成数据的导入,这时数据按照预定的格式导入到了HBase表;
编写MapReduce程序:该用户编写的MapReduce程序是一个作业,用户配置并将一个作业提交到框架中,框架会将这个作业分解成一些列的Map tasks和reduce tasks;框架负责task分发和执行;在此查询优化中,需要完成map阶段的工作,最后将符合用户的查询结果输出,该输出过程为:
根据用户程序指定的查询条件,首先根据输入的查询参数进行格式的处理,将查询参数拼接成符合HBase表中行键RowKey的格式,再根据scan中的startKey和endKey来设置查询的起始位置,以及scan中的参数设置;然后将根据initTableMapperJob函数提交到Hadoop框架中,在此过程中框架split的每一个数据块对应一个Map任务;对于每一个Map任务,按照迭代的方式,将每一个数据记录按照Map函数中指定的方法进行处理:
在map函数中,首先根据value.getRow()得到符合条件查询的RowKey,根据value.value()得到第一列的数据;然后将提取的RowKey及第一列的数据进行处理转换成用户期待的输出格式,可以根据substring函数截取需要的字符串并设定成预定的格式,直接将符合条件的结果输出结果输出到指定的文件中,并通过setOutputPath函数来设定输出的路径。
CN201310667847.0A 2013-12-11 2013-12-11 一种基于HBase表的条件查询优化方法 Pending CN103646073A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310667847.0A CN103646073A (zh) 2013-12-11 2013-12-11 一种基于HBase表的条件查询优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310667847.0A CN103646073A (zh) 2013-12-11 2013-12-11 一种基于HBase表的条件查询优化方法

Publications (1)

Publication Number Publication Date
CN103646073A true CN103646073A (zh) 2014-03-19

Family

ID=50251287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310667847.0A Pending CN103646073A (zh) 2013-12-11 2013-12-11 一种基于HBase表的条件查询优化方法

Country Status (1)

Country Link
CN (1) CN103646073A (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252536A (zh) * 2014-09-16 2014-12-31 福建新大陆软件工程有限公司 一种基于hbase的上网日志数据查询方法及装置
CN104361090A (zh) * 2014-11-17 2015-02-18 浙江宇视科技有限公司 数据查询方法及装置
CN104516985A (zh) * 2015-01-15 2015-04-15 浪潮(北京)电子信息产业有限公司 一种基于HBase数据库的海量数据快速导入方法
CN104537003A (zh) * 2014-12-16 2015-04-22 北京中交兴路车联网科技有限公司 一种Hbase数据库的通用高性能数据写入方法
CN105187498A (zh) * 2015-08-10 2015-12-23 携程计算机技术(上海)有限公司 HBase表的Region分配方法及系统
CN105206062A (zh) * 2015-10-23 2015-12-30 浪潮(北京)电子信息产业有限公司 查找方法及装置
CN105630896A (zh) * 2015-12-21 2016-06-01 浪潮集团有限公司 一种快速导入海量数据的方法
CN105956043A (zh) * 2016-04-26 2016-09-21 海尔优家智能科技(北京)有限公司 为Hbase数据库上运行的MapReduce分配Map task的方法及装置
CN106294886A (zh) * 2016-10-17 2017-01-04 北京集奥聚合科技有限公司 一种从HBase中全量抽取数据的方法及系统
CN106407432A (zh) * 2016-09-28 2017-02-15 郑州云海信息技术有限公司 一种Oracle数据仓库的查询方法及装置
CN106528573A (zh) * 2015-09-14 2017-03-22 北京国双科技有限公司 HBase数据库的数据查询方法和装置
CN106874132A (zh) * 2017-01-03 2017-06-20 努比亚技术有限公司 一种异常处理方法和装置
CN107070645A (zh) * 2016-12-30 2017-08-18 华为技术有限公司 比较数据表的数据的方法和系统
CN107145607A (zh) * 2017-06-12 2017-09-08 济南浪潮高新科技投资发展有限公司 一种hbaes多可选条件快速查询方法
CN107239517A (zh) * 2017-05-23 2017-10-10 中国联合网络通信集团有限公司 基于Hbase数据库的多条件搜索方法及装置
CN107370797A (zh) * 2017-06-30 2017-11-21 北京百度网讯科技有限公司 一种基于HBase的强有序队列操作的方法和装置
CN107368477A (zh) * 2016-05-11 2017-11-21 北京京东尚科信息技术有限公司 基于HBase协处理器的类SQL查询的方法和系统
CN108228581A (zh) * 2016-12-09 2018-06-29 阿里巴巴集团控股有限公司 Zookeeper兼容通信方法、服务器及系统
CN108319604A (zh) * 2017-01-16 2018-07-24 南京烽火软件科技有限公司 一种hive中大小表关联的优化方法
CN108446383A (zh) * 2018-03-21 2018-08-24 吉林大学 一种基于地理分布式数据查询的数据任务重分配方法
CN109657009A (zh) * 2018-12-21 2019-04-19 北京锐安科技有限公司 数据预分区存储周期表创建方法、装置、设备和存储介质
CN110019199A (zh) * 2017-09-29 2019-07-16 株式会社理光 数据存储、查询方法、装置、设备、计算机可读存储介质
CN110019094A (zh) * 2017-12-28 2019-07-16 中国移动通信集团广东有限公司 话单检索方法、系统、电子设备及存储介质
US20220012213A1 (en) * 2016-03-08 2022-01-13 International Business Machines Corporation Spatial-temporal storage system, method, and recording medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957863A (zh) * 2010-10-14 2011-01-26 广州从兴电子开发有限公司 数据并行处理方法、装置及系统
US20110154339A1 (en) * 2009-12-17 2011-06-23 Electronics And Telecommunications Research Institute Incremental mapreduce-based distributed parallel processing system and method for processing stream data
CN102725753A (zh) * 2011-11-28 2012-10-10 华为技术有限公司 优化数据访问的方法及装置、优化数据存储的方法及装置
CN103246700A (zh) * 2013-04-01 2013-08-14 厦门市美亚柏科信息股份有限公司 基于HBase的海量小文件低延时存储方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110154339A1 (en) * 2009-12-17 2011-06-23 Electronics And Telecommunications Research Institute Incremental mapreduce-based distributed parallel processing system and method for processing stream data
CN101957863A (zh) * 2010-10-14 2011-01-26 广州从兴电子开发有限公司 数据并行处理方法、装置及系统
CN102725753A (zh) * 2011-11-28 2012-10-10 华为技术有限公司 优化数据访问的方法及装置、优化数据存储的方法及装置
CN103246700A (zh) * 2013-04-01 2013-08-14 厦门市美亚柏科信息股份有限公司 基于HBase的海量小文件低延时存储方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宋亚奇,刘树仁,朱永利,王德文,李莉: ""电力设备状态高速采样数据的云存储技术研究"", 《电力自动化设备》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104252536B (zh) * 2014-09-16 2017-12-08 福建新大陆软件工程有限公司 一种基于hbase的上网日志数据查询方法及装置
CN104252536A (zh) * 2014-09-16 2014-12-31 福建新大陆软件工程有限公司 一种基于hbase的上网日志数据查询方法及装置
CN104361090A (zh) * 2014-11-17 2015-02-18 浙江宇视科技有限公司 数据查询方法及装置
CN104361090B (zh) * 2014-11-17 2018-01-05 浙江宇视科技有限公司 数据查询方法及装置
CN104537003A (zh) * 2014-12-16 2015-04-22 北京中交兴路车联网科技有限公司 一种Hbase数据库的通用高性能数据写入方法
CN104537003B (zh) * 2014-12-16 2018-01-09 北京中交兴路车联网科技有限公司 一种Hbase数据库的通用高性能数据写入方法
CN104516985A (zh) * 2015-01-15 2015-04-15 浪潮(北京)电子信息产业有限公司 一种基于HBase数据库的海量数据快速导入方法
CN105187498A (zh) * 2015-08-10 2015-12-23 携程计算机技术(上海)有限公司 HBase表的Region分配方法及系统
CN105187498B (zh) * 2015-08-10 2018-05-08 携程计算机技术(上海)有限公司 HBase表的Region分配方法及系统
CN106528573B (zh) * 2015-09-14 2019-08-20 北京国双科技有限公司 HBase数据库的数据查询方法和装置
CN106528573A (zh) * 2015-09-14 2017-03-22 北京国双科技有限公司 HBase数据库的数据查询方法和装置
CN105206062A (zh) * 2015-10-23 2015-12-30 浪潮(北京)电子信息产业有限公司 查找方法及装置
CN105630896A (zh) * 2015-12-21 2016-06-01 浪潮集团有限公司 一种快速导入海量数据的方法
US20220012213A1 (en) * 2016-03-08 2022-01-13 International Business Machines Corporation Spatial-temporal storage system, method, and recording medium
CN105956043A (zh) * 2016-04-26 2016-09-21 海尔优家智能科技(北京)有限公司 为Hbase数据库上运行的MapReduce分配Map task的方法及装置
CN107368477A (zh) * 2016-05-11 2017-11-21 北京京东尚科信息技术有限公司 基于HBase协处理器的类SQL查询的方法和系统
CN106407432B (zh) * 2016-09-28 2020-02-07 苏州浪潮智能科技有限公司 一种Oracle数据仓库的查询方法及装置
CN106407432A (zh) * 2016-09-28 2017-02-15 郑州云海信息技术有限公司 一种Oracle数据仓库的查询方法及装置
CN106294886A (zh) * 2016-10-17 2017-01-04 北京集奥聚合科技有限公司 一种从HBase中全量抽取数据的方法及系统
CN108228581B (zh) * 2016-12-09 2022-06-28 阿里云计算有限公司 Zookeeper兼容通信方法、服务器及系统
CN108228581A (zh) * 2016-12-09 2018-06-29 阿里巴巴集团控股有限公司 Zookeeper兼容通信方法、服务器及系统
CN107070645A (zh) * 2016-12-30 2017-08-18 华为技术有限公司 比较数据表的数据的方法和系统
CN107070645B (zh) * 2016-12-30 2020-06-16 华为技术有限公司 比较数据表的数据的方法和系统
CN106874132A (zh) * 2017-01-03 2017-06-20 努比亚技术有限公司 一种异常处理方法和装置
CN108319604A (zh) * 2017-01-16 2018-07-24 南京烽火软件科技有限公司 一种hive中大小表关联的优化方法
CN108319604B (zh) * 2017-01-16 2021-10-19 南京烽火天地通信科技有限公司 一种hive中大小表关联的优化方法
CN107239517A (zh) * 2017-05-23 2017-10-10 中国联合网络通信集团有限公司 基于Hbase数据库的多条件搜索方法及装置
CN107239517B (zh) * 2017-05-23 2020-09-29 中国联合网络通信集团有限公司 基于Hbase数据库的多条件搜索方法及装置
CN107145607A (zh) * 2017-06-12 2017-09-08 济南浪潮高新科技投资发展有限公司 一种hbaes多可选条件快速查询方法
CN107370797B (zh) * 2017-06-30 2021-07-27 北京百度网讯科技有限公司 一种基于HBase的强有序队列操作的方法和装置
CN107370797A (zh) * 2017-06-30 2017-11-21 北京百度网讯科技有限公司 一种基于HBase的强有序队列操作的方法和装置
CN110019199A (zh) * 2017-09-29 2019-07-16 株式会社理光 数据存储、查询方法、装置、设备、计算机可读存储介质
CN110019094A (zh) * 2017-12-28 2019-07-16 中国移动通信集团广东有限公司 话单检索方法、系统、电子设备及存储介质
CN108446383B (zh) * 2018-03-21 2021-12-10 吉林大学 一种基于地理分布式数据查询的数据任务重分配方法
CN108446383A (zh) * 2018-03-21 2018-08-24 吉林大学 一种基于地理分布式数据查询的数据任务重分配方法
CN109657009B (zh) * 2018-12-21 2021-03-12 北京锐安科技有限公司 数据预分区存储周期表创建方法、装置、设备和存储介质
CN109657009A (zh) * 2018-12-21 2019-04-19 北京锐安科技有限公司 数据预分区存储周期表创建方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN103646073A (zh) 一种基于HBase表的条件查询优化方法
KR101621137B1 (ko) 아파치 하둡을 위한 로우 레이턴시 쿼리 엔진
JP2019194882A (ja) ファーストクラスデータベース要素としての半構造データの実装
US20160034547A1 (en) Systems and methods for an sql-driven distributed operating system
US8949222B2 (en) Changing the compression level of query plans
CN111400326B (zh) 一种智慧城市数据管理系统及其方法
CN105279286A (zh) 一种交互式大数据分析查询处理方法
CN107066546B (zh) 一种基于mpp引擎的跨数据中心快速查询方法和系统
CN105138661A (zh) 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法
JP2016519810A (ja) 半構造データのためのスケーラブルな分析プラットフォーム
CN110019267A (zh) 一种元数据更新方法、装置、系统、电子设备及存储介质
CN110674154B (zh) 一种基于Spark的对Hive中数据进行插入、更新和删除的方法
US11036732B2 (en) Subquery predicate generation to reduce processing in a multi-table join
CN106919697B (zh) 一种将数据同时导入多个Hadoop组件的方法
CN104036029A (zh) 大数据一致性对比方法和系统
CN108268468B (zh) 一种大数据的分析方法及系统
CN110390739A (zh) 一种车辆数据处理方法及车辆数据处理系统
Zhang et al. Oceanrt: Real-time analytics over large temporal data
CN114297173A (zh) 一种面向大规模海量数据的知识图谱构建方法和系统
CN108319604B (zh) 一种hive中大小表关联的优化方法
CN104834730A (zh) 数据分析系统和方法
US8396858B2 (en) Adding entries to an index based on use of the index
Moussa Tpc-h benchmark analytics scenarios and performances on hadoop data clouds
CN110069565B (zh) 一种分布式数据库数据批量处理的方法及装置
CN109992630B (zh) 数据模型匹配方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140319