• 1. 北京传智播客教育 www.itcast.cnHadoop深入浅出讲师: 吴 超 博客:www.superwu.cn Q Q: 3774 86624
  • 2. 课程安排HBASE基础知识* HBASE的伪分布的搭建* HBASE Shell*** HBASE的批量导入*** HBASE的Java客户端*** ---------------------------加深拓展---------------------- HBASE的集群的搭建* HBASE的表设计* HBASE的底层存储模型*
  • 3. HBASE基础知识HBase简介 HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。
  • 4. 复习HBASE基础知识HBASE中的每一张表,就是所谓的BigTable。稀疏表。 RowKey 和 ColumnKey 是二进制值byte[],按字典顺序排序; Timestamp 是一个 64 位整数; value 是一个未解释的字节数组byte[]。 表中的不同行可以拥有不同数量的成员。即支持“动态模式“模型逻辑数据模型物理数据模型将逻辑模型中的一个Row分割为根据Column family存储的物理模型
  • 5. 数据模型-行Row KeyTime StampColumn ContentsColumn AnchorColumn “mime”cnnsi.commy.look.ca “com.cnn.www”T9CNNT8CNN.COMT6“.. “Text/htmlT5“.. “t3“.. “行键列列字符串、整数、二进制串甚至串行化的结构都可以作为行键 表按照行键的“逐字节排序”顺序对行进行有序化处理 表内数据非常‘稀疏’,不同的行的列的数完全目可以大不相同 可以只对一行上“锁” 对行的写操作是始终是“原子”的
  • 6. 数据模型-列列必须用‘族’(family)来定义 任意一列有如下形式 “族:标签” 其中,族和标签都可为任意形式的串 物理上将同“族”数据存储在一起 数据可通过时间戳区分版本Row KeyTime StampColumn ContentsColumn AnchorColumn “mime”cnnsi.commy.look.ca “com.cnn.www”T9CNNT8CNN.COMT6“.. “Text/htmlT5“.. “t3“.. “族标签
  • 7. HBASE基础知识表是存放数据的。表由行和列组成 数据模型  Row Key: 行键,Table的主键,Table中的记录按照Row Key排序 Timestamp: 时间戳,每次数据操作对应的时间戳,可以看作是数据的version number Column Family:列簇,Table在水平方向有一个或者多个Column Family组成,一个Column Family中可以有任意多个Column组成,即Column Family支持动态扩展,无需预先定义Column的数量以及类型,所有Column均以二进制格式存储,用户需要自行进行类型转换。
  • 8. HBASE基础知识物理存储 Table 在行的方向上分割为多个HRegion,一个region由[startkey,endkey)表示,每个HRegion分散在不同的RegionServer中参数hbase.hregion.max.filesize
  • 9. HBASE基础知识 架构体系 Client 包含访问hbase 的接口,client 维护着一些cache 来加快对hbase 的访问,比如regione 的位置信息 Zookeeper 保证任何时候,集群中只有一个running master 存贮所有Region 的寻址入口 实时监控Region Server 的状态,将Region server 的上线和下线信息,实时通知给Master 存储Hbase 的schema,包括有哪些table,每个table 有哪些column family Master 可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master运行 为Region server 分配region 负责region server 的负载均衡 发现失效的region server 并重新分配其上的region  
  • 10. HBASE基础知识
  • 11. HBASE基础知识 架构体系 Region Server 维护Master 分配给它的region,处理对这些region 的IO 请求 负责切分在运行过程中变得过大的region 可以看出,client 访问hbase 上数据的过程并不需要master 参与,寻址访问zookeeper 和region server,数据读写访问regioneserver。HRegionServer主要负责响应用户I/O请求,向HDFS文件系统中读写数据,是HBase中最核心的模块。 
  • 12. 系统架构
  • 13. HBASE与相关软件hadoop.1.1.2 hbase-0.94.2-security.tar.gz JDK6 RHEL6.3前提条件:本机或集群环境下hadoop.1.1.2已经安装成功
  • 14. 本地伪分布模式搭建(一)把hbase-0.94.2-security.tar.gz复制到/usr/local 解压hbase-0.94.2-security.tar.gz与重命名 #cd /usr/local #tar -zxvf hbase-0.94.2-security.tar.gz #mv hbase-0.94.2-security hbase修改/etc/profile文件。 #vi /etc/profile 增加 export HBASE_HOME=/home/hbase 修改 export PATH=$JAVA_HOME/bin:$PATH:$HADOOP_HOME/bin:$HBASE_HOME/bin 保存退出 #source /etc/profile
  • 15. 本地伪分布模式搭建(二)修改$HBASE_HOME/conf/hbase-env.sh文件 export JAVA_HOME=/usr/local/jdk export HBASE_MANAGES_ZK=true 保存后退出修改$HBASE_HOME/conf/hbase-site.xml hbase.rootdir hdfs://hadoop0:9000/hbase hbase.cluster.distributed true hbase.zookeeper.quorum hadoop0 dfs.replication 1 注意:$HBASE_HOME/conf/hbase-site.xml的hbase.rootdir的主机和端口号与$HADOOP_HOME/conf/core-site.xml的fs.default.name的主机和端口号一致
  • 16. 本地伪分布模式搭建(三)在$HBASE_HOME/conf/regionservers文件增加 localhost 保存退出先启动Hadoop,后启动HBASE #cd $HBASE_HOME/bin #./start-hbase.sh 停止 #cd $HBASE_HOME/bin #./stop-hbase.sh
  • 17. 本地伪分布模式搭建(四)#jps查看hdfs目录,你会发现在根目录下多了一个hbase的目录 #hadoop fs -ls / Web Console http://hadoop0:60010/master-status
  • 18. HBASE Shellhbase提供了一个shell的终端给用户交互名称命令表达式创建表create '表名称', '列族名称1','列族名称2','列族名称N'添加记录 put '表名称', '行名称', '列名称:', '值'查看记录get '表名称', '行名称'查看表中的记录总数count '表名称'删除记录delete '表名' ,'行名称' , '列名称'删除一张表先要屏蔽该表,才能对该表进行删除,第一步 disable '表名称' 第二步 drop '表名称'查看所有记录scan "表名称" 查看某个表某个列中所有数据scan "表名称" , {COLUMNS=>'列族名称:列名称'}更新记录 就是重写一遍进行覆盖#$HBASE_HOME/bin/hbase shell
  • 19. HBASE Shell的DDL操作创建表 >create 'users','user_id','address','info' 表users,有三个列族user_id,address,info 列出全部表 >list 得到表的描述 >describe 'users' 创建表 >create 'users_tmp','user_id','address','info' 删除表 >disable 'users_tmp' >drop 'users_tmp' #$HBASE_HOME/bin/hbase shell …… >quit >exists 'users' >is_enabled 'users' >is_disabled 'users
  • 20. HBASE Shell的DML操作添加记录 获取一条记录 1.取得一个id的所有数据 >get 'users','xiaoming' 2.获取一个id,一个列族的所有数据 >get 'users','xiaoming','info' 3.获取一个id,一个列族中一个列的 所有数据 get 'users','xiaoming','info:age' put 'users','xiaoming','info:age','24'; put 'users','xiaoming','info:birthday','1987-06-17'; put 'users','xiaoming','info:company','alibaba'; put 'users','xiaoming','address:contry','china'; put 'users','xiaoming','address:province','zhejiang'; put 'users','xiaoming','address:city','hangzhou'; put 'users','zhangyifei','info:birthday','1987-4-17'; put 'users','zhangyifei','info:favorite','movie'; put 'users','zhangyifei','info:company','alibaba'; put 'users','zhangyifei','address:contry','china'; put 'users','zhangyifei','address:province','guangdong'; put 'users','zhangyifei','address:city','jieyang'; put 'users','zhangyifei','address:town','xianqiao';
  • 21. HBASE Shell的DML操作更新记录 >put 'users','xiaoming','info:age' ,'29' >get 'users','xiaoming','info:age' >put 'users','xiaoming','info:age' ,'30' >get 'users','xiaoming','info:age' 获取单元格数据的版本数据 >get 'users','xiaoming',{COLUMN=>'info:age',VERSIONS=>1} >get 'users','xiaoming',{COLUMN=>'info:age',VERSIONS=>2} >get 'users','xiaoming',{COLUMN=>'info:age',VERSIONS=>3} 获取单元格数据的某个版本数据 〉get 'users','xiaoming',{COLUMN=>'info:age',TIMESTAMP=>1364874937056} 全表扫描 >scan 'users'
  • 22. HBASE Shell的DML操作删除xiaoming值的'info:age'字段 >delete 'users','xiaoming','info:age' >get 'users','xiaoming' 删除整行 >deleteall 'users','xiaoming' 统计表的行数 >count 'users' 清空表 >truncate 'users'
  • 23. HBASE基础知识HBase中有两张特殊的Table,-ROOT-和.META. .META.:记录了用户表的Region信息,.META.可以有多个regoin -ROOT-:记录了.META.表的Region信息,-ROOT-只有一个region Zookeeper中记录了-ROOT-表的location Client访问用户数据之前需要首先访问zookeeper,然后访问-ROOT-表,接着访问.META.表,最后才能找到用户数据的位置去访问
  • 24. HBASE的Java_API(一) //hbase操作必备 private static Configuration getConfiguration() { Configuration conf = HBaseConfiguration.create(); conf.set("hbase.rootdir", "hdfs://hadoop0:9000/hbase"); //使用eclipse时必须添加这个,否则无法定位 conf.set("hbase.zookeeper.quorum", "hadoop0"); return conf; }
  • 25. HBASE的Java_API(二)//创建一张表 public static void create(String tableName, String columnFamily) throws IOException{ HBaseAdmin admin = new HBaseAdmin(getConfiguration()); if (admin.tableExists(tableName)) { System.out.println("table exists!"); }else{ HTableDescriptor tableDesc = new HTableDescriptor(tableName); tableDesc.addFamily(new HColumnDescriptor(columnFamily)); admin.createTable(tableDesc); System.out.println("create table success!"); } }
  • 26. HBASE的Java_API(三)//添加一条记录 public static void put(String tableName, String row, String columnFamily, String column, String data) throws IOException{ HTable table = new HTable(getConfiguration(), tableName); Put p1 = new Put(Bytes.toBytes(row)); p1.add(Bytes.toBytes(columnFamily), Bytes.toBytes(column), Bytes.toBytes(data)); table.put(p1); System.out.println("put'"+row+"',"+columnFamily+":"+column+"','"+data+"'"); }
  • 27. HBASE的Java_API(四)//读取一条记录 public static void get(String tableName, String row) throws IOException{ HTable table = new HTable(getConfiguration(), tableName); Get get = new Get(Bytes.toBytes(row)); Result result = table.get(get); System.out.println("Get: "+result); }
  • 28. HBASE的Java_API(五)//显示所有数据 public static void scan(String tableName) throws IOException{ HTable table = new HTable(getConfiguration(), tableName); Scan scan = new Scan(); ResultScanner scanner = table.getScanner(scan); for (Result result : scanner) { System.out.println("Scan: "+result); } }
  • 29. HBASE的Java_API(六)//删除表 public static void delete(String tableName) throws IOException{ HBaseAdmin admin = new HBaseAdmin(getConfiguration()); if(admin.tableExists(tableName)){ try { admin.disableTable(tableName); admin.deleteTable(tableName); } catch (IOException e) { e.printStackTrace(); System.out.println("Delete "+tableName+" 失败"); } } System.out.println("Delete "+tableName+" 成功"); }
  • 30. HBASE的Java_API(七)public static void main(String[] args) throws IOException { String tableName="hbase_tb"; String columnFamily="cf"; HBaseTestCase.create(tableName, columnFamily); HBaseTestCase.put(tableName, "row1", columnFamily, "cl1", "data"); HBaseTestCase.get(tableName, "row1"); HBaseTestCase.scan(tableName); HBaseTestCase.delete(tableName); }
  • 31. 练习——详单入库HBASE表定义为: >create 'wlan_log', 'cf'RowKey设计: msisdn:日期时间串(yyyyMMddHHmmss)源文件数据增加一个字段rowkey
  • 32. HBASE结合MapReduce批量导入static class BatchImportMapper extends Mapper{ SimpleDateFormat dateformat1=new SimpleDateFormat("yyyyMMddHHmmss"); Text v2 = new Text(); protected void map(LongWritable key, Text value, Context context) throws java.io.IOException ,InterruptedException { final String[] splited = value.toString().split("\t"); try { final Date date = new Date(Long.parseLong(splited[0].trim())); final String dateFormat = dateformat1.format(date); String rowKey = splited[1]+":"+dateFormat; v2.set(rowKey+"\t"+value.toString()); context.write(key, v2); } catch (NumberFormatException e) { final Counter counter = context.getCounter("BatchImport", "ErrorFormat"); counter.increment(1L); System.out.println("出错了"+splited[0]+" "+e.getMessage()); } }; }
  • 33. HBASE结合MapReduce批量导入static class BatchImportReducer extends TableReducer{ protected void reduce(LongWritable key, java.lang.Iterable values, Context context) throws java.io.IOException ,InterruptedException { for (Text text : values) { final String[] splited = text.toString().split("\t"); final Put put = new Put(Bytes.toBytes(splited[0])); put.add(Bytes.toBytes("cf"), Bytes.toBytes("date"), Bytes.toBytes(splited[1])); //省略其他字段,调用put.add(....)即可 context.write(NullWritable.get(), put); } }; }
  • 34. HBASE结合MapReduce批量导入 public static void main(String[] args) throws Exception { final Configuration configuration = new Configuration(); //设置zookeeper configuration.set("hbase.zookeeper.quorum", "hadoop0"); //设置hbase表名称 configuration.set(TableOutputFormat.OUTPUT_TABLE, "wlan_log"); //将该值改大,防止hbase超时退出 configuration.set("dfs.socket.timeout", "180000"); final Job job = new Job(configuration, "HBaseBatchImport"); job.setMapperClass(BatchImportMapper.class); job.setReducerClass(BatchImportReducer.class); //设置map的输出,不设置reduce的输出类型 job.setMapOutputKeyClass(LongWritable.class); job.setMapOutputValueClass(Text.class); job.setInputFormatClass(TextInputFormat.class); //不再设置输出路径,而是设置输出格式类型 job.setOutputFormatClass(TableOutputFormat.class); FileInputFormat.setInputPaths(job, "hdfs://hadoop0:9000/input"); job.waitForCompletion(true); }
  • 35. HBASE的Java_API 练习查询 按RowKey查询 按手机号码查询 按手机号码的区域查询
  • 36. HBASE的Java_API练习查询手机13450456688的所有上网记录 public static void scan(String tableName) throws IOException{ HTable table = new HTable(getConfiguration(), tableName); Scan scan = new Scan(); scan.setStartRow(Bytes.toBytes("13450456688:/")); scan.setStopRow(Bytes.toBytes("13450456688::")); ResultScanner scanner = table.getScanner(scan); int i=0; for (Result result : scanner) { System.out.println("Scan: "+i+++" "+result); } }
  • 37. HBASE的Java_API练习查询134号段的所有上网记录 public static void scanPeriod(String tableName) throws IOException{ HTable table = new HTable(getConfiguration(), tableName); Scan scan = new Scan(); scan.setStartRow(Bytes.toBytes("134/")); scan.setStopRow( Bytes.toBytes("134:")); scan.setMaxVersions(1); ResultScanner scanner = table.getScanner(scan); int i=0; for (Result result : scanner) { System.out.println("Scan: "+i+++" "+result); } }
  • 38. 思考题HBASE是什么数据库,与普通RDBMS有什么区别 HBASE的结构 HBASE的常用命令
  • 39. (本页无文本内容)