• 1. Hadoop学习笔记(纲要)
  • 2. 主要内容1、HDFS 2、MapReduce 3、HBase
  • 3. 为什么要提出云计算1、从一些趋势入手; 2、并行计算现在存在的一些问题;
  • 4. 云计算和其他技术的对比1、对比 2、提出其演进的过程
  • 5. 一些基本概念的介绍1、分布化 2、hadoop流(基本概念以及其作用) 3、hadoop管道(基本概念以及其作用)
  • 6. 第二章 hadoop分布式文件系统1、基本概念(什么是HDFS) 2、优势是什么? 3、同时需要改进的地方是什么?(有些是后面的HBase可以解决的)
  • 7. 基本概念1、什么是流式数据?(可以联系多播来讲) 2、数据块(采用抽象块,有什么好处呢?) 3、一些容错的机制;
  • 8. 具体内容1、hdfs的文件系统有哪些; 2、有哪些接口来实现一些输入输出操作(分析每种类都有什么作用,体现出其特点来)
  • 9. 数据流1、从hadoop中读取文件的步骤; 2、想hdfs中写入数据的步骤(特别强调的一点是当发现故障点的时候该如何来操作的;另一点是副本的位置,其原则是什么?需要综合考虑稳定性、写入带宽、读取性能、集群中块的分布) 3、一致模型; 4、通过distcp进行并行复制; 5、通过balance工具来改善集群中块的分布;
  • 10. hadoop归档文件1、主要解决了哪些问题; 2、一些特点; 3、存在的一些不足的地方;
  • 11. 第四章 hadoop的I/O1、数据完整性 2、数据压缩 3、序列化 4、数据结构
  • 12. 数据完整性1、hdfs所做的工作有哪些,其特色在哪里?还存在哪些不足呢? 2、一般是用什么方法来实现的? 3、在本地可以采用什么方法来实现呢?
  • 13. 数据压缩重点是以下两点: 1、权衡好压缩比和压缩速度也就是空间和时间的平衡; 2、对于可分割性的考虑,其优势在哪里? 下面是具体的压缩的一些实现的方法(后面一页)
  • 14. 数据压缩压缩是采用编解码器来实现的 1、具体的实现步骤是什么; 2、同时关于编解码器还要涉及到一个根据已知信息来获取编解码器类型的方法; 3、对于本地库尽量使用本地库来完成编解码工作,这样可以提高效率; 4、对于压缩方式的比较,是否支持分割机制,这样做的好处是什么?
  • 15. 序列化开始应该用一个例子来描述一下序列化到底是什么意思,举一个简单的例子 1、有哪些要求呢? 2、主要用在哪里呢? 3、有哪些接口来实现呢? 4、有一个专门的项目组是做这个的,可以简单的做一些介绍: Hadoop I/O Avro
  • 16. 基于文件的数据结构1、目的是什么? 2、有哪些类,每一种类是如何来实现的,有什么优势,特点?
  • 17. 第九章 构建hadoop集群1、介绍一些硬件上的需求和网络拓扑结构的定制; 2、配置设备; 3、安全性问题; 4、测试hadoop集群
  • 18. 第十章 管理hadoop需要弄清楚的一点是:这么多的属性,都是在哪些文件里面去设置的呢? 1、hdfs永久性数据结构里面两个文件比较重要,涉及到一个创建检测点的过程; 2、可能用到的一些工具; 3、监控(目的是什么以及一些监控的方法) 4、维护
  • 19. 第五章 MapReduce的应用开发(里面的每个小点都需要展开来说一下)1、基本步骤(对于钩子程序的理解) 2、准备工作哪些? 3、配置开发环境 4、编写单元测试 5、本地运行测试数据 6、在集群上运行 7、一些作业调优的措施,以此来提高操作速度 8、mapreduce的工作流问题
  • 20. 第六章 mapreduce的工作机制1、四个独立的实体,其作用分别是什么? 2、工作的基本步骤是什么? 3、下面是对第二个内容里面每一个步骤的详细说明 4、如何来处理失败? 5、具体里面是如何实现的:比如说筛选和排序在map端以及在reduce端是如何实现的。 6、任务的执行:介绍的更多的是用户该如何更多的去控制任务的执行
  • 21. 第七章 mapreduce的类型与格式1、默认情况下所有的键都是LongWriteable类型的,所有的值都是Text类型的,但实际情况还需要用户自己设置。 2、关于输入的格式问题,以及输入分片和HDFS块之间的关系 3、输出的格式,里面会涉及到大量的类,整理这些类,查询其都存在哪些特点? 4、输入和输出都是有很多形式的,可以总结一下都需要注意哪些方面?
  • 22. 第八章 MapReduce的特性1、计数器,明确其作用是什么? 2、数据集的排序以及连接问题
  • 23. 计数器1、作用是什么? 2、在一个mapreduce过程中在map、combine以及reduce三个过程中计数器是如何来实现的?
  • 24. 排序1、准备工作是哪些? 2、几种不同的排序方法,部分排序、全排序、辅助排序。 3、全排序存在一些问题,应该采取什么措施来解决呢?
  • 25. 连接1、map连接和reduce连接,同时会涉及到辅助排序和一些多输入的内容;
  • 26. 边数据分布1、边数据是什么意思? 2、边数据有什么作用? 3、边数据应用在哪些方面?
  • 27. MapReduce类库有一些标准的类库供用户使用
  • 28. HBase
  • 29. 需要明确的几点1、如何将大量的数据插入到HBase中去; 2、HBase里面的查询时如何完成的? 3、HBase的查询结果如何被web网页来访问?流程问题
  • 30. 主要内容1、介绍HBase基本的存储机制; 2、相对HDFS和MapReduce的优势是什么? 3、同时HBase也是存在一些需要改进的地方的;
  • 31. 基本内容1、HBase是如何运行的?三次查找 2、HBase中的两张表格 3、HBase的客户端 1)MapReduce查询HBase表中行数目的实现方法; 2)HBase中一些常用的类; 3)如何从HDFS向HBase表导入大量数据的MapReduce应用
  • 32. 4、Web查询; 5、HBase中扫描器的作用; 6、HBase和RDBMS的比较;