Java分布式爬去:spider 经验

使用java+httpclient+httpcleaner,多线程、分布式爬去电商网站商品信息,数据存储在hbase上,并使用solr对商品建立索引,使用redis队列存储一个共享的url仓库;使用zookeeper对爬虫节点生命周期进行监视等。

jopen 2016-01-11   11930   0

2013年Hadoop实时查询将成现实 资讯

Impala 的首个 beta 版。Impala 允许你在 Hadoop 的 HDFS 、 Hbase 和 Hive 之上运行实时查询。不必迁移。 来自: Solidot

jopen 2012-12-09   11617   0
Hadoop  

Spring Hadoop 1.0.0 M1 发布 资讯

支持: Hadoop 配置 MapReduce, Streaming Jobs and Tool HBase 配置 Hive server and thrift client Pig configuration

jopen 2012-02-29   23811   2
Spring   Hadoop  

基于Hadoop的BSP计算框架:Apache Hama 经验

on Engine)、Zookeeper(Distributed Locking)、HDFS/HBase(Storage Systems)这3大块组成。 项目主页: http://www.open-open

jopen 2014-05-21   22248   0

olap4cloud 开源项目

olap4cloud是一个基于Hadoop/HBase/MapReduce的OLAP引擎。它构建服务于包含分组和聚合的OLAP查询。以下是olap4cloud提供的典型查询服务。 select d3

码头工人 2019-01-17   605   0

HSearch 开源项目

HSearch是一个基于Hadoop和HBase开发的开源NoSQL搜索引擎。HSearch提供的特性包括: * 多种文档格式支持 * 记录和文档级搜索访问控制 * 持续索引更新 * 使用多台机器并行索引

码头工人 2019-01-17   735   0

Spring Hadoop - 为开发 Apache Hadoop 应用程序提供支持 经验

for Map-Reduce an Streaming Jobs 集成 Cascading, HBase, Hive 和 Pig 项目主页: http://www.open-open.com/li

jopen 2012-02-29   27298   0

Spring Hadoop - 在 Spring 框架下编写 Hadoop 应用的支持。 经验

Tasklets for Map-Reduce an Streaming Jobs 与 Cascading, HBase, Hive 和 Pig 项目主页: http://www.open-open.com/

openkk 2012-06-09   27826   0

Apache pig 学习 经验

HBaseStorage 加载和存储数据的HBase的表。 Syntax HBaseStorage('columns', ['options']) 用法 从HBase的HBaseStorage加载

jopen 2015-11-07   27266   0

Hadoop数据传输工具:Sqoop 经验

之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中;同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。除了这些主要的功能外,Sqoop

jopen 2014-12-02   18913   0

基于ELK的简单数据分析 经验

个人折腾东西, (2)我不会前端,但是ELK中的kibana可以直接利用,(3)Hadoop/Hbase、Storm等大数据栈需要学习成本,短期内上手难度太大。(4)可用的机器数也是相当屌丝。 环境搭建

neoly 2016-02-16   65440   0

Hadoop即将过时了吗? 资讯

却已经准备淘汰 MapReduce 技术。虽然 Apache 项目和 Hadoop 商业发行版本试图通过 HBase 、 Hive 和 下一代 MapReduce (亦 即 YARN)弥补 Hadoop 的短板。但笔者认为只有用全新的,非

jopen 2012-07-11   31665   4
Hadoop  

推荐引擎mahout安装与配置 经验

算能力的瓶颈,解决海量数据高性能计算的问题。某运行商将所有的通讯记录实时导入到 HBase 中,一方面通过 HBase 提供实时的通讯记录查询功能,另一方面通过Map/Reduce 分析用户的历史通讯

mx3y 2015-06-30   14524   0

Flume架构与源码分析-整体架构 经验

>实时计算(如Kafka+Storm) 、日志--->Flume--->离线计算(如HDFS、HBase)、日志 --->Flume--->ElasticSearch。 2、整体架构 Flume主

jopen 2015-12-03   21800   0
Flume  
P5

  10分钟内理解云计算分布式大数据处理框架Hadoop 文档

存储和分析,其它的项目,例如Hive、HBase等都是基于HDFS和MapReduce,是为了解决特定类型的大数据处理问题而提出的子项目,使用Hive、HBase等子项目可以在更高的抽象的基础上更简单

xcxc 2015-08-23   651   0
P27

  Hadoop HDFS 实现原理与应用介绍 文档

System) MapReduce BigTable Hadoop HDFS MapReduce HBase 5. 什么是HadoopOpen Source, Java Apache Lucene(开源搜索引擎)的一个子项目

cablist 2012-11-12   13153   0

开源者的信仰正在崩塌 资讯

很明显的,最近几年很多开源项目都姿态鲜明地选择了 Apache 许可协议,包括云计算平台如 Hadoop、OpenStack、Cassandra 以及 CloudFoundry。另外,Node.js 遵循的是 MIT 许可协议。甚至一些

fmms 2012-03-26   8249   0
开源  

关键业务系统的JVM启动参数推荐 经验

优高手和运维老大们多指引。 前言1,资料 学习开源项目的启动脚本是个不错的主意,比如 Cassandra家的 , 附送一篇 解释它的文章 。 偶然翻到Linkedin工程师的 一篇文章 。

jopen 2015-12-11   19033   0
JVM   Java开发  
P28

  我对后端优化的一点想法 文档

Stratified B-trees (Acunu) LSM tree(BigTable,Cassandra,LevelDB) Fractal Tree Indexes(TokuDB) 使用基于Hash的算法访问数据

腾云驾物 2012-12-21   3682   0
Intel   Scala  

FEX 技术周刊 - 2015/10/19 资讯

test UI architectures and solutions 新兴的NoSQL数据库Cassandra http://mp.weixin.qq.com/s?__biz=MjM5MzM3NjM

jopen 2015-10-19   41760   0
FEX  
1 2 3 4 5 6 7 8 9 10