0推荐
20K 浏览

Hazelcast与MongoDB集成

Hazelcast的分布式数据结构和计算性能使得它可以作为应用程序后端的“MongoDB”。 MongoDB是一个开源的、面向文档的数据库,其扩展性和灵活性都非常好。MongoDB不是把...
0推荐
11K 浏览

跟我学分布式事务之2PC和3PC

在分布式系统中,为了保证数据的高可用,通常,我们会将数据保留多个副本(replica),这些副本会放置在不同的物理的机器上。为了对用户提供正确的增\删\改\差等语义,我们需要保证这些放置在不同物...
0推荐
17K 浏览

Spark Streaming 源码解析系列

作为跑在商业硬件上的大数据处理框架,Apache Hadoop 在诞生后的几年内(2005~今)火的一塌糊涂,几乎成为了业界处理大数据的事实上的标准工具
0推荐
20K 浏览

Hadoop简单应用案例,包括MapReduce、单词统计、HDFS基本操作等

Hadoop简单应用案例,包括MapReduce、单词统计、HDFS基本操作、web日志分析、Zookeeper基本使用等
0推荐
13K 浏览

设计全球级的分布式、任务关键型应用 - 从实际项目中得来的教训(下)

此篇为设计下一代智能DNS和流量管理平台的NSONE公司的创建者和CEO Kris Beevers的客座文章的第二部分。点此阅读第一部分
0推荐
23K 浏览

Hbase/Hdfs删除节点

线上有台服务器随时可能会挂掉,所以需要把在这个服务器上hbase的regionserver和hdfs的datanode节点移除。然后重新拿台新服务器部署接管。
0推荐
18K 浏览

分布式设计与开发------几种必须了解的分布式算法

分布式设计与开发中有些疑难问题必须借助一些算法才能解决,比如分布式环境一致性问题,感觉以下分布式算法是必须了解的(随着学习深入有待添加):
0推荐
25K 浏览

基于HBase做Storm 实时计算指标存储

Hi,大家好!我是祝威廉,本来微博也想叫祝威廉的,可惜被人占了,于是改名叫·祝威廉二 世。然后总感觉哪里不对。目前在乐视云数据部门里从事实时计算,数据平台、搜索和推荐等多个方向。曾从事基础框架,...
0推荐
15K 浏览

设计全球级的分布式、任务关键型应用 - 从实际项目中得来的教训(上)

此篇为设计下一代智能DNS和流量管理平台的 NSONE 公司的创建者和CEO Kris Beevers 的客座文章的 第一部分 。点此阅读 第二部分
0推荐
15K 浏览

图片集群分布式存储和负载均衡

对于Web服务器而言,用户对图片信息的访问是很消耗服务器资源的。当一个网页被浏览时,Web服务器与浏览器建立连接,每个连接表示一个并发。 当页面包含多个图片时,Web服务器与浏览器会产生多个连接...
0推荐
64K 浏览

Spark SQL编程指南(Python)

Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询。它的核心是一个特殊类型的Spark RDD:SchemaRDD。
0推荐
25K 浏览

浅谈开源大数据平台的演变

一说到开源大数据处理平台,就不得不说此领域的 开 山鼻祖Hadoop,它是GFS和MapReduce的开源实现。 虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用、降低使用门...
0推荐
20K 浏览

Druid 实时数据分析存储系统

Druid 是一个开源的,分布式的,列存储的,适用于实时数据分析的存储系统,能够快速聚合、灵活过滤、毫秒级查询、和低延迟数据导入。
0推荐
61K 浏览

大数据处理框架Apache Spark入门

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。
0推荐
26K 浏览

我所理解的大数据个性化推荐

想起要写这篇文章,一方面是昨天终于把项亮写的《推荐系统实践》给看完了,另一方面是自己负责的推荐系统项目已经处于一个多版本迭代的阶段了,并且从最近的AB测试效果来看,新提交的算法模型还是有一定的进...
0推荐
180K 浏览

60款顶级大数据开源工具

说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用H...
0推荐
13K 浏览

分布式的系统用于构建,部署和运行服务:PaaSTA

PaaSTA是一个高度可用的,分布式的系统用于构建,部署和运行服务使用容器和Apache Mesos。
0推荐
7K 浏览

Spark如何解决常见的Top N问题

假设我们有一张各个产品线URL的访问记录表,该表仅仅有两个字段:product、url,我们需要统计各个产品线下访问次数前10的URL是哪些?
0推荐
12K 浏览

构建高可扩Web架构和分布式系统实战

构建并运营一个可伸缩的Web站点或应用程序到底是指什么?在最初,仅是通过互联网连接用户和访问远程资源。 和大多数事情一样,当构建一个Web服务时,需要提前抽出时间进行规划。了解大型网站创...
0推荐
18K 浏览

zookeeper分布式锁

zookeeper分布式锁
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档