开源项目,开源代码,开源文档,开源新闻,开源社区

P10

现顺序化存储优化，以得到最好的IO性能。 1.3. HLogKey类当前的WAL实现采用了Hadoop SequenceFile，它会将记录存储为一系列的key/values。对于WAL来说，va

lanbocui 2012-08-21 2232 0

分布式/云计算/大数据

Kylin是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力（可以把Kylin定义为 OLAP on Hadoop ）。Apache Kylin于2015年1

caotans 2017-01-04 26137 0

Apache Kylin

了第一个1000w日均调用，此时两个互联网的新兴技术开始在开放平台中尝试，Memcached和Hadoop。今天看来这两个技术已经被大规模使用，2008年时却是在吃螃蟹，2 台虚拟机要抗1000w的路

jopen 2012-10-14 98746 0

淘宝软件架构

P8

息存储可以分布式集群化，具有了水平扩展的能力。作者何鹏关注分布式存储与计算相关框架，包括Hadoop、YARN、HBase、Storm、Spark、MQ等 peng.he.ia@gmail.com

657226016 2018-05-20 885 0

安全可靠。根据不同的应用需求，存储层细分为Redis集群，Membase集群，MySQL集群和Hadoop/HDFS四类。 Redis集群。百分点推荐引擎采用了Redis作为缓存，用于存储热门数据，包

jopen 2014-12-01 52321 0

推荐引擎

HDFS是携程海量数据的主要存储，两者来自Hadoop 生态体系。Hadoop 这块大家已经很熟悉，如果不熟悉的同学只要知道Hadoop 主要用于大数据量存储和并行计算批处理工作。 Hive 是基于Hadoop平台的数据仓库

ouyangzhizhong 2016-10-08 45771 0

数据挖掘大数据分布式/云计算/大数据 NOSQL

HDFS是携程海量数据的主要存储，两者来自Hadoop 生态体系。Hadoop 这块大家已经很熟悉，如果不熟悉的同学只要知道Hadoop 主要用于大数据量存储和并行计算批处理工作。 Hive 是基于Hadoop平台的数据仓库

JBIKatherin 2016-09-22 44901 0

数据挖掘大数据分布式/云计算/大数据 NOSQL

Hive-default.xml l Hadoop-site.xml(或core-site.xml等) l Hadoop-default.xml 注意：以上提到的hadoop-site.xml及haddop-default

jopen 2014-01-28 42701 0

Hive 数据挖掘

HBase写入缓慢，查看HBase日志，经常有慢日志如下： WARN org.apache.hadoop.ipc.HBaseServer- (responseTooSlow): {“processingtimems”:36096

jopen 2015-12-05 22044 0

HBase NoSQL数据库

P9

apache.nutch.crawl.Indexer：这个类的任务是另一方面的工作了，它是基于hadoop和lucene的分布式索引。它就是为前面爬虫抓取回来的数据进行索引好让用户可以搜索到这些数据。

228823266 2012-01-17 5175 0

搜索引擎 nutch

P8

息存储可以分布式集群化，具有了水平扩展的能力。作者何鹏关注分布式存储与计算相关框架，包括Hadoop、YARN、HBase、Storm、Spark、MQ等 peng.he.ia@gmail.com

hjlsoft 2014-11-23 1818 0

消息中间件

P8

发读写性能来说，是非常糟糕的，这让我立刻抛弃了对CouchDB的兴趣。 5、 HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC

synart 2012-04-18 8205 0

NoSQL数据库 SQL

要对其进行改进。本文针对协同过滤算法中的最近邻居判断准确性问题，综合显性兴趣度、隐形兴趣度和预测兴趣度3 种用户兴趣指标提出了综合兴趣度的概念，并将这种基于综合兴趣度的协同过滤方法应用于一种图书

jopen 2015-12-21 20497 0

推荐算法算法

Forest，简称RF）拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。最初，我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛

ny8p 2015-06-19 44180 0

机器学习

的应用。这里列举了50个较为常用的API，其中涉及到机器学习、推理预测、文本分析及归类、人脸识别、语言翻译等各个方面。机器学习和预测 AlchemyAPI：将人工智能作为一项服务提供。可以用来将非结构化数据转换整合成结构化

jopen 2015-12-08 64106 0

机器学习

P28

跨地区、跨行业审计跨行业、跨区域审计事后审计、周期性审计连续审计复杂性隐蔽问题难以发现智能化，具有预测功能依据小样本经验地毯式排查大数据分析，建立抵御和预防手段审计行业大数据知识推理系统 5. 房地产

guet_lee 2017-01-12 2620 0

分布式/云计算/大数据方案 Java Python Scala

不同信息，技术上非常有挑战。在这篇论文中，研究人员解决该问题的方法是建立一个多任务框架，把对标签的预测当作多标签分类任务，把长描述（例如生成 Impression 和 Findings）的生成当作文本

xwmi2886 2017-11-28 25067 0

人工智能向量 AI

hours）都花费在找到有效地技术来“掩藏”访存延时。通用的策略包括：缓存、推测预取、load-store依赖性预测、乱序执行等等。这些方法确实在使机器更快方面起了很大作用，但是不可能完全不产生访存操作。在上

jopen 2013-09-01 22074 0

C语言

了我。虽然这两部电影都给我留下了深刻的影响，但我认为《爱乐之城》将最终胜出。” 在最佳男演员的预测上，Google Assistant 认为在影片《藩篱》中表现惊艳的老牌影星丹泽尔·华盛顿将最终胜出。最佳女演员方面，Google

jopen 2017-02-26 5435 0

事实上，我相信有种方法比以上三种都合适。我把过往跟小Y相约的经历在脑海中重现一下，看看跟他相约的次数中，迟到占了多大的比例。而我利用这来预测他这次迟到的可能性。如果这个值超出了我心里的某个界限，那我选择等一会再出发。假设我跟小Y约过5次，

jopen 2016-01-03 52564 0

数据挖掘算法自然语言处理

HBase Architecture（中）文档

Apache Kylin 综述经验

淘宝开放平台技术历程经验

RocketMQ-原理简析（适合初级使用者）文档

百分点个性化推荐引擎的学习经验

每天近百亿条用户数据，携程大数据高并发应用架构涅槃经验

每天TB级数据处理，携程大数据高并发应用架构涅槃经验

Hive配置运行及表的操作经验

HBase优化实战经验

Nutch 主要类分析文档

RocketMQ -原理简析（适合初级使用者）文档

NOSQL数据库介绍文档

基于综合兴趣度的协同过滤推荐算法经验

[Machine Learning] Random Forest 随机森林经验

50个常用的人工智能和机器学习API 资讯

大数据分析技术架构解决方案文档

人工智能如何更好的辅助医生？Petuum研究自动生成医疗图像报告经验

一个简单例子说明为什么C语言在2013年仍很重要资讯

哪部电影会拿奥斯卡？谷歌助手和苹果Siri打起来了资讯

从机器学习谈起，大数据/自然语言处理/算法全有了…… 资讯

hadoop 电影票房预测的相关搜索

关键词

HBase Architecture（中） 文档

Apache Kylin 综述 经验

淘宝开放平台技术历程 经验

RocketMQ-原理简析（适合初级使用者） 文档

百分点个性化推荐引擎的学习 经验

每天近百亿条用户数据，携程大数据高并发应用架构涅槃 经验

每天TB级数据处理，携程大数据高并发应用架构涅槃 经验

Hive配置运行及表的操作 经验

HBase优化实战 经验

Nutch 主要类分析 文档

RocketMQ -原理简析（适合初级使用者） 文档

NOSQL数据库介绍 文档

基于综合兴趣度的协同过滤推荐算法 经验

[Machine Learning] Random Forest 随机森林 经验