开源项目,开源代码,开源文档,开源新闻,开源社区

前面我们在是实现K-means算法的时候，提到了它本身存在的缺陷： 1.可能收敛到局部最小值 2.在大规模数据集上收敛较慢对于上一篇博文最后说的，当陷入局部最小值的时候，处理方法就是多运行几次K-means算法，然后选择畸变函数J较小的作为最佳聚类结果。这样的说法显然不能让我们接受，我们追求的应该是一次就能给出接近最优的聚类结果。

fff8 2015-05-26 14007 0

机器学习

在前面的文章中，介绍了三种常见的分类算法。分类作为一种监督学习方法，要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足，尤其是在处理海量数据的时候，如果通过预处理使得数据满足分类算法的要求，则代价非常大，这时候可以考虑使用聚类算法。聚类属于无监督学习，相比于分类，聚类不依赖预定义的类和类标号的训练实例。本文首先介绍聚类的基础——距离与相异度，然后介绍一种常见的聚类算法——k均值和k中心点聚类，最后会举一个实例：应用聚类方法试图解决一个在体育界大家颇具争议的问题——中国男足近几年在亚洲到底处于几流水平。

ygw3 2015-05-08 21855 0

算法

使用canopy生成和k-means聚类对新闻进行聚类

htae2565 2016-02-28 15972 0

算法

图像分割是图像处理中的一种方法，图像分割是指将一幅图像分解成若干互不相交区域的集合，其实质可以看成是一种像素的聚类过程。通常使用到的图像分割的方法可以分为：基于边缘的技术、基于区域的技术

TyreeBaird 2016-10-31 19980 0

算法 K-means 机器学习

然而当时的我万万没有想到的是，如今自己也需要这样的算法了。

pn0264 2016-02-03 29543 0

算法

作为人类，我们倾向于与志同道合的人合作—“鸟的羽毛聚集在一起。我们能够发现重复的模式通过联系在我们的记忆中的我们看到的、听到的、问道的、尝到的东西。例如，相比较盐，糖能够是我们更多地想起蜜。所以我们把糖和蜜的味道结合起来叫他们甜蜜。甚至我们不知道甜蜜的味道，但是知道他跟世界上所有的含糖的东西是相似的，是同一类的。我们还知道它与盐是不同类的东西。无意中，我们不同的味道使用了聚类。把糖和盐做了聚类，每个组有数百个项目。

jopen 2016-01-18 43219 0

推荐引擎

K-Means算法是最古老也是应用最广泛的聚类算法，它使用质心定义原型，质心是一组点的均值，通常该算法用于n维连续空间中的对象。

jopen 2013-06-30 118642 0

算法

DominantColor实现采用YUV色彩空间和K-均值聚类算法来查找一张图像的主色。

jopen 2014-12-23 22918 0

算法 DominantColor

K-means方法是一种非监督学习的算法，它解决的是聚类问题。

LashundaTpo 2017-02-14 17365 0

算法 K-means KNN 机器学习

P7

Mapreduce是一个简单易用的编程框架，基于Map-reduce写出的程序可以同时运行在由成千上万台计算机组成的计算集群上。就算您不懂得并行编程，不懂套接字，您一样可以控制多台计算机同时处理数据。在Mapreduce OnlineEvaluation上，您可以选择题目，编写相应的mapreduce程序，体验云平台的编程环境并很方便地学习编写mapreduce程序。

wanboy 2012-09-03 2458 0

Hadoop 分布式/云计算/大数据

P25

HDFS被调节以支持大文件存储。它应该能提供整体上高的数据传输带宽，能在一个集群里扩展到数百个节点。一个单一的HDFS实例应该能支撑数以千万计的文件；HDFS应用需要一个“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题，并且使高吞吐量的数据访问成为可能。

7at7 2011-04-27 3440 0

Hadoop 分布式/云计算/大数据

P

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。

perfectqgw 2012-11-18 13672 0

Hadoop 分布式/云计算/大数据

P158

Google的核心竞争技术是它的计算平台. Google的大牛们用了下面5篇文章, 介绍了它们的计算设施. GoogleCluster： Chubby： GFS： BigTable： MapReduce：很快, Apache上就出现了一个类似的解决方案, 目前它们都属于Apache的Hadoop项目

brucehtan 2014-11-09 2206 0

分布式/云计算/大数据

P13

这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会，比如在HDFS上运行示例程序或简单作业等。

pkuxiaoq 2011-05-31 519 0

Hadoop 分布式/云计算/大数据

想要通过微软技术栈来尝试 Hadoop，看看他们到底能带来哪些功能么？我们这里列举出一些对你有帮助的资源。

fmms 2012-05-12 24516 1

Hadoop

Hadoop就是解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。 HDFS，在由普通PC组成的集群上提供高可靠的文件存储，通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。

jopen 2015-11-21 34595 0

Hadoop

P11

第一次搞hadoop，折腾我2天，功夫不负有心人，终于搞好了，现在来分享下，我的环境操作系统：wmv虚拟机中的ubuntu12.04hadoop版本：hadoop-1.0.4(听说是稳定版就下了)eclipse版本：eclipse-jee-indigo-SR2-win321.先安装好jdk，然后配置好jdk的环境变量，在这里我就不累赘了！网上多的是2.安装ssh这个也不用说了

peixy 2016-11-03 551 0

Hadoop 分布式/云计算/大数据

P23

欢迎来到Yahoo!Hadoop教程！这个系列教程将向你介绍ApacheHadoop系统的许多方向，还将向你展示：如何进行简单和高级的集群配置；如何使用分布式文件系统；如何使用分布式文件系统，如何开发复杂的HadoopMapReduce应用，并且其它相关的分布式系统也提及。

huafenged 2011-08-17 4717 0

Hadoop 分布式/云计算/大数据

Sentry 是Cloudera 公司发布的一个Hadoop开源组件，它提供细粒度基于角色的安全控制

jopen 2014-08-16 32366 0

Hadoop 分布式/云计算/大数据

基本hadoop文件操作

y3c5 2015-05-11 11006 0

分布式/云计算/大数据 Hadoop

机器学习实战ByMatlab（4）：二分K-means算法经验

算法杂货铺：k均值聚类(K-means) 经验

使用canopy生成和k-means聚类对新闻进行聚类经验

机器学习算法实践——K-Means算法与图像分割经验

K-means聚类算法计算给定图像中主要颜色经验

mahout in Action2.2-聚类介绍-K-means聚类算法经验

数据挖掘-聚类-K-means算法Java实现经验

使用K-means聚类算法查找一张图像的主色：DominantColor 经验

机器学习之深入理解K-means、与KNN算法区别及其代码实现经验

Hadoop 网站介绍文档

Hadoop进阶文档

Hadoop API 文档文档

Hadoop 源码分析文档

Hadoop官方文档0.18 文档

Hadoop与微软资讯

Hadoop VS Spark 资讯

hadoop入门教程文档

Yahoo! Hadoop教程文档

Hadoop Sentry 学习经验

基本hadoop文件操作经验

K-means Hadoop 的相关搜索

关键词

机器学习实战ByMatlab（4）：二分K-means算法 经验

算法杂货铺：k均值聚类(K-means) 经验

使用canopy生成和k-means聚类对新闻进行聚类 经验

机器学习算法实践——K-Means算法与图像分割 经验

K-means聚类算法计算给定图像中主要颜色 经验

mahout in Action2.2-聚类介绍-K-means聚类算法 经验

数据挖掘-聚类-K-means算法Java实现 经验

使用K-means聚类算法查找一张图像的主色：DominantColor 经验

机器学习之深入理解K-means、与KNN算法区别及其代码实现 经验

Hadoop 网站介绍 文档

Hadoop进阶 文档

Hadoop API 文档 文档

Hadoop 源码分析 文档

Hadoop官方文档0.18 文档

Hadoop与微软 资讯

Hadoop VS Spark 资讯

hadoop入门教程 文档

Yahoo! Hadoop教程 文档

Hadoop Sentry 学习 经验

基本hadoop文件操作 经验

K-means Hadoop 的相关搜索

关键词

机器学习实战ByMatlab（4）：二分K-means算法经验

使用canopy生成和k-means聚类对新闻进行聚类经验

机器学习算法实践——K-Means算法与图像分割经验

K-means聚类算法计算给定图像中主要颜色经验

mahout in Action2.2-聚类介绍-K-means聚类算法经验

数据挖掘-聚类-K-means算法Java实现经验

机器学习之深入理解K-means、与KNN算法区别及其代码实现经验

Hadoop 网站介绍文档

Hadoop进阶文档

Hadoop API 文档文档

Hadoop 源码分析文档

Hadoop与微软资讯

hadoop入门教程文档

Yahoo! Hadoop教程文档

Hadoop Sentry 学习经验

基本hadoop文件操作经验