机器学习实战ByMatlab(4):二分K-means算法 经验

前面我们在是实现K-means算法的时候,提到了它本身存在的缺陷: 1.可能收敛到局部最小值 2.在大规模数据集上收敛较慢 对于上一篇博文最后说的,当陷入局部最小值的时候,处理方法就是多运行几次K-means算法,然后选择畸变函数J较小的作为最佳聚类结果。这样的说法显然不能让我们接受,我们追求的应该是一次就能给出接近最优的聚类结果。

fff8 2015-05-26   14007   0

算法杂货铺:k均值聚类(K-means) 经验

在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。本文首先介绍聚类的基础——距离与相异度,然后介绍一种常见的聚类算法——k均值和k中心点聚类,最后会举一个实例:应用聚类方法试图解决一个在体育界大家颇具争议的问题——中国男足近几年在亚洲到底处于几流水平。

ygw3 2015-05-08   21855   0
算法  

使用canopy生成和k-means聚类对新闻进行聚类 经验

使用canopy生成和k-means聚类对新闻进行聚类

htae2565 2016-02-28   15972   0
算法  

机器学习算法实践——K-Means算法与图像分割 经验

图像分割是图像处理中的一种方法,图像分割是指将一幅图像分解成若干互不相交区域的集合,其实质可以看成是一种像素的聚类过程。通常使用到的图像分割的方法可以分为:基于边缘的技术、基于区域的技术

TyreeBaird 2016-10-31   19980   0

K-means聚类算法计算给定图像中主要颜色 经验

然而当时的我万万没有想到的是,如今自己也需要这样的算法了。

pn0264 2016-02-03   29543   0
算法  

mahout in Action2.2-聚类介绍-K-means聚类算法 经验

作为人类,我们倾向于与志同道合的人合作—“鸟的羽毛聚集在一起。我们能够发现重复的模式通过联系在我们的记忆中的我们看到的、听到的、问道的、尝到的东 西。 例如,相比较盐 ,糖能够是我们更多地想起蜜。所以我们把糖和蜜的味道结合起来叫他们甜蜜。甚至我们不知道甜蜜的味道,但是知道他跟世界上所有的含糖的东西是相似的,是同 一类的。我们还知道它与盐是不同类的东西。无意中,我们不同的味道使用了聚类。把糖和盐做了聚类,每个组有数百个项目。

jopen 2016-01-18   43219   0

数据挖掘-聚类-K-means算法Java实现 经验

K-Means算法是最古老也是应用最广泛的聚类算法,它使用质心定义原型,质心是一组点的均值,通常该算法用于n维连续空间中的对象。

jopen 2013-06-30   118642   0
算法  

使用K-means聚类算法查找一张图像的主色:DominantColor 经验

DominantColor实现采用YUV色彩空间和K-均值聚类算法来查找一张图像的主色。

jopen 2014-12-23   22918   0

机器学习之深入理解K-means、与KNN算法区别及其代码实现 经验

K-means方法是一种 非监督学习 的算法,它解决的是 聚类问题。

LashundaTpo 2017-02-14   17365   0
P7

  Hadoop 网站介绍 文档

Mapreduce是一个简单易用的编程框架,基于Map-reduce写出的程序可以同时运行在由成千上万台计算机组成的计算集群上。就算您不懂得并行编程,不懂套接字,您一样可以控制多台计算机同时处理数据。 在Mapreduce OnlineEvaluation上,您可以选择题目,编写相应的mapreduce程序,体验云平台的编程环境并很方便地学习编写mapreduce程序。

wanboy 2012-09-03   2458   0
P25

  Hadoop进阶 文档

HDFS被调节以支持大文件存储。它应该能提供整体上高的数据传输带宽,能在一个集群里扩展到数百个节点。一个单一的HDFS实例应该能支撑数以千万计的文件;HDFS应用需要一个“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。

7at7 2011-04-27   3440   0
P

Hadoop API 文档 文档

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

perfectqgw 2012-11-18   13672   0
P158

  Hadoop 源码分析 文档

Google的核心竞争技术是它的计算平台. Google的大牛们用了下面5篇文章, 介绍了它们的计算设施. GoogleCluster: Chubby: GFS: BigTable: MapReduce: 很快, Apache上就出现了一个类似的解决方案, 目前它们都属于Apache的Hadoop项目

brucehtan 2014-11-09   2206   0
P13

  Hadoop官方文档0.18 文档

这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等。

pkuxiaoq 2011-05-31   519   0

Hadoop与微软 资讯

想要通过微软技术栈来尝试 Hadoop,看看他们到底能带来哪些功能么?我们这里列举出一些对你有帮助的资源。

fmms 2012-05-12   24516   1
Hadoop  

Hadoop VS Spark 资讯

Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。 HDFS,在由普通PC组成的集群上提供高可靠的文件存储,通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。

jopen 2015-11-21   34595   0
Hadoop  
P11

  hadoop入门教程 文档

第一次搞hadoop,折腾我2天,功夫不负有心人,终于搞好了,现在来分享下,我的环境操作系统:wmv虚拟机中的ubuntu12.04hadoop版本:hadoop-1.0.4(听说是稳定版就下了)eclipse版本:eclipse-jee-indigo-SR2-win321.先安装好jdk,然后配置好jdk的环境变量,在这里我就不累赘了!网上多的是2.安装ssh这个也不用说了

peixy 2016-11-03   551   0
P23

  Yahoo! Hadoop教程 文档

欢迎来到Yahoo!Hadoop教程!这个系列教程将向你介绍ApacheHadoop系统的许多方向,还将向你展示:如何进行简单和高级的集群配置;如何使用分布式文件系统;如何使用分布式文件系统,如何开发复杂的HadoopMapReduce应用,并且其它相关的分布式系统也提及。

huafenged 2011-08-17   4717   0

Hadoop Sentry 学习 经验

Sentry 是Cloudera 公司发布的一个Hadoop开源组件,它提供细粒度基于角色的安全控制

jopen 2014-08-16   32366   0

基本hadoop文件操作 经验

基本hadoop文件操作

y3c5 2015-05-11   11006   0
1 2 3 4 5 6 7 8 9 10