• 机器学习时代的哈希算法,将如何更高效地索引数据

     发表于 3 个月 前

    哈希算法一直是索引中最为经典的方法,它们能高效地储存与检索数据。但在去年 12 月,Jeff Dean 与 MIT 等研究者将索引视为模型,探索了深度学习模型学习的索引优于传统索引...

  • 3分钟了解“关联规则”推荐

     发表于 3 个月 前

    “把啤酒放在尿布旁,有助于提升啤酒销售量”是关联规则推荐的经典案例,今天,和大家聊聊“关联规则推荐”,正文不含任何公式,保证PM弄懂。...

  • 数据如何变成知识,第 1 部分: 从数据到知识

     发表于 4 个月 前

    过去几年,信息科学取得了重大进展。随着本地服务器给云服务让道,SQL 数据库和数据表开始朝 NoSQL 和键值对数据存储迁移。随后,为了处理大量的、品种繁多的、快速生成的数据,大数...

  • 数据为王,如何通过数据挖掘为运维增值升值?

     发表于 6 个月 前

    是一个严谨的技术人员需要追求的客观准则,用一个更加高级的词汇来描述是「可计价」。一切行为都是有价值的,特别是对线上环境的各种的运维操作、变更,会造成怎样的影响,我们如何判断其价值所...

  • 计算机视觉这一年:2017 CV技术报告Plus之卷积架构、数据集与新趋势

     发表于 8 个月 前

    本文是 the M Tank 计算机视觉报告《A Year in Computer Vision》的第四部分(之前部分参见:计算机视觉这一年:这是最全的一份 CV 技术报告)。本节...

  • iOS开发者的机器学习

     发表于 1 年 前

    原文对于各种热门的机器学习、深度学习课程,你一定了解过不少了。但上课之后,如何把学出来的这些新方法用在你的工作项目?如何让你的移动应用也能具备机器学习、深度学习的能力?...

  • 令人拍案叫绝的Wasserstein GAN

     发表于 1 年 前

    在 GAN 的相关研究如火如荼甚至可以说是泛滥的今天,一篇新鲜出炉的 arXiv 论文《Wassertein GAN(https://arxiv.org/abs/1701.0787...

  • 从图片相似度学习图片的表示

     发表于 1 年 前

    很多时候带分类标注的图片样本是很难获得的,但是图片之间的相似度却不难获得。...

  • 用于语义分割的全卷积网络(UC Berkeley)

     发表于 1 年 前

    卷积网络在特征分层领域是非常强大的视觉模型。我们证明了经过端到端、像素到像素训练的卷积网络超过语义分割中最先进的技术。我们的核心观点是建立“全卷积”网络,输入任意尺寸,经过有效的推...

  • Apache Kylin发布新版流处理引擎

     发表于 1 年 前

    Apache Kylin在 1.5.0 推出了从流数据进行准实时(Near Real Time)处理功能,可以直接从Apache Kafka的主题(Topic)中消费数据来构建Cu...

  • 六款强大的开源数据挖掘工具

     发表于 2 年 前

    为您推荐六款强大的开源数据挖掘工具...

  • 使用开源软件快速搭建数据分析平台

     发表于 2 年 前

    使用开源软件快速搭建数据分析平台:最近,国内涌现出了不少数据分析平台产品,例如魔镜和数据观。 这些产品的目标应该都是self service的B......

  • 基于日志文件的数据挖掘机理分析与研究

     发表于 2 年 前

    摘 要: 介绍了数据挖掘的定义,分析了日志数据面临的挑战及对其进行挖掘的原因。讨论了日志数据挖掘的需求,归纳了对日志数据挖掘的具体内容,总结了日志数据挖掘的具体...

  • 创业公司使用R语言搭建简单的数据分析系统

     发表于 2 年 前

    整个系统分为三个服务 一、数据源。这个可以是各种形式的数据库。当然,你如果有高大上的Hadoop也是可以的。 二、分析引擎。就是R了,这里我们使用Rserve搭建一个服务。...

  • 数据挖掘学习笔记一:引论

     发表于 2 年 前

    例1.1 数据挖掘把大型数据集转换成知识。Google的Flu Trends(流感趋势)使用特殊的搜索项作为流感活动的指示器。它发现了搜索流感相关信息的人数与实际具有流感症状的人数...

  • Orange-数据挖掘和机器学习软件

     发表于 2 年 前

    Orange(http://orange.biolab.si/)是一个基于组件的数据挖掘和机器学习软件套装,支持Python进行脚本开发。Orange由斯洛文尼亚大学计算与信息学系...

  • 开源数据分析工具:Druid

     发表于 2 年 前

    Druid 是一个针对在线分析处理(OLAP)事件数据而设计的开源数据存储分析工具。它提供了低延迟(实时)数据摄取、灵活的数据探索及快速的数据聚合功能。现存 的已实施的Druid项...

  • 数据挖掘的学习资源

     发表于 2 年 前

    数据挖掘(Data Mining)作为一个领域,比机器学习要大,偏应用。互联网公司也大量使用数据挖掘技术,作为即将毕业进入互联网公司从事机器学习算法开发的我,最近计划系统了解一下这...

  • 数据挖掘与预测分析术语总结

     发表于 2 年 前

    分析型客户关系管理(Analytical CRM/aCRM): 用于支持决策,改善公司跟顾客的互动或提高互动的价值。针对有关顾客的知识,和如何与顾客有效接触的知识,进行收集、分析、...

  • 开源 BI 工具 Metabase 简介

     发表于 2 年 前

    这是 Metabase 官网上的介绍。BI 工具其实非常多,但却没有一种适合所有场景,各种产品的定位也各不相同。个人觉得 Metabase 相对于其他 BI 产品具有以下特性: ...