微博背后的那些算法 经验

文中的 词语在URL对应网页中出现的频度。 对于那些为做广告推销的用户,还可以对其微文进行文本分类,判断其微文是否是广告,如果某用户的相当一部分微文是广告,则该用户可能是垃圾用户。 垃圾用户一

jopen 2015-01-13   36087   0
算法  

谈谈新浪微博背后的那些算法 资讯

对应界面表示成词语向量,查看微文中的词语在 URL 对应网页中出现的频度。 对于那些为做广告推销的用户,还可以对其微文进行文本分类,判断其微文是否是广告,如果某用户的相当一部分微文是广告,则该用户可能是垃圾用户。 垃圾用户一

nwfe 2015-04-09   16022   0
算法  

程序员们注意了,这些数据专家写出了一个会编程的程序 资讯

《科学》 杂 志上。这个数据模型叫做 BPL (Bayesian Program Learning 程序学习)。简单来说,这个程序能通过对现有程序的再次利用、捕捉真实世界里的组合及因果关系来自行建立

jopen 2015-12-11   4933   0

深度学习和神经网络简史(二) 经验

套特征探测器,可以探测到位于输入环节任何地方的某个具体特征实例,非常明智。既然一个特征的精准定位于分类无关,那么,我们可以在处理过程中适当舍弃一些位置信息。不过,近似的位置信息必须被保留,从而允许下面

MarissaMaga 2016-01-28   75289   0

国际互联网协会公布第一批名人堂名单 资讯

米切尔-克(Mitchell Baker)、蒂姆-伯纳李(Tim Berners-Lee)、克莱格-纽马克(Craig Newmark)、雷-汤姆林生(Ray Tomlinson)、李纳-托瓦兹(Linus

fmms 2012-04-24   5898   0
P150

  CRM-客户关系管理 文档

6、优化企业业务流程 返回 27. CRM的分类按目标客户分类 按应用集成度分类返回 28. 按目标客户分类 高端应用 中低端应用 返回 29. 按应用集成度分类 CRM专项应用 CRM整合应用 CRM企业集成应用

108439162 2011-12-02   1510   0
ERP/CRM   方案   报告   HTML   C/C++  

Web 应用开源项目大全 资讯

(其是CiteSeer 的换代产品。1997年,CiteSeer引文搜索引擎由NEC公司在美国普林顿研究所的三位研究人员Steve Lawrence, Lee Giles和Kurt Bollacke

openkk 2011-08-10   298893   5
web  

速度快效果好的boosting模型:xgboost 经验

GradientBoostingClassifier 的存在。 Boosting分类器属于集成学习模型,它基本思想是把成百上千个分类准确率较低的树模型组合起来,成为一个准确率很高的模型。这个模型会不断地 迭

jopen 2015-03-05   130262   0
P9

  单元测试标准 文档

设计文档标准(S-04001) 广东海尔网络科技有限公司 沈阳东东系统集成有限公司 S-10001 REV-0 单元测试标准 更改记录 序号 发行日 更改对象·更改内容 批准 审查 拟制 广东海尔网络科技有限公司

z00107647 2012-02-05   4994   0
P21

  云计算架构 Hadoop 文档

Naive Bayes classifier(分类) Random forest decision tree based classifier(随机森林决策树的分类) High performance java

altila 2012-06-12   745   0

2016 腾讯软件开发面试题(部分) 经验

在B区概率:P(B)=5/8 犯案概率:P(C)=(3/8 0.01%+5/8 0.015%) 根据公式:P(A|C) = P(A,C) / P(C) = [P(C|A) P(A)] / [ P(C|A)

nuws6854 2017-02-20   20793   0

0x0F 大数据职位,数据场技能(下) 经验

很多问题都可以转化为一个概率问题,并不是要完全确定的结果,只要概率达满足即可。概率论方面的主要是统计,隐马尔可夫模型等之类的。这些都是深入理解算法的基础。 对数据的运算,很多时候就是直接矩阵

ersm3365 2016-01-29   41293   0

黑客偷你的密码干什么? 资讯

账户之后,他们还打算干嘛, 到黑市上卖简历吗?嫌 LinkedIn 邀请注册邮件还不够多,所以要利用联系人列表来发垃圾邮件么? 漠不关心者有之,冷嘲热讽者有之,但是还有一小掇人高度重视这次 LinkedIn

openkk 2012-06-10   6411   0
黑客  

不平衡数据下的机器学习方法简介 经验

攻击识别等等。 问题定义 那么什么是不平衡数据呢?顾名思义即我们的数据集样本类别极不均衡,以二分类问题为例,假设我们的数据集是$S$,数据集中的多数类 为$S_maj$,少数类为$S_min$,通

jopen 2015-11-13   80711   0
P9

  随机森林算法部分 文档

 5.2.3 随机森林 5.2.3.1 RF定义: 随机森林是一个分类器,它有一系列的单株树决策器{h(X,,);k=1,......}来组成,其中{}是独立同分布的随机变量。再输入X时,每一棵树只

勇敢勒小虎 2017-01-09   807   0
P21

  信息安全保密管理规定v.1 文档

5.内容及要求 1 5.1计算机信息分类标准 1 5.2计算机信息分类表 2 5.3计算机信息分类标识管理 5 5.4计算机信息分类的安全管理 5 5.5计算机信息分类安全管理的实施 12 5.6计算机设备安全保密总则

405570106 2016-06-23   996   0

MySql MyISAM与InnoDB的索引结构 经验

InnoDB与MyISAM不同的是其支持聚集索引(后面介绍)。它存储表的结构大致如下: 聚簇索引中的每个子节点包含primary key的值,事务ID和回滚指针(rollback pointer)——用于事务和MVCC,和余下的列。

hjl5513 2016-05-03   11535   0

面部识别技术兴起:谁掌握你的头像信息? 资讯

互联网用户的数据被大量收集,但这些数据通常只与人为的识别信息有关,例如浏览器 Cookie 和电子邮件地址。在互联网上,代表我们身份的信息仍是数字和字母,而这些都有可能变化,最多只是需要付出一定的代价。而欺诈和家庭暴力的受害者还可以向政

jopen 2015-07-04   17107   0
P648

  搜索引擎核心技术与实现(基于Lucene和Solr) 文档

图像的OCR识别 172 3.3.1 图像二值化 173 3.3.2 切分图像 175 3.3.3 SVM分类 179 3.4 提取垂直行业信息 183 3.4.1 医疗行业 183 3.4.2 旅游行业 184

SevnInfor 2011-08-02   2133   0
P648

  搜索引擎核心技术与实现 文档

图像的OCR识别 172 3.3.1 图像二值化 173 3.3.2 切分图像 175 3.3.3 SVM分类 179 3.4 提取垂直行业信息 183 3.4.1 医疗行业 183 3.4.2 旅游行业 184

lxfsbxh 2012-05-11   790   0
1 2 3 4 5 6 7 8 9 10