搜索是很多用户在天猫购物时的第一入口,搜索结果会根据销量、库存、人气对商品进行排序,而商品的显示顺序往往会决定用户的选择,所以保证搜索 结果的实时性和准确性非常重要。在电商系统中,特别是在“双十一”这样的高并发场景下,如何准确展示搜索结果显得尤为重要。在今年的“双十一”活动 中,InfoQ 有幸采访到了阿里巴巴集团搜索引擎的三位负责人仁基、桂南和悾傅,与他们共同探讨了搜索引擎背后的细节。以下内容根据本次采访整理而成。
Lucandra.NET 是 .NET 版的 Lucandra (Solandra)
北京时间11月4日消息,Google 周四对搜索引擎算法进行大调整,主要是强调时间因素影响,调整会影响约35%的搜索结果。 美联社消息称,从周三开始,部分广告将放在搜索结果下方,原来是放在旁边的,此举可能会带来更多营收。在改变之后,搜索结果右侧广告栏仍将显示广告。 Google 表示,公司研究发现,特定的广告在至于页面底部时能带来更多的点击,这将为公司创造更多收入。Google 并没有具体说明什么类型的广告可以放在页面底部。虽然对广告位置做出了改变,但 Google 搜索结果右侧的广告栏并不会取消,仍将继续显示广告。
Elasticsearch是一个实时的、分布式的RESTful搜索引擎,基于Apache Lucene开发。具备高可靠性,支持非常多的企业级搜索用例。它对外提供一系列基于Java和HTTP的API,用于索引、检索、修改大多数配置。
Solandra是一个实时分布式搜索引擎,基于Apache Solr和Apache Cassandra构建。其核心,Solandra是Solr与Cassandra的一个紧密集成。这意味着Solr与Cassandra将在单个JVM中同时运行,文档(Documents)采用Cassandra的数据模型进行存储和分发。
实时虚拟化听起来有点矛盾,但是它确实是有用的(在某些条件下),并且为 Linux 内核的灵活性又提供了一个强有力的证明。KVM2015 论坛的前两个演讲就详细的讨论了实时虚拟化。第一个演讲者是 Rik van Riel,他讲解了实时虚拟化的内核部分的工作(Youtube视频和幻灯片)。而第二个演讲者 Jan Kiszka 则解释了如何配置主机以及如何管理实时虚拟机(Youtube视频和幻灯片)。我们这篇文章就采取了他们两人的意见,首先是 Van Riel 的想法。
libre 是一个利用异步 I/O 实现了实时通讯库。采用可移植的 POSIX 源码编写,符合 ANSI C89 和 ISO C99 标准。这是一个可靠、快速、低内存占用的库,兼容 RFC ,支持 IPv4 和 IPv6,协议实现包括 SIP, SDP, RTP/RTCP, BFCP, DNS, and STUN/TURN/ICE
您好:我正在自学storm, 有一些storm相关的问题能帮我解答一下吗? 1.storm里,多个worker进程之间,用redis时,不同的worker进程之间取的数据是否都是一致的?
Hackpad 是一个基于 Web 的实时 Wiki 系统,基于开源的 EtherPad 协作文档编辑器开发。
Heim 是 Euphoria 的前端和后端,它是一个实时的社区平台。后端是一个在 WebSocket 以 JSON 格式进行数据交换的 Go 服务器,用于将数据保存到 PostreSQL 上。Web 客户端基于 React/Reflux 建立。
Summa是一种由java开发的,快速模块化和可扩展的搜索引擎
Lily以NoSQL技术为主题,是建立在云计算上的内容仓库(content repository)。它是基于Apache的 HBase(存储)和Solr(索引/搜索),并提供了大型内容集合存储与检索的解决方案。可运用在 门户网站,内容管理系统,及时搜索,档案应用,文案管理,等等。 Lily的优势在于她强大的搜索能力,无论是文本匹配还是全文索引,通通都能搞 定。但我觉得Lily在获取这些优势的同时付出了相当大的代价,最主要的代价就是系统的复杂性。想想看,为了能够使用Lily,你需要安装并维护以下系 统:HDFS, HBase, Zookeeper, SOLR, Lily. 这些系统任何一个都可能让Operation Team抓狂,更不用说他们混在一起了。
Hermes 的出现,并不是为了替代 Solr、ES 的,就像 ES 的出现并不是为了干掉 Oracle 和 MySQL 一样,而是为了满足不同层面的需求。
系统特色 基于Lucene核心,支持全文检索,查询统计快速高效。 支持SQL语法、数据类型、JDBC驱动标准,使用简单方便。 支持单机、主从复制、数据分片等多种部署模式。
目录互联网是一张巨大的图图的遍历——网络爬虫爬取网页切词PageRank排序搜索引擎做些啥?帮我们找信息保存网址和网页的部分内容,供我们查找咋找网址?——爬虫——图论——搜索技术Web上的蜘蛛——网络爬虫如何找到网页?通过超链接查询网址网络爬虫是一种机器人程序,是搜索引擎抓取网页的程序。
Twitter 将 Storm 正式开源了,这是一个分布式的、容错的实时计算系统,它被托管在 GitHub 上,遵循 Eclipse Public License 1.0。Storm 是由 BackType 开发的实时处理系统,BackType 现在已在 Twitter 麾下。GitHub 上的最新版本是 Storm 0.5.2,基本是用 Clojure 写的。
最 近要用到实时曲线图,在网上大概找了一下,有两种实现方式,一种就是JFreeChart的官方实例MemoryUsageDemo.java.通过一个 实现java.Swing.Timer的内部类,在其监听器中将实时数据添加进TimeSeries,由于Timer是会实时执行的,所以这个方法倒是没 有什么问题,可以参考代码。
mctop 是一个类似于 top 的工具,用于检查 Memcache 的流量,包括 key 的调用次数、对象存储大小、每秒的请求数、以及消耗的网络带宽等。
Skyline 是实时异常检测系统,构建目的是被动监控几百到几千个度量标准,不需要一个个配置 模型/阈值,可以同时使用 Nagios。
1、查看磁盘IO iostat -x 1 10 查看设备使用率(%util)、响应时间(await)