开源项目,开源代码,开源文档,开源新闻,开源社区

P18

SCA服务端技术选型：SCA + Spring + Hibernate + Jackrabbit + Lucene SCA客户端技术选型：Spring + SCA + JSF 我们这里选择的SCA解决方案是 Apache

xj19891016 2011-10-23 5893 0

软件架构

P8

output）是下载的具体网页内容，网页内容采用索引方式存放的数据段中。数据段索引（index）采用Lucene格式，是当前已经下载内容的索引。 3、数据索引数据索引时数据段索引的合并和汇集。树荫的数据包

w523399859 2013-08-30 580 0

搜索引擎 nutch

：这个参数的意思是数据写入后几秒可以被搜索到，默认是 1s。每次索引的 refresh 会产生一个新的 lucene 段, 这会导致频繁的合并行为，如果业务需求对实时性要求没那么高，可以将此参数调大，实际调优告诉我，该参数确实很给力，cpu

五嘎子 2019-01-24 11746 0

搜索引擎 ElasticSearch

小近6M，但比Hibernate还是轻量些。这些只是基础框架，如果系统还需要其他功能性的框架(Lucene、Mail、Json) 会使开发包更大。同时大量的开源框架抑制了新JDK的普及，NIO出来都十五年，

70132102 2017-03-28 12647 0

Java Java开发

制访问和部署在你所维护仓库中的每个Artifact。Nexus是一套“开箱即用”的系统不需要数据库，它使用文件系统加Lucene来组织数据。 Nexus 使用ExtJS来开发界面，利用Restlet来提供完整的REST A

jopen 2013-04-20 87111 0

Java Java开发

服务端，也没有任何参数调优。 1）在 Apache网站上下载Solr 4： http://lucene.apache.org/solr/downloads.html ，我们这里下载的是“ apache-solr-4

jopen 2014-12-04 89164 0

HBase Solr 搜索引擎

REST 和 JAVA API 等结构提供高效搜索功能，可扩展的分布式系统。它构建于 Apache Lucene 搜索引擎库之上。 Kibana 是一个基于 Web 的图形界面，用于搜索、分析和可视化存储在

b4zc51o3 2016-11-08 16819 0

Spark Logstash 分布式/云计算/大数据

P6

Hadoop 由 Apache Software Foundation 公司于 2005 年秋天作为 Lucene 的子项目 Nutch 的一部分正式引入。它受到最先由 Google Lab 开发的 MapReduce

wwqu1020 2012-09-13 3132 0

Hadoop 分布式/云计算/大数据

想要的结构，分分钟不在话下。 Solr引擎端数据处理准备好全量源数据，之后就是将其转化为Lucene的索引文件了，这个过程请查阅Solr Wiki便可，这里不进行阐述。这里要重点描述的是Solr

JasminUDKU 2016-02-02 41954 0

Solr 搜索引擎

害的系统，但没人见过。在工业界很多人痒痒得就想按其思想去仿作。当时 Apache Nutch Lucene 的作者 Doug Cutting 也是其中之一。后来 Doug 他们被 Yahoo 收购，专门成立

jopen 2015-01-27 53601 0

大数据

P20

本章向读者详细介绍了Word、Excel和PDF文件的文本提取工具。有关这些文本提取工具的使用问题是任何一个Lucene论坛上都会被提出的问题。不过，一直没有任何一篇资料把这些工具集合在一起进行详细的讲解。希望本篇

lxg3600136 2010-12-27 595 0

Office文档处理

、 Python 等脚本语言来调用。 Mahout 是由 Apache Lucene（开源搜索）社区中对机器学习感兴趣的一些成员发起的，他们希望建立一个可靠、文档翔实、可伸缩的项目，在其中实现一些常见的用于集群和分类

jopen 2013-12-13 110495 0

数据挖掘

collect, parse, visualize ... Elasticsearch - A Lucene Based Document store mainly used for log indexing

jopen 2014-06-29 84654 0

系统管理资

后台/线上应用部分，Mysql用于支撑后台系统的数据库。ElasticSearch 是基于Lucene实现的分布式搜索引擎，用于索引用户画像的数据，支持离线精准营销的用户筛选，同时支持线上应用推荐系统的选品功能

ouyangzhizhong 2016-10-08 45771 0

数据挖掘大数据分布式/云计算/大数据 NOSQL

引擎可以很好的支持中文分词、索引和搜索，并能快速实现功能。在全文搜索领域，基于 Apache lucene 的 ElasticSearch 舍我其谁，其强大的分布式系统能力、对超大规模数据的支持、友好的Restful

zzsyg0306 2016-12-06 30258 0

中文分词分布式系统搜索引擎

P8

output）是下载的具体网页内容，网页内容采用索引方式存放的数据段中。数据段索引（index）采用Lucene格式，是当前已经下载内容的索引。 3、数据索引数据索引时数据段索引的合并和汇集。树荫的数据包

Johey 2012-09-06 3875 0

搜索引擎 nutch

P16

多语言支持(12国语言，包括简体中文和繁体中文)，而且完全可扩展 · 完整的性能统计日志引擎 · 利用著名开源搜索引擎Lucene提供对所有门户资源的全文本检索和元数据搜索服务 · 用户注册服务和忘记密码的邮件通知服务 · 丰富的登陆密码配置策略

zhm_001 2014-09-01 1120 0

门户平台Portal 报告

P17

Avro（读音类似于[ævrə]）是Hadoop的一个子项目，由Hadoop的创始人Doug Cutting（也是Lucene，Nutch等项目的创始人）牵头开发，当前最新版本1.7.5。Avro是一个数据序列化系统，设

zhangym 2014-11-26 1225 0

P20

本章向读者详细介绍了Word、Excel和PDF文件的文本提取工具。有关这些文本提取工具的使用问题是任何一个Lucene论坛上都会被提出的问题。不过，一直没有任何一篇资料把这些工具集合在一起进行详细的讲解。希望本篇

RH_6610769 2012-01-10 841 0

Office文档处理

P24

space树，其中一个重要的成员变量为FSDirectory dir。 FSDirectory和Lucene中的FSDirectory没有任何关系，其主要包括FSImage fsImage，用于读写硬盘

huafenged 2012-02-24 4586 0

Hadoop 分布式/云计算/大数据

档案项目架构文档SOA搭建过程文档

Nutch搜索引擎数据获取文档

从 10 秒到 2 秒！ElasticSearch 性能调优经验

Redkale 让你重新认识Java 经验

企业Java网站开发工具经验

基于Solr的HBase多条件查询测试经验

ELK 在 Spark 集群的应用经验

使用 Linux 和 Hadoop 进行分布式计算文档

基于Solr的淘宝商家交易数据实时查询方法经验

Coursera数据工程师董飞：硅谷大数据的过去与未来资讯

使用POI来处理Excel和Word文件格式文档

开源的数据挖掘工具经验

开源的系统管理资源集合经验

每天近百亿条用户数据，携程大数据高并发应用架构涅槃经验

使用wukong全文搜索引擎经验

Nutch 配置过程文档

Jetspeed-2 研究报告文档

Avro 简介中文文档文档

poi文档文档

Hadoop学习总结之二：HDFS读写过程解析文档

Lucene Ikanalyer 的相关搜索

关键词

档案项目架构文档SOA搭建过程 文档

Nutch搜索引擎数据获取 文档

从 10 秒到 2 秒！ElasticSearch 性能调优 经验

Redkale 让你重新认识Java 经验

企业Java网站开发工具 经验

基于Solr的HBase多条件查询测试 经验

ELK 在 Spark 集群的应用 经验

使用 Linux 和 Hadoop 进行分布式计算 文档

基于Solr的淘宝商家交易数据实时查询方法 经验

Coursera数据工程师董飞：硅谷大数据的过去与未来 资讯

使用POI来处理Excel和Word文件格式 文档

开源的数据挖掘工具 经验

开源的系统管理资源集合 经验

每天近百亿条用户数据，携程大数据高并发应用架构涅槃 经验

使用wukong全文搜索引擎 经验

Nutch 配置过程 文档

Jetspeed-2 研究报告 文档

Avro 简介中文文档 文档

poi文档 文档

Hadoop学习总结之二：HDFS读写过程解析 文档