开源项目,开源代码,开源文档,开源新闻,开源社区

一个基于golang的web爬虫工具参考自 lealife 参考方法: package main import ( "fmt" cl "github.com/phillihq/hocrawler"

jopen 2015-08-01 12765 0

hocrawler 网络爬虫

P54

3的简单可用的多库搜索引擎。整个设计过程致力于提高管理维护的方便性和可扩展性。关键词： Lucene；Solr；搜索引擎；爬虫；中文分词 Abstract With the advent of the information

victorzcs 2012-07-19 5866 0

Solr 搜索引擎

JCrawler是一个开源的WEB应用压力测试工具。通过其名字，你就可以知道这是一个用Java写的像网页爬虫一样的工具。只要你给其几个URL，它就可以开始爬过去了，它用一种特殊的方式来产生你WEB应用的负

jopen 2012-06-25 26780 0

测试工具性能测试和优化

标准编码规范编写，更易于修改和定制。新版本增加了 Python bind shell、反爬虫特性以及 MD5 检查工具；对代码进行了清理和改善了UI界面。项目地址： http://sourceforge

fmms 2011-10-03 18252 0

PHP

是一个小型的DNS服务器，支持过滤黑名单中的地址和转发所有其他查询。它的目的是能够防止连接到不良网站，如广告服务器，爬虫等。它可以在本地使用，或部署在网络入口，以保护本地计算机免受恶意网站的侵扰。此外它还能够使用正则表

jopen 2012-09-27 6248 0

DNS

BackboneJS SEO, EmberJS SEO,和其它任何javascript框架。这个中间件会拦截爬虫对Node.js网站的请求，然后让调用（外部）预绘制服务来获取静态HTML，而不是JavaScript页面。

jopen 2014-06-25 14893 0

JavaScript开发 Prerender Node

bug修复，最值得关注的是增加了 OpenSearchServer 的 Drupal 模块，另外在文件和Web爬虫API也做了一些改进，新增 sitemap 生成器以及可导出搜索结果到 CSV 文件等等。

fmms 2011-12-12 10703 0

Java

OpenSearchServer 是一个强大的，企业级的搜索引擎程序。使用其Web用户界面，爬虫（Web，文件，数据库等），和REST/ REST风格的API，你可以在你的应用中集成先进的全文搜索功能。

jopen 2013-09-01 9400 0

OpenSearchServer

Encog是一种先进的神经网络和漫游编程库。 Encog可以单独使用或者建立神经网络或HTTP爬虫程序。 Encog还包括类，结合这两种先进的功能。 Encog包含前馈神经网络，Hopfield神经网络的课程，并自组织地图。

openkk 2012-04-10 56728 0

Java Java开发

P4

来源：javaeye　作者：　phz50　　　其实，lucene是一个很容易上手的搜索引擎框架，传统的搜索引擎，涉及到爬虫，也就是爬取网页，然后对网页进行加工，也就是索引，最后用于搜索，lucene这个框架可以很方便的帮

shenhua 2011-07-21 560 0

Lucene 搜索引擎

。前后端分离最大的缺点可能就是 SEO 无力了，毕竟爬虫只会抓取 HTML 代码，不会去渲染 JS。（PS：现在的 Google 爬虫已经可以抓取 AJAX 了 Making AJAX applications

ShirleyHolm 2016-10-30 14838 0

MVC模式 HTML Ajax 前端技术

P6

request header. (6)编译Nutch，测试爬虫crawl。在当前工程下，新建一个目录urls,目录下面新建一个文件url，写入爬虫入口地址。修改conf/crawl-urlfilter

test1go 2011-08-19 4298 0

搜索引擎 HTTP Java nutch

在实现网络爬虫的过程中，验证码的出现总是会阻碍爬虫的工作。本期介绍一种利用深度神经网络来实现的端到端的验证码识别方法。通过本方法，可以在不切割图片、不做模板匹配的情况下实现精度超过90%的识别结果。

openyfs 2017-01-09 27674 0

Keras 深度学习

com/ausk/p/4970523.html 这一段时间，一直在折腾Python爬虫。已有的文件记录显示，折腾爬虫大概个把月了吧。但是断断续续，一会儿鼓捣python、一会学习sql儿、一会调试O

jopen 2015-11-17 87081 0

Python3 网络爬虫

HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模

jopen 2015-04-18 17175 0

搜索引擎 HtmlExtractor

师组成的核心搜索技术团队。截至目前 360 搜索引擎拥有 13000 多台服务器，庞大的蜘蛛爬虫系统每日抓取网页数量 10 多亿，引擎索引的优质网页数量超过 200 亿，而且网页搜索速度和质量都已经达到先进水平。

openkk 2012-08-29 6523 0

360

P40

搜索引擎系统技术原理 21. 搜索引擎主要核心技术中英文分词语言处理；排序算法；网络爬虫；查询/存储技术 22. 网络爬虫网络爬虫是一个自动提取网页的程序，它为搜索引擎从Internet网上下载网页，是搜索引擎的重要组成。

hot00123 2011-08-16 4273 0

搜索引擎方案 Go

糟糕的搜索排名和Twitter/Facebook预览搜索引擎爬虫和社交网站的预览抓取器不能加载纯Javascript站点，提供替代版本又慢又复杂。有两种方式可以允许爬虫阅读你的站点。你可以在服务器端运行一个浏览器

jopen 2014-03-14 13029 0

JavaScript

Deep Learning:深度学习 Recommend System:推荐系统 CrawlerSE:爬虫与搜索引擎 Search Engine:搜索引擎 Data Visual:数据可视化 Collections:资源汇总帖

GretaColeba 2016-11-22 9433 0

数据挖掘机器学习

X、Windows 以及 ARM 平台。 3 . Go 爬虫软件 Pholcus Pholcus（幽灵蛛）是一款纯Go语言编写的支持分布式的高并发、重量级爬虫软件，定位于互联网数据采集，为具备一定 Go 或

ytlt4385 2016-12-13 196023 0

Go语言开源 Google Go/Golang开发

一个基于golang的web：hocrawler 经验

基于Solr的搜索引擎研究与实现文档

WEB应用压力测试工具 JCrawler 经验

PHP Shell 工具包 Ani-Shell 1.4 发布资讯

小型的DNS服务器，adsuck 2.4.3 发布资讯

对 JavaScript 应用的页面进行预渲染：Prerender Node 经验

Java搜索引擎服务器 Open Search Server 1.2.3 发布资讯

OpenSearchServer 1.5-dev3 发布，强大的、企业级的搜索引擎资讯

Java神经网络框架 Encog for Java 经验

一个例子学懂搜索引擎(lucene) 文档

浅谈 Web 中前后端模板引擎的使用经验

Linux中使用eclipse编译nutch-1.0 文档

如何使用深度学习破解验证码 keras 连续验证码经验

使用Python3.5爬取豆瓣电影Top250 经验

Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor 经验

奇虎360声明：搜索完全使用自有搜索技术资讯

信息服务平台基础设施 - 搜索引擎文档

客户端JavaScript框架的五大痛点资讯

面向程序猿的数据科学与机器学习知识体系及资料合集经验

Google Go 语言从入门到应用所需要的开源项目经验

爬虫Mozilla 的相关搜索

关键词

一个基于golang的web：hocrawler 经验

基于Solr的搜索引擎研究与实现 文档

WEB应用压力测试工具 JCrawler 经验

PHP Shell 工具包 Ani-Shell 1.4 发布 资讯

小型的DNS服务器，adsuck 2.4.3 发布 资讯

对 JavaScript 应用的页面进行预渲染：Prerender Node 经验

Java搜索引擎服务器 Open Search Server 1.2.3 发布 资讯

OpenSearchServer 1.5-dev3 发布，强大的、企业级的搜索引擎 资讯