Web开发中需要了解的东西 资讯

build,备份,回滚等机制)。 千万不要直接给用户显示不友好的错误信息。 千万不要把用户的邮件地址以明文显示出来,这样会被爬虫爬走并被让用户的邮箱被垃圾邮件搞死。 为用户的链接加上 rel="nofollow" 的属性以 避免垃圾网站的干扰

码头工人 2011-12-07   28314   0
web  

HTTP协议理解与应用总结 经验

301 - 永久跳转,原地址不存在了,url被指向到另一个地址。这个主要是搜索引擎相关,影响爬虫的检索行为。 302 - 临时跳转,服务器会返回一个新的url给客户端,客户端可以继续访问这个url来获取内容。

jopen 2013-10-22   24651   0
HTTP  
P31

  基于LUCENE 3.0的简易完整搜索_实习报告(含完整代码) 文档

一、项目背景 1、 介绍要完成的项目,概要介绍总共要完成的功能 • 程序基本要求 清晰易读、稳定可靠 • 网络爬虫 多线程 链接分析 抓取控制 • 文本分析 Html文本分析 css、JavaScript等无用代码的清除

mousefat 2012-08-08   2614   0

电商搜索引擎的架构设计和性能优化 经验

一步是爬虫系统,第二步是数据分析,第三步才是检索结果。首先,电商的搜索引擎并没有爬虫系统,因为所有的数据都是结构化的,一般都是微软的数据库或者 Oracle 的数据库,所以不用像百度一样用「爬虫」去不

jopen 2015-11-21   27022   0

每个程序员都应该了解的知识有哪些? 资讯

4、千万不要直接给用户显示不友好的错误信息。 5、千万不要把用户的邮件地址以明文显示出来,这样会被爬虫爬走并被让用户的邮箱被垃圾邮件搞死。 6、为用户的链接加上 rel="nofollow" 的属性以

jopen 2013-09-12   30406   2
P8

  Nutch 配置过程 文档

Nutch主要的5个操作命令: Admin:用来创建一个新的WEB数据库,WEB数据库实际上就是URL数据库,存储了网络爬虫抓取的网页信息和网页之间的链接信息。 Inject:添加数据下载的入口链接。首先读取给定的纯文本格

Johey 2012-09-06   3875   0
P9

  Nutch 主要类分析 文档

    这个类的任务是另一方面的工作了,它是基于hadoop和lucene的分布式索引。它就是为前面爬虫抓取回来的数据进行索引好让用户可以搜索到这些数据。     这里的输入就比较多了,有segments下的fetch_dir

228823266 2012-01-17   5175   0
P31

  基于Lucene 3.0 的简易完整搜索_实习报告(含完整代码) 文档

一、项目背景 1、 介绍要完成的项目,概要介绍总共要完成的功能 • 程序基本要求 清晰易读、稳定可靠 • 网络爬虫 多线程 链接分析 抓取控制 • 文本分析 Html文本分析 css、JavaScript等无用代码的清除

mousefat 2012-08-16   752   0

Java的URL重写过滤器 UrlRewriteFilter 经验

用服务器(如Resin,Orion,Tomcat等)。其典型应用就把动态URL静态化,便于搜索引擎爬虫抓取你的动态网页。其主要应用场景: URL Tidyness / URL Abstraction -

openkk 2011-12-13   31732   0
Java   Web框架  

web数据挖掘工具:Pattern 经验

eb数据挖掘工具,囊括了数据抓取模块(包括Google, Twitter, 维基百科的API,以及爬虫和HTML分析器),文本处理模块(词性标注,情感分析等),机器学习模块(VSM, 聚类,SVM)以

jopen 2014-07-29   23786   0

微软和Google如何让搜索引擎理解互联网 资讯

搜索引擎爬虫抓取和索引了海量的网页内容,但内容的意义则是一无所知,它们并不能像人类那样区分同一个词的不同含义。它们抓取的只是网页中的单词,而不是语义。从一开始,搜索引擎本质上是匹配文本字符串。 让

openkk 2012-06-07   5872   0

Yioop! 0.92 发布,PHP 全文搜索引擎 资讯

自定义搜索)。 利用其提供的默认安装程序,每天可以抓取和索引数百万的页面。还可以通过运行更多的爬虫(支持分布式)增加每天抓取和索引的页面数。 它支持的索引文件类型包括:HTML, DOC,

jopen 2013-01-05   6827   0
Yioop!  

BeautifulSoup模块的简单使用 代码段

tags = soup.findAll('a') print tags print '京东放养的爬虫' #取中间包含的元素,如果有href则输出 for item in soup.fetch('a'

y3c5 2015-05-11   957   0
Python  

高性能开源搜索引擎,OpenSearchServer 1.3 发布 资讯

或API (XML over HTTP)实现与第三方快速集成。 OpenSearchServer的爬虫可以快速抓取网站,数据库,文件系统来构建你的索引。 该版本增加了超过20种新功能,

jopen 2012-10-21   5784   0

开源的PHP搜索引擎 - Yioop! 资讯

自定义搜索)。 利用其提供的默认安装程序,每天可以抓取和索引数百万的页面。还可以通过运行更多的爬虫(支持分布式)增加每天抓取和索引的页面数。 它支持的索引文件类型包括:HTML, DOC,

码头工人 2011-08-31   24255   1

Yioop! 0.92 发布,PHP 全文搜索引擎 资讯

自定义搜索)。 利用其提供的默认安装程序,每天可以抓取和索引数百万的页面。还可以通过运行更多的爬虫(支持分布式)增加每天抓取和索引的页面数。 它支持的索引文件类型包括:HTML, DOC,

jopen 2013-07-25   5622   0
Yioop!  

具有强大功能的全文搜索引擎:Hyper Estraier 经验

以及其它多国语言。Hyper Estraier采用LGPL开源授权协议。 特性: 智能的Web爬虫 简单而强大的API 支持P2P架构 高速处理 :采用index(索引),所以支持快速搜索

openkk 2011-12-30   19052   0

Java搜索引擎 MG4J 经验

Moffat和Timothy所写,名字是《管理十亿字节:压缩并且索引文档和图片》。在使用他们的分布式、可容错的网页爬虫UbiCrawler收集到大量的网页数据后,它的作者需要一个软件来解析那些收集来的数据,由于这个需求,MG4J诞生了。

fmms 2012-01-03   15208   0

脚本引擎 Doscripter 经验

Doscripter,是由魔爪团队历时5年开发出来的一套脚本引擎,他热衷于线程、爬虫、字符串、正则表达式、智能分析等等工作。不需要复杂的知识,您就可以写出许多实用的小工具。 特性一览:

nx42 2012-09-07   19800   0

DotNetWikiBot Framework 经验

Framework 是一个全功能的客户端API和一个控制台应用,用来构建抓取基于 MediaWiki 网站的爬虫,采用 .NET 开发。 using DotNetWikiBot; // Reference DotNetWikiBot

jopen 2012-10-11   17014   0
1 2 3 4 5 6 7 8 9 10