养一只Node.js爬虫溜达中国证券网 经验

爬虫的世界如同武林,派别繁多,其中Python 一派简单易学,深受各位小伙伴的喜爱。现在做大数据(呵呵),不写几个爬虫都不好意思了,甚至数据分析R语言也被大牛们插上翅膀,开始在Web上溜达,寻觅着数据分析的原料。

FVIPrecious 2017-02-09   12659   0

基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎 经验

网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项。由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎,

jopen 2014-09-01   86773   0

一个敏捷的,分布式的Java爬虫框架:SeimiCrawler 经验

最好用最实用的爬虫框架。 简介 SeimiCrawler是一个敏捷的,支持分布式的爬虫开发框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率

jopen 2015-11-10   57705   0

php判断来访者是否是搜索引擎的爬虫 代码段

Google 爬虫 'Baiduspider', // 百度爬虫 'Yahoo! Slurp', // 雅虎爬虫 'YodaoBot', // 有道爬虫 'msnbot' // Bing爬虫 // 更多爬虫关键字

phpw34 2015-04-21   2911   0
PHP  

SeimiCrawler一个敏捷强大的Java爬虫框架 — SeimiCrawler 0.2.6 文档 经验

SeimiCrawler一个敏捷强大的Java爬虫框架 ¶ An agile,powerful,standalone,distributed crawler framework. SeimiC

jopen 2016-01-14   39785   0

使用爬虫技术实现 Web 页面资源可用性检测 经验

显然,要确保网站中的所有链接都具有可访问性,通过人工进行检测肯定是不现实的,常用的做法是使用爬虫技术定期对网站进行资源爬取,及时发现访问异常的链接。 对于网络爬虫,当前市面上已经存在大量的开源项目和技术讨论的文章。不过,感觉大

B6m4g7p55 2018-05-27   38275   0
P

python中文手册v2.4 文档

python是一种容易学习的强大语言。它包括了高效的高级数据结构,提供了一个简单但很有效的方式进行面向对象编程。Python 优雅的语法,动态类型,以及它天然的解释能力,使其成为了大多数平台上应用于各领域理想的脚本语言以及开发环境。 <br> 这个手册介绍了一些 Python 语言及其系统的基本知识与概念。这有助于读者对 Python 有一个基本的认识,当然所有的例子都已包括在文中,所以这本手册很适合离线阅读。

seekmas 2013-04-05   3140   0

python写的翻译脚本 代码段

# -*- coding:utf-8 -*- #!/usr/bin/env python import re import urllib import urllib2 import sys class

ccpp 2015-01-04   1705   0
Python  

Python 实现简单的矩阵 代码段

#!/usr/bin/python # -*- coding: utf-8 -*- ''''' Created on 2015-1-7 @author: beyondzhou @name: myarray

bfn7 2015-01-07   2554   0
算法  

Python中线程池的实现(三) 代码段

ibm.com/developerworks/cn/java/j-jtp0730/ # 线程池原理及python实现: http://www.cnblogs.com/goodhacker/p/3359985

n672 2015-02-07   11310   0
Python  

Redis的Python客户端实例 代码段

安装 https://pypi.python.org/pypi/redis/ https://github.com/andymccurdy/redis-py 参照官网,安装命令 sudo pip

jopen 2015-02-13   6014   0
Redis   Python  

Python获取Windows的CPU数量 代码段

通过取得Windws下的一个环境变量: NUMBER_OF_PROCESSORS实现。 import os cpu_num = '1' if 'NUMBER_OF_PROCESSORS' in os.environ: cpu_num = os.environ['NUMBER_OF_PROCESSORS'] print 'cpu_num: %s' % cpu_num

ec3y 2015-05-05   1922   0
Python  

python提交post数据到远程url 代码段

import sys, urllib2, urllib zipcode = "S2S 1R8" url = 'http://www.wunderground.com/cgi-bin/findweather/getForecast' data = urllib.urlencode([('query', zipcode)]) req = urllib2.Request(url) fd = urllib

mn6e 2015-05-24   979   0
Python  

python实现的代码行数统计代码 代码段

''' Author: liupengfei Function: count lines of code in a folder iteratively Shell-format: cmd [dir] Attention: default file encode is utf8 and default file type is java-source-file. But users can cus

byyc 2015-05-27   692   0
Python  

Python多线程异步任务队列(实例) 代码段

很多场景为了不阻塞,都需要异步回调机制。这是一个简单的例子。 python的多线程异步常用到queue和threading模块 #!/usr/bin/env python # -*- coding: UTF-8 -*-

ybw8 2015-06-04   7764   0
Python  

python计算N天之后的日期 代码段

python计算N天之后的日期,可以自己写成一个函数,想得到几天后的日期都行 #! /usr/bin/env python #coding=utf-8 import time import datetime

pycct 2015-06-09   1311   0
Python  

Python获取系统信息的代码 代码段

import os,inspect,socket,time,pymysql num = 0 class Mysql: def __init__(self,host,user,password,db): self.cnn = pymysql.connect(host=host,user=user, passwd=password, db=db, charset='utf8') self.cur= s

pdce 2015-06-11   758   0
Python  

python连接Oracle数据库的代码 代码段

python连接Oracle数据库的代码,需要引用cx_Oracle库 #coding=UTF-8 import cx_Oracle def hello(): '''Hello cx_Oracle示例:

mxw8 2015-06-20   5738   0
Python  

Python 发送带附件的email 代码段

msg['from'] = mail_user msg['subject'] = 'this is a python test mail' try: s = smtplib.SMTP() s.connect(mail_host)

jopen 2015-06-24   958   0
Python  

Python分段下载文件 代码段

有类似的特性。在python中如何实现分段下载文件呢? >>> import urllib2 >>> req = urllib2.Request('http://www.python.org/') #下载19000到20000字节的片段

jopen 2015-07-08   1905   0
Python  
1 2 3 4 5 6 7 8 9 10