python编写的抓京东商品的爬虫 闲着没事尝试抓一下京东的数据,需要使用到的库有:BeautifulSoup,urllib2,在Python2下测试通过from creepy import Crawler
Python是一种面向对象的解释性的计算机程序设计语言,也是一种功能强大而完善的通用型语言,已经具有十多年的发展历史,成熟且稳定。Python 具有脚本语言中最丰富和强大的类库,足以支持绝大多数日常应用。 Python语言具有非常简捷而清晰的语法特点,适合完成各种高层任务,几乎可以在所有的操作系统中运行。目前,基于这种语言的相关技术正在飞速的发展,用户数量急剧扩大,相关的资源非常多。
Python 是一种容易学习的强大语言。它包括了高效的高级数据结构,提供了一个简单但很有效的方式进行面向对象编程。Python 优雅的语法,动态类型,以及它天然的解释能力,使其成为了大多数平台上应用于各领域理想的脚本语言以及开发环境。 Python 的解释器很容易通过 C 或 C++ (或者其它可以由C来调用的语言)来扩展新的函数和数据结构。因此 Python 也很适于作为定制应用的一种扩展语言。
我下面写了一个下载的demo,顺便测试了一下多进程,批量下载很实用: #!/usr/bin/env python #-*- coding: UTF-8 -*- import sys,os import urllib
#!/usr/bin/env python # encoding: utf-8 """ MonitorLog.py Usage: MonitorLog.py ... Monitor the log file
这个使用一个字典和转化程序就行.网上有一个署名为caocao的人做了一个python的汉字转拼音的模块. 最原始的程序参考 这篇文章 :将GBK汉字转化为拼音的Python小程序 . 和 这里 ,这个排版好些.文中用到的convert
import os #保存当前有的磁盘 def existdisk(): curdisks = [] allDisks = ['C:', 'D:', 'E:', 'F:', 'G:', 'H:', 'I:', 'J:', 'K:', \ 'L:', 'M:', 'N:', 'O:', 'P:', 'Q:', 'R:', 'S:', 'T:', \ 'U:', 'V:', 'W:', 'X:', '
PersistentDict从dict继承,实现了持久化。初始化时自动加载文件到内存,关闭时将dict内容序列化到文件,支持csv,json,pickle格式。 import pickle, json, csv, os, shutil class PersistentDict(dict): ''' Persistent dictionary with an API compatible with
# file: Unicode2.py # -*- coding: utf-8 -*- import chilkat # The CkString object can handle any character encoding. s1 = chilkat.CkString() # The appendEnc method allows us to append a string in any e
插入排序的基本概念:有一个已经有序的数据序列,要求在这个已经排好的数据序列中插入一个数,但要求插入后此数据序列仍然有序,这个时候就要用到一种新的 排序方法——插入排序法,插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中,从而得到一个新的、个数加一的有序数据,算法适用于少量数据的 排序,时间复杂度为O(n^2)。是稳定的排序方法。插入算法把要排序的数组分成两部分:第一部分包含了这个数组的
#! /usr/bin/python # -*- coding:utf-8 -*- ''''' Created on 2013-11-5 @author: Java ''' import urllib2
import os from os.path import join, getsize def getdirsize(dir): size = 0L for root, dirs, files in os.walk(dir): size += sum([getsize(join(root, name)) for name in files]) return size if __name__ ==
import poplib import sys import smtplib from email.mime.text import MIMEText import os from email.header import decode_header import email import time def check_email(): try: p = poplib.POP3('pop.163.
import sys import time def usage(): print 'Usage: python ' + sys.argv[0] + '
python中通过日期转换函数把字符串格式的日期转换成datetime格式的日期格式 time.strptime() converts the string to a struct_time tuple
图片要大一些,太小的图片不好比较。附件提供完整测试代码和对比用的图片。 #!/usr/bin/python # Filename: histsimilar.py # -*- coding: utf-8
def get_remote_machine_info(): remote_host = 'www.python.org' try: print "IP address:%s" %socket.gethos
python实现的telnet客户端程序,python自带一个telnetlib模块,可以通过其Telnet类实现telnet操作 import getpass import sys import telnetlib
前者称为隐式(post的是json串,音频数据编码到json里),后者称为显式(post的就是音频数据) 一开始考虑到python wave包处理的都是“字符串”,担心跟C语言的数组不一致,所以选择低效但保险的method1,
#encoding:UTF-8 import urllib.parse import urllib.request import base64 import re import sys import time from random import sample import codecs from html.parser import HTMLParser log = 'gogogo.txt' l