Python爬虫: 抓取One网页上的每日一话和图

278439392 8年前
   <h2><strong>先说下需求</strong></h2>    <p>最近打算搜集点源数据，丰富下生活。嗯，最近看到<a href="/misc/goto?guid=4959672313143354395">One</a>这个APP蛮好的。每天想你推送一张图和一段话。很喜欢，简单不复杂。而我想要把所有的句子都保存下来，又不想要每个页面都去手动查看。因此，就有了Python。之前有点Python基础，不过没有深入。现在也没有深入，用哪学哪吧。<br> 网站的内容是这样的，我想要图片和这段话：</p>    <p><img alt="Python爬虫: 抓取One网页上的每日一话和图" src="https://simg.open-open.com/show/17287394897b661f6a937d7cb7b4faed.png"></p>    <p>one</p>    <h2><strong>（一）</strong>一台MAC电脑</h2>    <h2><strong>（二）Python环境搭建(所有命令都是在terminal中输入的)</strong></h2>    <ul>     <li>安装<a href="/misc/goto?guid=4958977545173922349">homebrew</a>：<br> <code>/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"</code></li>     <li>安装pip：这里我在terminal中输入<code>python -v</code>,homebrew会自动帮你升级Python到2.7.11版本的。2.7.11版本里自带了pip工具。</li>     <li>安装virtualenv：<br> <code>pip install virtualenv</code></li>     <li>安装request和beautifulsoup4：<br> <code>pip install requests beautifulsoup4</code><br> 参考<a href="/misc/goto?guid=4959672313260670663">这里</a></li>    </ul>    <h2><strong>（三）分析</strong></h2>    <p>目的：找出三个内容所在的网页标签的位置，然后将它们提取出来。<br> 网址：<a href="/misc/goto?guid=4959672313343017772">http://wufazhuce.com/one/1293</a><br> 谷歌浏览器，右键->显示网页源代码，然后就会弹出一堆HTML的东西了。这样的：</p>    <p><img alt="Python爬虫: 抓取One网页上的每日一话和图" src="https://simg.open-open.com/show/c7e8934310bca024d0836c7b8e426ba1.png"></p>    <p>网页源文件</p>    <p>我想要的内容是这段话：“即使热恋者的情感是错觉、幻象或自恋行为，那又何妨，所谓人生就是一段不断追求情爱的路程。 by 森山大道”。它在图中画红线的地方。在<code><heda></code>标签里的<code><meta></code>中，之后会用到，先往下看。<br> 图片的链接在哪里？显然不在<code><head></code>中，往下找，然后就在<code><body></code>中，发现2处和图片类似的链接。看图</p>    <p><img alt="Python爬虫: 抓取One网页上的每日一话和图" src="https://simg.open-open.com/show/bfda230d45b10fa66a4b17165bb271b7.png"></p>    <p>图片链接地址</p>    <p>哪个链接是呢，点击去，发现后一个链接，也就是67行这个img标签的链接是。<br> 然后，我还想知道哪一天的图和文字。嗯，在回到<code><head></code>标签里，很明显有个<code><title></code>，里面的东西就是我们要的。这样：<br> <code><title>VOL.1271 - 「ONE · 一个」</title></code><br>  </p>    <h2><strong>（四）python编码</strong></h2>    <p>想要抓取网页上的内容，又不想自己去解析HTML，只好求助万能的Google了。然后就找到了上面的<a href="/misc/goto?guid=4959672313260670663">链接</a>。主要有两个工具：request加载网页，BeautifulSoup4解析HTML。</p>    <p>首先，抓取我们需要的哪三个内容：<br> 进入python环境，然后敲入下面的代码：</p>    <pre>  <code class="language-python">import requests  import bs4  response = requests.get('http://wufazhuce.com/one/1295')  soup = bs4.BeautifulSoup(response.text,"html.parser")</code></pre>    <p>这样，就可以将网页信息存储到soup中了。你可以敲入<code>print soup</code>试试。</p>    <p>接下来，我们获得<code><title>VOL.1271 - 「ONE · 一个」</title></code>中的数字<strong><code>1271</code></strong>。怎么获得呢，beautifulsoup4<a href="/misc/goto?guid=4959542497396974992">教程</a>，提供了很好的方法，可以通过tag查找得到title的内容，然后截取字符串。termianl中输入：</p>    <pre>  <code class="language-python">soup.title.string[3:7]</code></pre>    <p>title是tag值，string是tag=title的字符串的值，也就是<code><title></title></code>之间的值，因为只有一个<code><title></code>tag，所以不用做判断，直接获取即可。</p>    <p>接下来，获取一段话。</p>    <p><img alt="Python爬虫: 抓取One网页上的每日一话和图" src="https://simg.open-open.com/show/9ee331bba057a46f8c4be8565b827501.png"></p>    <p>要截取的内容</p>    <p>这段话在<code><meta></code>中，而这里又有太多的<code><meta></code>了，怎么办。这里要用到select方法了，它可以查找所有的<code><meta></code>，并返回一个列表。还要用到get方法，get可以获得tag的属性，如tag: <code><meta attr='abc'></code> tag.get('attr')值等于abc。这里我们要获取的属性是name，通过name='description'来区分。</p>    <pre>  <code class="language-python">for meta in soup.select('meta'):      if meta.get('name') == 'description':          print meta.get('content')</code></pre>    <p>接下来，在两个img标签中，查找第2个img标签标定的链接。这里通过find_all方法，它可以查找所有的符合要求的标签。</p>    <pre>  <code class="language-python">soup.find_all('img')[1]['src']</code></pre>    <p>这样，我们就把所需要的信息找出来了。</p>    <p><img alt="Python爬虫: 抓取One网页上的每日一话和图" src="https://simg.open-open.com/show/44927b382b83c1dba71d21edd398b814.png"></p>    <p>终端示例</p>    <p>等等，之后我们还需要并发和保存文件。在此之前，先来看点别的。map函数有两个参数，一个是函数，一个是序列。将序列的每个值，作为参数传递给函数，返回一个列表。参考<a href="/misc/goto?guid=4959672313471184978">这里</a><br> 示例：</p>    <pre>  <code class="language-python">def echoInfo(num):      return num    data = map(echoInfo, range(0,10))  print data</code></pre>    <p>结果： <code>[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]</code><br> 然后<a href="/misc/goto?guid=4959672313552276393">并发</a>, python可以跨平台使用，自身提供了多进程支持模块：multiprocessing。而pool可以用来创建大量的子进程。<br> 保存数据到文件。这里我们是吧数据解析后存储到字典中，然后序列化为JSON模型，最后保存到文件的。<br> 即：字典->JSON模型->存储到文件。<br> 字典->JSON模型，使用的是JSON模块的json.dumps方法，该方法有一个参数，参数为字典，返回值是JSON字符串。<br> JSON模型->文件，使用的是json.load方法，可以将JSON存储到文件中。</p>    <p>全部的代码示例如下：</p>    <pre>  <code class="language-python">import argparse  import re  from multiprocessing import Pool  import requests  import bs4  import time  import json  import io    root_url = 'http://wufazhuce.com'    def get_url(num):      return root_url + '/one/' + str(num)    def get_urls(num):      urls = map(get_url, range(100,100+num))      return urls    def get_data(url):    dataList = {}    response = requests.get(url)    if response.status_code != 200:        return {'noValue': 'noValue'}    soup = bs4.BeautifulSoup(response.text,"html.parser")    dataList["index"] = soup.title.string[4:7]    for meta in soup.select('meta'):      if meta.get('name') == 'description':        dataList["content"] = meta.get('content')    dataList["imgUrl"] = soup.find_all('img')[1]['src']    return dataList    if __name__=='__main__':    pool = Pool(4)    dataList = []    urls = get_urls(10)    start = time.time()    dataList = pool.map(get_data, urls)    end = time.time()    print 'use: %.2f s' % (end - start)    jsonData = json.dumps({'data':dataList})    with open('data.txt', 'w') as outfile:      json.dump(jsonData, outfile)</code></pre>    <p><br>  </p>    <p>文／取水（简书）<br> 原文链接：http://www.jianshu.com/p/c4f35dfe1a1f<br>  </p>
Python爬虫: 抓取One网页上的每日一话和图

相关经验

目录