Python爬虫学习之爬取豆瓣读书首页内容

python学习 沙发 4月月 18日, 2017

大家好,经过一天的学习,我的第一篇作业可以交差了。

通过python爬虫,抓取豆瓣读书首页所有书籍地址,作者,年份,出版社,简介

因为豆瓣读书不需要检验headers,所以代码很简单,12行就够了

代码

1    import requests 
2    import re 
3    content = requests.get('https://book.douban.com/').text 
4    pattern =re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?publisher">(.*?)</span>.*?abstract"(.*?)</p>.*?</li>',re.S) 
5    results = re.findall(pattern,content) 
6    for result in results: 
7         url,name,author,year,publisher,abstract=result 
8         name = re.sub('\s','',name) 
9         author = re.sub('\s', '', author) 
10        year = re.sub('\s', '', year) 
11        publisher = re.sub('\s', '', publisher) 
12        print(url,name,author,year,publisher,abstract) 
13    
14   

说明

关键就是正则表达式,我弄出来的结果每个出版社后面带一个”>”不知道怎么回事。可能哪里没写对。

附上截图:

豆瓣读书抓取结果

后面我会持续更新,如何把结果保存在数据库中。

发表评论

昵称*

邮箱*

网址