基于Scrapy框架的Python资料收集爬虫学习入门,轻松掌握!

发布时间:2020-07-29
技术:Scrapy2.2.1+python3.8.2

概述

Scrapy是一款不可多得的经典爬虫框架,用过的人都说好!学完本节内容你能使用该框架开发出一款实用的 文章内容,图片下载,数据存储 ,高效率的 爬虫 。

详细


1.使用说明



目标 : 学完本节内容你能使用该框架开发出一款实用的 文章内容,图片下载,数据存储  ,高效率的 爬虫



2.运行的环境


win7(64位)+scrapy2.2.1



3.安装Scrapy


pip install scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com



4.新建scrapy项目(项目路径自定,假如存放D盘)


a.打开命令窗口,cd 到 D盘,输入命令 scrapy startproject Bird ,回车执行,效果如下图 (两张图片):

1.png

1_2.png



5.进入项目文件 :cd Bird,然后创建爬虫入口文件


a.   scrapy genspider search xxxx.com , 回车执行,效果如下图 (两张图片):

2.png

2_1.png


6.编写items.py文件


a.items.py,这是创建容器的地方,爬取的信息分别放到不同容器里

3.png

b.修改items.py文件存放爬虫信息

3_1.png


7.分析源目标网页,编写爬虫入口文件Bird/search.py


4.png

4_1.png

4_2.png

4_3.png

5.png

5_1.png


8.自定义管道文件pipelines.py的编写


6.png


9.配置爬虫文件:settings.py(注意:D:\Bird\data文件夹需要自己手动创建)


6_1.png

6_2.png


10.运行效果展示


7.png

7_1.png

本实例支付的费用只是购买源码的费用,如有疑问欢迎在文末留言交流,如需作者在线代码指导、定制等,在作者开启付费服务后,可以点击“购买服务”进行实时联系,请知悉,谢谢
手机上随时阅读、收藏该文章 ?请扫下方二维码