安装scrapy
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
Scrach,是抓取的意思,这个Python的爬虫框架叫Scrapy,大概也是这个意思吧,就叫它:小刮刮吧。[from百度百科]
0x00. 准备环境
linux环境请首先升级python版本到python2.7.10
http://www.gsymy.com/2015/09/12/centos_python2-7.html
0x01. 开始安装
sudo yum install libffi-devel -y pip install Scrapy
0x02. 现在来解决第一个坑
如果你没有遇到这个坑请跳过这一条
安装过程中下载lxml报错
手动安装之,在错误信息中找到下载链接
wget --no-check-certificate https://pypi.python.org/packages/source/l/lxml/lxml-3.4.4.tar.gz md5checksum sudo pip install lxml-3.4.4.tar.gz
似乎可能是网速太慢导致下载超时了,也可能是官网给的MD5没更新
参考来源:
http://stackoverflow.com/questions/16025788/why-does-pip-fail-with-bad-md5-hash-for-package
安装完成之后继续pip install scrapy
如果遇到类似问题,请如法炮制
0x03. 安装
libffi-devel
为了加速你的安装过程0x01 步骤中给你写了!
sudo yum install libffi-devel -y