参考资料

创建Scrapy工程

1
scrapy startproject douban

编辑scrapy.cfg

1
2
3
4
5
[settings]
default = douban.settings

[deploy]
project = douban

创建main.py

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
from scrapy.cmdline import execute

import sys
import os

### 获取当前工程的路径
# os.path.abspath(): 获取路径的绝对路径
# os.path.dirname(): 获取路径的目录名
project_dir = os.path.dirname(os.path.abspath(__file__))

# 将工程目录添加到环境变量中
sys.path.append(project_dir)

# 通过execute执行系统命令,执行爬虫文件
execute(["scrapy", "crawl", "movie_subject"])

配置用户代理池middleware

1
pip install fake-useragent
panchaoxin wechat
关注我的公众号
支持一下