涉及到详情页爬取
目录结构:
kaoshi_bqg.py
xmly.py
item.py
pipelines.py
starts.py
然后是爬取到的数据
小说
xmly.json
记录一下爬取过程中遇到的一点点问题:
在爬取详情页的的时候, 刚开始不知道怎么获取详情页的 url 以及 上一个页面拿到的字段
- 也就是 yield 返回 请求详情页 里面的参数没有很好地理解
- meta:从其他请求传过来的meta属性,可以用来保持多个请求之间的数据连接。
- url:这个request对象发送请求的url。
- callback:在下载器下载完相应的数据后执行的回调函数。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。