创建爬虫目录:
scrapy startproject spiderName
调试命令
scrapy shell 网站名
调试命令可直接进行 css 和 xpath 的调试;
成功执行命令之后可使用:
response.xpath(xpath表达式)
获取所需的内容。
xpath
说明:
XPath 是一门在 XML 文档中查找信息的语言
| 表达式 | 描述 | 实例 |
|---|---|---|
| nodename | 选取nodename节点的所有子节点 | //div |
| / | 从根节点选取 | /div |
| // | 不考虑位置选择节点 | //div |
| . | 选取当前节点 | ./div |
| … | 选取当前节点的父节点 | … |
| @ | 选取属性 | //@class |
| //[@] | 选取属性的指定元素 | //dir[@class] |
| ./text() | 输出文本 | //dir/text() |
备注:
注意 “//” 的使用,熟练使用 “//” 可减少大量观察时间

