创建爬虫目录:
scrapy startproject spiderName
调试命令
scrapy shell 网站名
调试命令可直接进行 css 和 xpath 的调试;
成功执行命令之后可使用:
response.xpath(xpath表达式)
获取所需的内容。
xpath
说明:
XPath 是一门在 XML 文档中查找信息的语言
表达式 | 描述 | 实例 |
---|---|---|
nodename | 选取nodename节点的所有子节点 | //div |
/ | 从根节点选取 | /div |
// | 不考虑位置选择节点 | //div |
. | 选取当前节点 | ./div |
… | 选取当前节点的父节点 | … |
@ | 选取属性 | //@class |
//[@] | 选取属性的指定元素 | //dir[@class] |
./text() | 输出文本 | //dir/text() |
备注:
注意 “//” 的使用,熟练使用 “//” 可减少大量观察时间