python爬虫--爬取代码实例(xpath) - 军军小站|张军博客

Python爬取拉勾网实例

            
              
                # -*-.coding: utf-8 -*-
              
              
                # __author__ = 'xiaobai'
              
              
                # Email: 517840374@qq.com
              
              
                import
              
               time

              
                import
              
               re

              
                from
              
               selenium
              
                .
              
              webdriver 
              
                import
              
               Chrome 
              
                # 导入浏览器的包
              
              
                from
              
               selenium
              
                .
              
              webdriver
              
                .
              
              common
              
                .
              
              keys 
              
                import
              
               Keys
n 
              
                =
              
              
                1
              
              
                # 创建浏览器
              
              
web 
              
                =
              
               Chrome
              
                (
              
              
                )
              
              
                # 打开浏览器，请求到拉钩
              
              
web
              
                .
              
              get
              
                (
              
              
                "https://www.lagou.com"
              
              
                )
              
              
web
              
                .
              
              find_element_by_xpath
              
                (
              
              
                '//*[@id="cboxClose"]'
              
              
                )
              
              
                .
              
              click
              
                (
              
              
                )
              
              

time
              
                .
              
              sleep
              
                (
              
              
                1
              
              
                )
              
              
                # 找到那个文本框，输入python，然后点查询
              
              
web
              
                .
              
              find_element_by_xpath
              
                (
              
              
                '//*[@id="search_input"]'
              
              
                )
              
              
                .
              
              send_keys
              
                (
              
              
                'python'
              
              
                ,
              
               Keys
              
                .
              
              ENTER
              
                )
              
              

alst 
              
                =
              
               web
              
                .
              
              find_elements_by_class_name
              
                (
              
              
                "position_link"
              
              
                )
              
              
                for
              
               a 
              
                in
              
               alst
              
                :
              
              
                # 找到H3并点击
              
              
    a
              
                .
              
              find_element_by_tag_name
              
                (
              
              
                "h3"
              
              
                )
              
              
                .
              
              click
              
                (
              
              
                )
              
              
    web
              
                .
              
              switch_to
              
                .
              
              window
              
                (
              
              web
              
                .
              
              window_handles
              
                [
              
              
                -
              
              
                1
              
              
                ]
              
              
                )
              
              

    text
              
                =
              
               web
              
                .
              
              find_element_by_xpath
              
                (
              
              
                '//*[@id="job_detail"]/dd[2]'
              
              
                )
              
              
                .
              
              text 
              
                # 拿文本
              
              
                # 把招聘信息保存到文件中
              
              
                with
              
              
                open
              
              
                (
              
              f
              
                '需求_{n}.txt'
              
              
                ,
              
               mode 
              
                =
              
              
                'w'
              
              
                ,
              
              encoding
              
                =
              
              
                'utf-8'
              
              
                )
              
              
                as
              
               f
              
                :
              
              
        f
              
                .
              
              write
              
                (
              
              text
              
                )
              
              
        n 
              
                +=
              
              
                1
              
              
                # 关闭窗口
              
              
    web
              
                .
              
              close
              
                (
              
              
                )
              
              
                # 调整窗口到最开始的那个页面
              
              
    web
              
                .
              
              switch_to
              
                .
              
              window
              
                (
              
              web
              
                .
              
              window_handles
              
                [
              
              
                0
              
              
                ]
              
              
                )
              
              
    time
              
                .
              
              sleep
              
                (
              
              
                1
              
              
                )
更多文章、技术交流、商务合作、联系博主
微信扫码或搜索：z360901061
微信扫一扫加我为好友
QQ号联系： 360901061
您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。
【本文对您有帮助就好】元
2元
5元
10元
20元
自定义