Python学习之urllib

系统 1501 0

这里写自定义目录标题

  • 阅读目录
    • urllib.request.urlopen()
      • 请求示例程序
      • urlopen()提供的返回值方法
      • urlopen()传递data参数
      • urlopen()传递timeout参数

阅读目录

urllib是python内置的HTTP请求库,无需安装即可使用,它包含了4个模块:

request:它是最基本的http请求模块,用来模拟发送请求

error:异常处理模块,如果出现错误可以捕获这些异常

parse:一个工具模块,提供了许多URL处理方法,如:拆分、解析、合并等

robotparser:主要用来识别网站的robots.txt文件,然后判断哪些网站可以爬
Python学习之urllib_第1张图片

urllib.request.urlopen()

            
              urlopen
              
                (
              
              url
              
                ,
              
               data
              
                =
              
              
                None
              
              
                ,
              
               timeout
              
                =
              
              socket
              
                .
              
              _GLOBAL_DEFAULT_TIMEOUT
              
                ,
              
              
                *
              
              
                ,
              
               cafile
              
                =
              
              
                None
              
              
                ,
              
               capath
              
                =
              
              
                None
              
              
                ,
              
               cadefault
              
                =
              
              
                False
              
              
                ,
              
               context
              
                =
              
              
                None
              
              
                )
              
            
          
  1. url:请求地址
  2. data: Post请求提交的数据
  3. timeout: 超时时间
  4. cafile:这个是CA证书
  5. capath :这个是CA证书路径
  6. cadefault=False:默认没有CA证书
  7. context: 这个可以指定SSL安装验证设置,比如我们可以设置忽略证书验证等等。

请求示例程序

            
              
                import
              
               urllib
              
                .
              
              request


              
                """

urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,*
           ,cafile=None, capath=None, cadefault=False, context=None)

"""
              
              
resopnse
              
                =
              
              urllib
              
                .
              
              request
              
                .
              
              urlopen
              
                (
              
              
                "https://www.python.org"
              
              
                )
              
            
          

urlopen()提供的返回值方法

  1. read(): 对HTTPResponse类型数据进行操作
            
              
                print
              
              
                (
              
              
                type
              
              
                (
              
              resopnse
              
                )
              
              
                )
              
              
                ### 
                
              
              
                #读取数据,编码UTF-8
              
              
                print
              
              
                (
              
              resopnse
              
                .
              
              read
              
                (
              
              
                )
              
              
                .
              
              decode
              
                (
              
              
                'UTF-8'
              
              
                )
              
              
                )
              
            
          

Python学习之urllib_第2张图片

  1. status 状态吗
  2. getheaders() 头信息
  3. getheader(‘param’) 获取指定的头信息
            
              
                print
              
              
                (
              
              resopnse
              
                .
              
              status
              
                )
              
              
                # 状态码
              
              
                print
              
              
                (
              
              resopnse
              
                .
              
              getheaders
              
                (
              
              
                )
              
              
                )
              
              
                # 头信息
              
              
                """
[   ('Server', 'nginx'), ('Content-Type', 'text/html; charset=utf-8'), 
    ('X-Frame-Options', 'DENY'), ('Via', '1.1 vegur'), ('Via', '1.1 varnish'), 
    ('Content-Length', '48914'), ('Accept-Ranges', 'bytes'), 
    ('Date', 'Mon, 16 Sep 2019 13:55:27 GMT'), ('Via', '1.1 varnish'), 
    ('Age', '2874'), ('Connection', 'close'), 
    ('X-Served-By', 'cache-iad2127-IAD, cache-lax8634-LAX'), 
    ('X-Cache', 'HIT, HIT'), ('X-Cache-Hits', '1, 99'), 
    ('X-Timer', 'S1568642127.467226,VS0,VE0'), ('Vary', 'Cookie'), 
    ('Strict-Transport-Security', 'max-age=63072000; includeSubDomains')]

"""
              
              
                print
              
              
                (
              
              resopnse
              
                .
              
              getheader
              
                (
              
              
                'Server'
              
              
                )
              
              
                )
              
              
                # 获取服务器类型 nginx
              
            
          

urlopen()传递data参数

            
              data
              
                =
              
              
                bytes
              
              
                (
              
              urllib
              
                .
              
              parse
              
                .
              
              urlencode
              
                (
              
              
                {
              
              
                'word'
              
              
                :
              
              
                'hello'
              
              
                }
              
              
                )
              
              
                ,
              
              encoding
              
                =
              
              
                'UTF-8'
              
              
                )
              
              
resopnse
              
                =
              
              urllib
              
                .
              
              request
              
                .
              
              urlopen
              
                (
              
              
                'http://httpbin.org/post'
              
              
                ,
              
              data
              
                =
              
              data
              
                )
              
              
                print
              
              
                (
              
              resopnse
              
                .
              
              read
              
                (
              
              
                )
              
              
                )
              
            
          

规定data参数是byte类型。因此我们需要将参数转化为byte.调用byte()方法。第一个参数是String类型。第二个参数为编码。我们传递一个key为word,value为hello的参数。使用urllib.parse.urlencode将字典转化为string类型。最终返回的结果如下:

注意,传递data参数则必须是POST请求

            
              
                {
              
              
                "args"
              
              
                :
              
              
                {
              
              
                }
              
              
                ,
              
              
                "data"
              
              
                :
              
              
                ""
              
              
                ,
              
              
                "files"
              
              
                :
              
              
                {
              
              
                }
              
              
                ,
              
              
                "form"
              
              
                :
              
              
                {
              
              
                "word"
              
              
                :
              
              
                "hello"
              
              
                }
              
              
                ,
              
              
                "headers"
              
              
                :
              
              
                {
              
              
                "Accept-Encoding"
              
              
                :
              
              
                "identity"
              
              
                ,
              
              
                "Content-Length"
              
              
                :
              
              
                "10"
              
              
                ,
              
              
                "Content-Type"
              
              
                :
              
              
                "application/x-www-form-urlencoded"
              
              
                ,
              
              
                "Host"
              
              
                :
              
              
                "httpbin.org"
              
              
                ,
              
              
                "User-Agent"
              
              
                :
              
              
                "Python-urllib/3.5"
              
              
                }
              
              
                ,
              
              
                "json"
              
              
                :
              
              
                null
              
              
                ,
              
              
                "origin"
              
              
                :
              
              
                "117.176.186.251, 117.176.186.251"
              
              
                ,
              
              
                "url"
              
              
                :
              
              
                "https://httpbin.org/post"
              
              
                }
              
            
          

可以看到我们的参数在form里面,因此作为表单去提交参数的。

urlopen()传递timeout参数

            
              resopnse
              
                =
              
              urllib
              
                .
              
              request
              
                .
              
              urlopen
              
                (
              
              
                'http://httpbin.org/post'
              
              
                ,
              
              data
              
                =
              
              data
              
                ,
              
              timeout
              
                =
              
              
                1
              
              
                )
              
            
          
            
                File "/usr/lib/python3.5/http/client.py", line 1198, in getresponse
    response.begin()
  File "/usr/lib/python3.5/http/client.py", line 297, in begin
    version, status, reason = self._read_status()
  File "/usr/lib/python3.5/http/client.py", line 258, in _read_status
    line = str(self.fp.readline(_MAXLINE + 1), "iso-8859-1")
  File "/usr/lib/python3.5/socket.py", line 576, in readinto
    return self._sock.recv_into(b)
socket.timeout: timed out

            
          

设置1s超时时间,请求socket超时!

            
              
                print
              
              
                (
              
              
                "********************************"
              
              
                )
              
              
data
              
                =
              
              
                bytes
              
              
                (
              
              urllib
              
                .
              
              parse
              
                .
              
              urlencode
              
                (
              
              
                {
              
              
                'word'
              
              
                :
              
              
                'hello'
              
              
                }
              
              
                )
              
              
                ,
              
              encoding
              
                =
              
              
                'UTF-8'
              
              
                )
              
              
                try
              
              
                :
              
              
    resopnse
              
                =
              
              urllib
              
                .
              
              request
              
                .
              
              urlopen
              
                (
              
              
                'http://httpbin.org/post'
              
              
                ,
              
              data
              
                =
              
              data
              
                ,
              
              timeout
              
                =
              
              
                0.1
              
              
                )
              
              
                except
              
               urllib
              
                .
              
              error
              
                .
              
              URLError 
              
                as
              
               e
              
                :
              
              
                print
              
              
                (
              
              
                'TIME OUT'
              
              
                )
              
              
                print
              
              
                (
              
              resopnse
              
                .
              
              read
              
                (
              
              
                )
              
              
                )
              
            
          

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索:z360901061

微信扫一扫加我为好友

QQ号联系: 360901061

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧,狠狠点击下面给点支持吧,站长非常感激您!手机微信长按不能支付解决办法:请将微信支付二维码保存到相册,切换到微信,然后点击微信右上角扫一扫功能,选择支付二维码完成支付。

【本文对您有帮助就好】

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描上面二维码支持博主2元、5元、10元、自定义金额等您想捐的金额吧,站长会非常 感谢您的哦!!!

发表我的评论
最新评论 总共0条评论