python爬虫1《1》什么是爬虫网络爬虫?网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。《2》爬虫的基本原理:我们把互联网比喻为一张大网,网络爬虫我们想象为网上的蜘蛛,网页与网页之间的连接我们理解为节点,爬虫就相当于是访问网页,获取网页的信息,又通过节点可以爬取另一个网站,然后不停的通过一个个节点即访问一个个网页,这样网站的数据就可以被我们获取下来了。《3》爬虫的分类:网络爬虫可分为通用爬虫和聚焦爬虫
系统 2019-09-27 17:48:45 1989
1.isinstance函数:除了以一个类型作为参数,还可以以一个类型元组作为参数。isinstance(obj,basestring)===isinstance(obj,(str,unicode))2.getattr函数:可以给一个默认值,以免触发错误。writte=getattr(obj,'write',sys.stdout.write)3.type函数:即可以得到一个对象的类型,也可以直接由它创建一个新类型:>>>Point=type('Point'
系统 2019-09-27 17:48:28 1989
看过这篇《2000字谏言,给那些想学Python的人,建议收藏后细看!》的读者应该都对一个命令有点印象吧?没错,就是linux中经常会用到的ls命令。文章中我就提到如何提升自己的python能力呢?直接找项目写,但是作为零基础/小白/入门的你来说做一个博客还要学web框架、html、css、js,又成为了阻碍你写实际项目的阻碍。所以我就推荐了这个命令:ls。写一个ls非常简单,你只需要会一点linux的基础知识,知道ls能做什么就好了。那今天就给大家码了一
系统 2019-09-27 17:48:24 1989
本文介绍了使用Python来扫描指定目录下的文件,或者匹配指定后缀和前缀的函数。步骤如下:如果要扫描指定目录下的文件,包括子目录,需要调用scan_files("/export/home/test/")如果要扫描指定目录下的特定后缀的文件(比如jar包),包括子目录,调用scan_files("/export/home/test/",postfix=".jar")如果要扫描指定目录下的特定前缀的文件(比如test_xxx.py),包括子目录,调用scan_
系统 2019-09-27 17:47:27 1989
什么场景下会有main函数?当该python脚本被作为模块(module)引入(import)时,其中的main()函数将不会被执行。main函数的作用?__name__=='__main__'是Python的main函数入口。并非说,加入这句才能使用pythonxxx.py来执行,而是说,这里可以判断,当前是否是直接被python直接调用执行。main为什么只有文件当作执行程序的时候才会被执行呢?这是由于两方面原因,一方面,main函数是所有执行程序的入
系统 2019-09-27 17:47:18 1989
上面的博客把基本的HTML解析库已经说完了,这次我们来给予几个实战的项目。这次主要用Requests库+正则表达式来解析HTML。项目一:爬取猫眼电影TOP100信息代码地址:https://gitee.com/dwyui/maoyan-Requests.git项目二:美食爬取(包含多层爬取)代码地址:https://gitee.com/dwyui/meishi_Requests.git
系统 2019-09-27 17:47:06 1989
在python2.x中,从object继承得来的类称为新式类(如classA(object))不从object继承得来的类称为经典类(如classA())新式类跟经典类的差别主要是以下几点:1.新式类对象可以直接通过__class__属性获取自身类型:type2.继承搜索的顺序发生了改变,经典类多继承时属性搜索顺序:先深入继承树左侧,再返回,开始找右侧(即深度优先搜索);新式类多继承属性搜索顺序:先水平搜索,然后再向上移动例子:经典类:搜索顺序是(D,B,
系统 2019-09-27 17:47:02 1989
filter函数:filter()函数可以对序列做过滤处理,就是说可以使用一个自定的函数过滤一个序列,把序列的每一项传到自定义的过滤函数里处理,并返回结果做过滤。最终一次性返回过滤后的结果。filter()函数有两个参数:第一个,自定函数名,必须的第二个,需要过滤的列,也是必须的DEMO需求,过滤大于5小于10的数:复制代码代码如下:#coding=utf8#定义大于5小于10的函数defguolvhanshu(num):ifnum>5andnum<10:
系统 2019-09-27 17:46:02 1989
学习python少不了写爬虫,不仅能以点带面地学习、练习使用python,爬虫本身也是有用且有趣的,大量重复性的下载、统计工作完全可以写一个爬虫程序完成。用python写爬虫需要python的基础知识、涉及网络的几个模块、正则表达式、文件操作等知识。昨天在网上学习了一下,写了一个爬虫自动下载「糗事百科」里面的图片。源代码如下:复制代码代码如下:#-*-coding:utf-8-*-#上面那句让代码里支持中文#------------------------
系统 2019-09-27 17:45:42 1989
前言在安装完python及pip,setuptools等工具后,即可以创建virualenv虚拟环境了,这个类似于虚拟机的工具,可以让同一台电脑中运行多个不同版本的python程序,互不影响,不用的时候,可以退出或删除,挺不错的一个开发工具。一、安装virtualenv#installpiponmacbrewinstallpythoncurlhttps://bootstrap.pypa.io/ez_setup.py-o-|sudopythonsudoeas
系统 2019-09-27 17:45:32 1989