学习python少不了写爬虫,不仅能以点带面地学习、练习使用python,爬虫本身也是有用且有趣的,大量重复性的下载、统计工作完全可以写一个爬虫程序完成。用python写爬虫需要python的基础知识、涉及网络的几个模块、正则表达式、文件操作等知识。昨天在网上学习了一下,写了一个爬虫自动下载「糗事百科」里面的图片。源代码如下:复制代码代码如下:#-*-coding:utf-8-*-#上面那句让代码里支持中文#------------------------
系统 2019-09-27 17:45:42 1641
Python提供了两个内置函数从标准输入读入一行文本,默认的标准输入是键盘。如下:1.raw_input2.inputraw_input函数raw_input()函数从标准输入读取一个行,并返回一个字符串(去掉结尾的换行符):复制代码代码如下:str=raw_input("Enteryourinput:");print"Receivedinputis:",str这将提示你输入任意字符串,然后在屏幕上显示相同的字符串。当我输入"HelloPython!",它
系统 2019-09-27 17:45:41 1641
Python2中编码相关的问题很是让人蛋疼,特别是中文字符。比如本文所述的中文网页GBK编码的诡异问题。现象例如:盲录�氓��,其实网页里面正常的应该是会员分析接着上面的例子,会员这部分乱码通过repr()函数求值得到如下结果\xc3\xa4\xc2\xbc\xc2\x9a\xc3\xa5\xc2\x91\xc2\x98使用type()函数求值得到的结果为unicodeeval(repr())出来值为盲录�氓��通过查表上述6个汉字对应c3a4c2bcc2
系统 2019-09-27 17:45:40 1641
【方法一】:通过setuptools来安装python模块首先下载http://peak.telecommunity.com/dist/ez_setup.pyNOTE:最好下载个setuptools,本人是15.2版本,里面包含了ez_setup运行pythonez_setup.pyD:\work\installation\setuptools-15.2\setuptools-15.2>pythonez_setup.py>1.txtExtractingin
系统 2019-09-27 17:45:35 1641
环境:编辑工具:浏览器:有问题可以联系qq:1776376537#coding:utf-8fromcommon.baseimportBasefromseleniumimportwebdriverfromselenium.webdriver.common.action_chainsimportActionChainsfromselenium.webdriver.support.selectimportSelect#打开火狐浏览器driver=webdrive
系统 2019-09-27 17:45:33 1641
介绍Python常见的字符串处理方式字符串截取>>>s='hello'>>>s[0:3]'he'>>>s[:]#截取全部字符'hello'消除空格及特殊符号s.strip()#消除字符串s左右两边的空白字符(包括'\t','\n','\r','')s.strip('0')#消除字符串s左右两边的特殊字符(如'0'),字符串中间的'0'不会删除例如:>>>s='000hello00world000'>>>s.strip('0')'hello00world's
系统 2019-09-27 17:45:26 1641
1.安装ubuntu有uwsgi的ppa:add-apt-repositoryppa:stevecrozz/ppaapt-getupdateapt-getinstalluwsgi2.用uwsgi代替mod_wsgiNginx的整体配置这里不说了,假设已经明白Nginx的基本配置,那么uwsgi就类似这么配置:location/{includeuwsgi_paramsuwsgi_pass127.0.0.1:9090}再比如django就是:.......fr
系统 2019-09-27 17:38:46 1641
这玩意反反复复弄了一晚上,这里详细叙述下如何安装,肯定会对大家有所帮助。首先默认大家都装了Python,这个从官网下基本不会有任何难度。(1)Setuptools的安装为啥先说这个,后面所有whl文件都要用这个安装。基本上没有几个教程先介绍这个的,这里说全一点,方便小白使用。我们装的是Setuptools0.6c11。别的版本不是不行,因为这个在Pypi上面直接有exe文件,反正就是方便。地址:https://pypi.python.org/pypi/se
系统 2019-09-27 17:38:37 1641
返璞归真许多流行的玩具都以这样一个概念为基础:简单的积木。这些简单的积木可通过多种方式组合在一起构造出全新的作品――有时甚至完全令人出乎意料。这一概念同样适用于现实生活中的建筑领域,将基本原材料组合在一起,形成有用的建筑物。平凡无奇的材料、技术和工具简化了新建筑物的建造过程,同样也简化了对新踏入此领域的人员的培训。相同的基本概念也适用于计算机程序开发技术,包括以Python编程语言编写的程序。本文介绍了使用Python创建基本构件(buildingbloc
系统 2019-09-27 17:38:30 1641
大家请注意:这篇文中假设我们都用的是Python31.列表推导式你有一个list:bag=[1,2,3,4,5]现在你想让所有元素翻倍,让它看起来是这个样子:[2,4,6,8,10]大多初学者,根据之前语言的经验会大概这样来做bag=[1,2,3,4,5]foriinrange(len(bag)):bag[i]=bag[i]*2但是有更好的方法:bag=[elem*2foreleminbag]很简洁对不对?这叫做Python的列表推导式。2.遍历列表继续,
系统 2019-09-27 17:38:30 1641
网络爬虫,即WebSpider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。1.网络爬虫的定义网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。这样看来,网络爬虫
系统 2019-09-27 17:38:28 1641
将套接字流重定向到标准输入或输出流#!/usr/bin/envpython3"""测试socket-stream重定向模式"""importsys,os,timefrommultiprocessingimportProcessfromsocketimport*definitListenerSocket(port=50008,host=''):"""初始化在服务器模式下调用者用于监听连接的套接字"""sock=socket()try:sock.bind((h
系统 2019-09-27 17:38:28 1641
如果直接对大文件对象调用read()方法,会导致不可预测的内存占用。好的方法是利用固定长度的缓冲区来不断读取文件内容。即通过yield。在用Python读一个两个多G的txt文本时,天真的直接用readlines方法,结果一运行内存就崩了。还好同事点拨了下,用yield方法,测试了下果然毫无压力。咎其原因,原来是readlines是把文本内容全部放于内存中,而yield则是类似于生成器。代码如下:defopen_txt(file_name):withope
系统 2019-09-27 17:38:24 1641
我们将要来学习python的重要概念迭代和迭代器,通过简单实用的例子如列表迭代器和xrange。可迭代一个对象,物理或者虚拟存储的序列。list,tuple,strins,dicttionary,set以及生成器对象都是可迭代的,整型数是不可迭代的。如果你不确定哪个可迭代哪个不可以,你需要用python内建的iter()来帮忙。>>>iter([1,2,3])>>>iter({1:2,2:4})>>>iter(1234)Traceback(mostrece
系统 2019-09-27 17:38:24 1641
简单记一下python中List的sort方法(或者sorted内建函数)的用法。List的元素可以是各种东西,字符串,字典,自己定义的类等。sorted函数用法如下:sorted(data,cmp=None,key=None,reverse=False)其中,data是待排序数据,可以使List或者iterator,cmp和key都是函数,这两个函数作用与data的元素上产生一个结果,sorted方法根据这个结果来排序。cmp(e1,e2)是带两个参数的
系统 2019-09-27 17:38:23 1641