这次只演示了,如何在真实项目内用到BeautifulSoup库来解析网页,而新浪的新闻是ajax加载过来的数据,在这里我们只演示解析部分数据(具体反扒机制没做分析)。代码地址:https://gitee.com/dwyui/BeautifulSoup_xinlang.git。关于的爬虫的博客已经越来越多,使用到的技术也越来越多,后期我还会持续写下去,大概从几个角度去写,多线程爬取(提高效率),如何更好的做到爬取数据(破解反扒)。用redis管理多线程和代理
系统 2019-09-27 17:45:54 1727
新来的一个工程师不懂HBase,java不熟,python还行,我建议他那可以考虑用HBase的thrift调用,完成目前的工作。首先,安装thrift下载thrift,这里,我用的是thrift-0.7.0-dev.tar.gz这个版本tarxzfthrift-0.7.0-dev.tar.gzcdthrift-0.7.0-devsudo./configure--with-cpp=no--with-ruby=nosudomakesudomakeinstal
系统 2019-09-27 17:45:33 1727
importsubprocessoutput=Popen(["mycmd","myarg"],stdout=PIPE).communicate()[0]importsubprocessp=subprocess.Popen(['ls','-a'],stdout=subprocess.PIPE,stderr=subprocess.PIPE)out,err=p.communicate()printout#workonUnix/Linuxonlyimportcom
系统 2019-09-27 17:45:26 1727
如果不用“with”,那么Python会在何时关闭文件呢?答案是:视情况而定。Python程序员最初学到的东西里有一点就是可以通过迭代法很容易地遍历一个打开文件的全文:f=open('/etc/passwd')forlineinf:print(line)注意上面的代码具有可行性,因为我们的文件对象“f”是一个迭代器。换句话说,“f“知道在一个循环或者任何其他的迭代上下文中做什么,比如像列表解析。我的Python课堂上的大多数学生都具有其他编程语言背景,在使
系统 2019-09-27 17:45:26 1727
SessionMiddleware激活后,每个传给视图(view)函数的第一个参数``HttpRequest``对象都有一个session属性,这是一个字典型的对象。你可以象用普通字典一样来用它。例如,在视图(view)中你可以这样用:#Setasessionvalue:request.session["fav_color"]="blue"#Getasessionvalue--thiscouldbecalledinadifferentview,#orman
系统 2019-09-27 17:38:45 1727
最近研究研究了css,少不了去网上分析一下别人的网页,但很多网站的css文件都是要么写在一行,要么一个换行都没有,看起来极其痛苦,所以写一个脚本转换一下,转换为比较有可读性的格式。下面就是这个脚本:importstring,sysimportre,StringIOTAB=4defformat(ss):f=open(ss,"r")data=f.read()f.close()dlen=len(data)i=0buf=StringIO.StringIO()sta
系统 2019-09-27 17:38:44 1727
Python中的包包是一个分层次的文件目录结构,它定义了一个由模块及子包,和子包下的子包等组成的Python的应用环境。考虑一个在Phone目录下的pots.py文件。这个文件有如下源代码:#!/usr/bin/python#-*-coding:UTF-8-*-defPots():print"I'mPotsPhone"同样地,我们有另外两个保存了不同函数的文件:Phone/Isdn.py含有函数Isdn()Phone/G3.py含有函数G3()现在,在Ph
系统 2019-09-27 17:38:41 1727
字符串中字符大小写的变换1.str.lower()//小写>>>'SkatE'.lower()'skate'2.str.upper()//大写>>>'SkatE'.upper()'SKATE'3.str.swapcase()//大小写互换>>>'SkatE'.swapcase()'sKATe'4.str.title()//首字母大写,其余的小写>>>'SkatE'.title()'Skate'字符串在输出时的对齐1.str.ljust(width,[fil
系统 2019-09-27 17:38:38 1727
python中对文件、文件夹(文件操作函数)的操作需要涉及到os模块和shutil模块。得到当前工作目录,即当前Python脚本工作的目录路径:os.getcwd()返回指定目录下的所有文件和目录名:os.listdir()函数用来删除一个文件:os.remove()删除多个目录:os.removedirs(r“c:\python”)检验给出的路径是否是一个文件:os.path.isfile()检验给出的路径是否是一个目录:os.path.isdir()判
系统 2019-09-27 17:38:36 1727
Pythonsocket网络编程初学python,前段时间买了两本书《python编程从入门到实践》《Python核心编程第三版》,第一本书主要讲的是一些基本语法和一些基本的使用方法,而第二本则深入很多,自己看来也是一知半解,刚好看到了这部分网络编程,依然有好多不太理解的地方,不过想来通过自己不断的摸索,不断地搜寻资料学习,早晚应该会变得通透吧.......这部分主要使用的模块就是socket模块,在这个模块中可以找到socket()函数,该函数用于创建套
系统 2019-09-27 17:38:34 1727