Python网络爬虫与信息提取——正则表达式正则表达式的语法正则表达式的常用操作符操作符说明实例.表示任何单个字符[]字符集,对单个字符给出取值范围[abc]表示a、b、c,[a-z]表示a到z单个字符[^]非字符集,对单个字符给出排除范围[^abc]表示非a或b或c的单个字符*前一个字符0次或无限次扩展abc*表示ab、abc、abcc、abccc等+前一个字符1次或无限次扩展abc+表示abc、abcc、abccc等?前一个字符0次或1次扩展abc?表
系统 2019-09-27 17:46:58 1882
前言项目中大量用到图片加载,由于图片太大,加载速度很慢,因此需要对文件进行统一压缩一:导入包fromPILimportImageimportos二:获取图片文件的大小defget_size(file):#获取文件大小:KBsize=os.path.getsize(file)returnsize/1024三:拼接输出文件地址defget_outfile(infile,outfile):ifoutfile:returnoutfiledir,suffix=os.
系统 2019-09-27 17:46:02 1882
一、《新时代中国特色社会主义》的词云1、直接上代码:importjieba,wordcloudf=open("./data/新时代中国特色社会主义.txt","r",encoding="utf-8")#打开文件t=f.read()#读取文件f.close()#关闭文件ls=jieba.lcut(t)#分词txt="".join(ls)#将分好的词用空格串起来#配置参数#width:指定词云对象生成图片的宽度,默认400像素#height:指定词云对象生成图
系统 2019-09-27 17:45:38 1882
当你打开一个.py文件时,经常会在代码的最下面看到if__name__=='__main__':,现在就来介绍一下它的作用.模块是对象,并且所有的模块都有一个内置属性__name__。一个模块的__name__的值取决于您如何应用模块。如果import一个模块,那么模块__name__的值通常为模块文件名,不带路径或者文件扩展名。但是您也可以像一个标准的程序样直接运行模块,在这种情况下,__name__的值将是一个特别缺省"__main__"。//////
系统 2019-09-27 17:45:26 1882
本文实例讲述了Python多进程方式抓取基金网站内容的方法。分享给大家供大家参考,具体如下:在前面这篇//www.jb51.net/article/162418.htm我们已经简单了解了”python的多进程”,现在我们需要把抓取基金网站(28页)内容写成多进程的方式。因为进程也不是越多越好,我们计划分3个进程执行。意思就是:把总共要抓取的28页分成三部分。怎么分呢?#初始ranger=range(1,29)#步长step=10myList=[r[x:x+
系统 2019-09-27 17:45:24 1882
######################分支语句python3.5#################代码的缩进格式很重要建议4个空格来控制#根据逻辑值(True,Flase)判断程序的运行方向#Ture:表示非空的量(String,tuple元组、list、set、dictonary),所有非零的数字#False:0,None、空的量#逻辑表达式可以包含逻辑运算符andornotif:##################################
系统 2019-09-27 17:38:35 1882
引言对于Python来说,并不缺少并发选项,其标准库中包括了对线程、进程和异步I/O的支持。在许多情况下,通过创建诸如异步、线程和子进程之类的高层模块,Python简化了各种并发方法的使用。除了标准库之外,还有一些第三方的解决方案,例如Twisted、Stackless和进程模块。本文重点关注于使用Python的线程,并使用了一些实际的示例进行说明。虽然有许多很好的联机资源详细说明了线程API,但本文尝试提供一些实际的示例,以说明一些常见的线程使用模式。全
系统 2019-09-27 17:38:28 1882
基于tkinter模块的GUIGUI是图形用户界面的缩写,图形化的用户界面对使用过计算机的人来说应该都不陌生,在此也无需进行赘述。Python默认的GUI开发模块是tkinter(在Python3以前的版本中名为Tkinter),从这个名字就可以看出它是基于Tk的,Tk是一个工具包,最初是为Tcl设计的,后来被移植到很多其他的脚本语言中,它提供了跨平台的GUI控件。当然Tk并不是最新和最好的选择,也没有功能特别强大的GUI控件,事实上,开发GUI应用并不是
系统 2019-09-27 17:38:20 1882
前言很多时候在windows下压缩文件没问题,但是到了Linux下,出现乱码,很常见。以前在Ubuntu下,用`unzip-OGBKfilename.zip`就可以搞定。换了Fedora后,暂时没发现乱码的压缩文件。晚上下载一本书的光盘,又碰到了乱码。尝试之前的方法没成功。看了下unzip的help,没-O那个参数了==刚好找到一个用python解决的办法,分享下。新建一个`.py`后缀的文件,直接复制粘贴代码:#!/usr/bin/envpython#-
系统 2019-09-27 17:38:03 1882
当Web服务器接收到对静态Web页的请求时,服务器将该页直接发送到请求浏览器。但是,当Web服务器接收到对动态页的请求时,它将作出不同的反应:它会将该页传递给一个负责完成页的特殊软件。这个特殊软件叫做应用程序服务器。应用程序服务器读取页上的代码,根据代码中的指令完成页,然后将代码从页上删除。所得的结果将是一个静态页,应用程序服务器将该页传递回Web服务器,然后Web服务器将该页发送到请求浏览器。当该页到达时,浏览器得到的全部内容都是纯HTML。下面是此过程
系统 2019-08-29 23:46:49 1882