初识pythonpython爬虫爬虫步骤(个人学习后的理解):获取URL地址解析URL源码提取源码中的需要信息使用re、beautifulsoup、urllib.request等常用库写入txt、excel等等。Python格式化字符:format_string%string_to_convert其中:format_string为格式标记字符串,形式为“%cdoe”;string_to_convert为要格式化的字符串,如果是两个以上,则需要用小括号括起来
系统 2019-09-27 17:49:59 2109
如下所示:importtime,requestesfromtomorrowimportthreads@threads(10)#使用装饰器,这个函数异步执行defdownload(url):returnrequests.get(url)defmain():start=time.time()urls=['https://pypi.org/project/tomorrow/0.2.0/','https://www.cnblogs.com/pyld/p/47167
系统 2019-09-27 17:48:19 2109
一、说明类似json将xml解析为python对象,可以使用第三方库untangle或xmltodict实现。将以下内容保存为xml2obj.xml,后我我们就使用该文件。1.第一行的是xml文件的声明,它定义了xml的版本(1.0)和所使用编码为UTF-8。2.接下来就是xml文件的内容了,这些内容按一个树状结构进行组织摆放,形式如下:section1contentsection2content其中,每一个.叫做一个节点,也叫一个元素,节点可以嵌套放置,
系统 2019-09-27 17:46:25 2109
Scrapy官方介绍是Anopensourceandcollaborativeframeworkforextractingthedatayouneedfromwebsites.Inafast,simple,yetextensibleway.意思就是一个开源和协作框架,用于以快速,简单,可扩展的方式从网站中提取所需的数据。环境准备本文项目使用环境及工具如下python3scrapymongodbpython3scrapy的安装就不再叙述mongodb是用来存
系统 2019-09-27 17:46:17 2109
目录一、异常TODO二、深浅拷贝2.1拷贝2.2浅拷贝2.3深拷贝三、数据类型内置方法3.1数字类型内置方法3.1.1整型3.1.2浮点型3.2字符串类型内置方法3.3列表类型内置方法3.4元祖类型内置方法3.5字典类型内置方法3.6集合类型内置方法3.7布尔类型四、数据类型分类4.1按值个数4.2按有序无序4.3按可变不可变一、异常TODO万能捕捉异常公式try:#逻辑代码1/0exceptExceptionase:print(e)divisionbyz
系统 2019-09-27 17:45:32 2109
今天遇到一个问题,在同事随意的提示下,用了itertools.groupby这个函数。不过这个东西最终还是没用上。问题就是对一个list中的新闻id进行去重,去重之后要保证顺序不变。直观方法最简单的思路就是:ids=[1,2,3,3,4,2,3,4,5,6,1]news_ids=[]foridinids:ifidnotinnews_ids:news_ids.append(id)printnews_ids这样也可行,但是看起来不够爽。用set另外一个解决方案
系统 2019-09-27 17:38:46 2109
说明:python的urllib2获取网页(urlopen)会自动重定向(301,302)。但是,有时候我们需要获取302,301页面的状态信息。就必须获取到转向前的调试信息。下面代码将可以做到避免302重定向到新的网页#!/usr/bin/python#-*-coding:utf-8-*-#encoding=utf-8#Filename:states_code.pyimporturllib2classRedirctHandler(urllib2.HTTP
系统 2019-09-27 17:38:42 2109
近几日遇到采集某网页的时候大部分网页OK,少部分网页出现乱码的问题,调试了几日,终于发现了是含有一些非法字符造成的..特此记录1.在正常情况下..可以用importchardetthischarset=chardet.detect(strs)["encoding"]来获取该文件或页面的编码方式或直接抓取页面的charset=xxxx来获取2.遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.st
系统 2019-09-27 17:38:01 2109
在python用import或者from...import来导入相应的模块。模块其实就是一些函数和类的集合文件,它能实现一些相应的功能,当我们需要使用这些功能的时候,直接把相应的模块导入到我们的程序中,我们就可以使用了。这类似于C语言中的include头文件,Python中我们用import导入我们需要的模块。eg:复制代码代码如下:importsysprint('================Pythonimportmode==============
系统 2019-09-27 17:37:55 2109
一旦你创建一个Template对象,你可以用context来传递数据给它。一个context是一系列变量和它们值的集合。context在Django里表现为Context类,在django.template模块里。她的构造函数带有一个可选的参数:一个字典映射变量和它们的值。调用Template对象的render()方法并传递context来填充模板:>>>fromdjango.templateimportContext,Template>>>t=Templ
系统 2019-09-27 17:37:55 2109
数据类型判断在python(版本3.0以上)使用变量,并进行值比较时。有时候会出现以下错误:TypeError:unorderabletypes:NoneType()
系统 2019-09-27 17:37:39 2109
【百度云搜索,搜各种资料:http://www.bdyss.cn】【搜网盘,搜各种资料:http://www.swpan.cn】注意:数据保存的操作都是在pipelines.py文件里操作的将数据保存为json文件spider是一个信号检测#-*-coding:utf-8-*-#Defineyouritempipelineshere##Don'tforgettoaddyourpipelinetotheITEM_PIPELINESsetting#See:ht
系统 2019-09-27 17:57:13 2108
使用过anaconda环境下打包py文件的一点感悟,使用的是pyinstaller+anaconda环境下打包py文件打包:pyinstaller-F-w-ilogo.icoxxxx.py-F:强制打包-w:不带后台命令窗口-i:使用logo图标的地址需要打包的文件遇到的问题:1.首先对于使用anaconda打包py文件是存在问题的;1)打包出来的exe会很大,会打包很多关联库;2)而其中的一些关联库是没有用,而导入这些库会拖慢程序运行的效率。解决:使用虚
系统 2019-09-27 17:57:11 2108
PythonMapMap会将一个函数映射到一个输入列表的所有元素上。Map的规范为:map(function_to_apply,list_of_inputs)大多数时候,我们需要将列表中的所有元素一个个传递给一个函数,并收集输出。例如:items=[1,2,3,4,5]squared=[]foriinitems:squared.append(i**2)使用Map的话,可以让我们以一种更加简便的方法解决这种问题。items=[1,2,3,4,5]square
系统 2019-09-27 17:56:54 2108
Python3.6执行pip3installtesserocrpillow,报错:error:MicrosoftVisualC++14.0isrequired.Getitwith"MicrosoftVisualC++BuildTools":http://landinghub.visualstudio.com/visual-cpp-build-tools解决办法:去下方链接下载匹配版本的whl文件https://github.com/simonfluecki
系统 2019-09-27 17:55:28 2108