爬虫即网络爬虫,英文是WebSpider。翻译过来就是网络上爬行的蜘蛛,如果把互联网看作一张大网,那么爬虫就是在大网上爬来爬去的蜘蛛,碰到想要的食物,就把他抓取出来。我们在浏览器中输入一个网址,敲击回车,看到网站的页面信息。这就是浏览器请求了网站的服务器,获取到网络资源。那么,爬虫也相当于模拟浏览器发送请求,获得到HTML代码。HTML代码里通常包含了标签和文字信息,我们就从中提取到我们想要的信息。通常爬虫是从某个网站的某个页面开始,爬取这个页面的内容,找
系统 2019-09-27 17:51:06 2198
一、在豆瓣电影网爬取以下剧照保存到本地:本次案例只爬取前5页的剧照,先获取前五页的链接:foriinrange(5):url='https://movie.douban.com/subject/26794435/photos?type=S&start='+str(i*30)+'&sortby=like&size=a&subtype=a'print(url)由下图可知这些剧照是在ul标签下二、爬取和保存到本地的参考代码如下:#导入相应的模块importosi
系统 2019-09-27 17:49:06 2198
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。在Python中有很多库可以用来抓取网页,我们先学习urllib2。urllib2是Python2.x自带的模块(不需要下载,导入即可使用)urllib2官网文档:https://docs.python.org/2/library/urllib2.htmlurllib2源码urllib2在python3.x中被改为urllib.requesturlopen我们先来段代码:#-*-
系统 2019-09-27 17:48:38 2198
celery英文官方网站:www.celeryproject.org中文网站:http://docs.jinkan.org/docs/celery/celeryCelery是一个简单、灵活且可靠的,处理大量消息的分布式系统,并且提供维护这样一个系统的必需工具。专注于实时处理的任务队列,同时也支持任务调度。作用:解决耗时操作:开一个新的进程,去操作耗时操作,不影响原有进程定时操作,使Listitem用celery定时执行操作:定义一个任务task,也就是一个
系统 2019-09-27 17:48:28 2198
Python解释器安装好Python3.x之后,我们可以使用文本文件去编写Python代码,编写完成后将扩展名改成.py结尾的文本文件。想要执行编写好的.py文件就需要用到Python解释器。解释器分为:CPython、Ipython、PyPy、Jython、IronPython等。目前我们常用的是CPython解释器,该解释器是用C语言开发的,所以叫CPython。在命令行下运行python其实就是启动CPython解释器。第一个程序HelloPytho
系统 2019-09-27 17:47:36 2198
问题:用Python处理一个多层嵌套list['and','B',['not','A'],[1,2,1,[2,1],[1,1,[2,2,1]]],['not','A','A'],['or','A','B','A'],'B']需求1)如何展开成一层?需求2)如何删除重复的元素?包括重复的list,要考虑子list的重复元素删除后造成的子list重复#!/usr/bin/envpython#-*-coding:utf-8-*-defunilist(ll):""
系统 2019-09-27 17:38:25 2198
在python用import或者from...import来导入相应的模块。模块其实就是一些函数和类的集合文件,它能实现一些相应的功能,当我们需要使用这些功能的时候,直接把相应的模块导入到我们的程序中,我们就可以使用了。这类似于C语言中的include头文件,Python中我们用import导入我们需要的模块。eg:复制代码代码如下:importsysprint('================Pythonimportmode==============
系统 2019-09-27 17:37:55 2198
系统 2019-08-29 22:57:09 2198
再次犯了没有仔细看HibernateReference的错误,在Hibernate3以上版本都支持对于property设置lazy="true",但一直我都以为只要设置了就可以实现的,今天和jindw讨论的时候才知道原来不是这样,^_^,赶快做了下试验,确实,即使对于property设置了lazy="true",但在调用获取了po中的任意非主键属性时其他所有的property也就被加载了,也就是说lazy没有生效,到底怎么回事呢,翻阅HibernateRe
系统 2019-08-29 22:55:12 2198
晚上,和东方易维的CTO辛鹏和总经理王昕先生,在中关村西区那个西堤咖啡,聚了聚,聊了有关OPUG的事宜。OPUG(开发流程用户组)的地址是http://www.opug.org.cn/,欢迎大家访问。很佩服辛鹏现在还能有这番热情,弄这个OPUG社区。他的想法也还是有很多可取之处的,比如:(1)现在国内有关流程社区这一块,一直是一个空白。但国内流程应用和接触流程的技术人员和客户也越来越多,大家实际是需要这么一个社区的。(2)国内的流程产品Provider之间
系统 2019-08-29 22:34:55 2198