要爬取的网站不需要登陆,没有反爬机制,操作很简单首先安装需要的程序包pipinstallrequestspipinstallbeautifulsoup4pipinstallxlwt具体的实现类GetInfo.py#信息实体类classproduct_info(object):serios=''#存放商品系列productActualPrice=''#存放商品成交价productOldPrice=''#存放商品面价detailString=''#存放商品详情
系统 2019-09-27 17:47:27 2099
哎,以前写博文的时候没注意,有些图片用QQ来截取,获得的图片文件名都是类似于QQ截图20120926174732-300×15.png的形式,昨天用ftp备份网站文件的时候发现,中文名在flashfxp里面显示的是乱码的,看起来好难受,所以写了一个python小脚本,爬取整个网站,然后获取每个文章页面的图片名,并判断如果是类似于QQ截图20120926174732-300×15.png的形式就输出并将该图片地址和对应的文章地址保存在文件中,然后通过该文件来
系统 2019-09-27 17:47:21 2099
forsplitValueinset(dataset[:,featureIndex].tolist()):首先set是一个无序,无重复的数据结构,所以很多时候使用它来进行去重;但是set接收的函数是原生array,这个怎么办?我现在有的numpy里面的matrix;于是我查了一下,直接使用matrix.tolist(),但是发现返回值有问题:importosos.chdir("D:\\galaxy\\aliyunsvn\\code\\MLInAction\
系统 2019-09-27 17:46:43 2099
闭包(closure)是函数式编程的重要的语法结构。函数式编程是一种编程范式(而面向过程编程和面向对象编程也都是编程范式)。在面向过程编程中,我们见到过函数(function);在面向对象编程中,我们见过对象(object)。函数和对象的根本目的是以某种逻辑方式组织代码,并提高代码的可重复使用性(reusability)。闭包也是一种组织代码的结构,它同样提高了代码的可重复使用性。不同的语言实现闭包的方式不同。Python以函数对象为基础,为闭包这一语法结
系统 2019-09-27 17:45:47 2099
前言在安装完python及pip,setuptools等工具后,即可以创建virualenv虚拟环境了,这个类似于虚拟机的工具,可以让同一台电脑中运行多个不同版本的python程序,互不影响,不用的时候,可以退出或删除,挺不错的一个开发工具。一、安装virtualenv#installpiponmacbrewinstallpythoncurlhttps://bootstrap.pypa.io/ez_setup.py-o-|sudopythonsudoeas
系统 2019-09-27 17:45:32 2099
今天用Python提取了Linux内核源代码的目录树结构,没有怎么写过脚本程序,我居然折腾了2个小时,先是如何枚举出给定目录下的所有文件和文件夹,os.walk可以实现列举,但是os.walk是只给出目录名和文件名,而没有绝对路径。使用os.path.listdir可以达到这个目的,然后是创建目录,由于当目录存在是会提示创建失败的错误,所以我先想删除所有目录,然后再创建,但是发现还是有问题,最好还是使用判断如果不存在才创建目录,存在时就不创建,贴下代码:#
系统 2019-09-27 17:38:11 2099
一般说来,你会把模板以文件的方式存储在文件系统中,但是你也可以使用自定义的templateloaders从其他来源加载模板。Django有两种方法加载模板django.template.loader.get_template(template_name):get_template根据给定的模板名称返回一个已编译的模板(一个Template对象)。如果模板不存在,就触发TemplateDoesNotExist的异常。django.template.loade
系统 2019-09-27 17:37:43 2099
一.安装pythonmac系统其实自带了一个python的执行执行环境,用来运行python还行,但是开发可能就不够了,因此我们需要重新安装python。这里有两种方案安装:1.homebrewbrewinstallpython这个方案比较简单,如果出错的话可以给前面加sudo试试,这个安装的python可能不是最新版.2.从官网下载安装大家可以从https://www.python.org/download下载安装最新版的python,安装比较无脑,一路
系统 2019-09-27 17:37:37 2099
用luaplus试验了下,想把简单的C++类映射到lua脚本中不难,但是复杂一点的,比方说类的聚合、继承等,比较麻烦。我试验了两天,用表中表来实现是可以的,但自己弄太麻烦了。说到底,我只是想用一下而已,不是想从头弄一个系统。用CEGUI时发现它用了tolua++,从网上DOWN了源码(1.0.92),支持Lua5.1。我用VS2005,用源码包里的sln顺利编译出tolua++.exe。lib据说要用第三方的scons来弄,嫌麻烦,我直接建了个VC动态库工
系统 2019-08-29 23:30:54 2099
好吧,今天,让未来带领大家进入“真三维的Flash世界”——其实只是很简单的“三维”了。先看看这个:三维动画可能对大多数人来说都是可望而不可及的吧?是不是总觉得自己不可能制作出真正的三维的东西来呢?错!当你了解了三维的基础知识以后,这些想法就不存在了!而且您会很快就掌握它的制作方法!不相信?举个例子,我一直没有研究过三维基础知识,当我找到一本书以后,马上就编写出我的第一个真三维的动画,仅仅半小时!好了,有信心了吧?开始!1)在平面上画线在Flash中,所谓
系统 2019-08-29 23:29:11 2099
(二二)相信网络上有一些深刻的灵魂,一如相信爱情。然而,网路茫茫,人海茫茫,萍水相逢,真的要靠造化。想起一句话:因为懂得,所以慈悲(二三)在来北京之前,Lunar是我北京唯一一个熟悉的朋友.在2002年10月的时候,Lunar就游说我来京.还记得有一次,Lunar和biti在一起她让biti来劝说我.那是我和biti第一次的亲密接触我说担心工作,biti就说,那就和我一起去珠海吧.结果biti被Lunar抢了电话,教训了一顿,说差点被你把eygle拐走了再
系统 2019-08-29 23:23:13 2099
[转自]http://it.dengchao.org/neatbeans-problem-fedora/linux/在Windows和Linux(Fedora/Ubuntu/RedHat)中安装了NetBeans后,会遇到菜单等显示乱码的问题。这里告诉大家如何解决中文显示乱码的问题,包括Windows、Fedora、Ubuntu下NetBeans中文乱码解决办法。一、Windows下NetBeans中文乱码解决办法1.找到你的Netbeans安装目录下的e
系统 2019-08-29 23:01:49 2099
昨天集团架构委员会(虚拟组织)作了第二次交流,各个子公司都说了当前的一些进度,问题和想法,我也大致讲了一下阿里软件的服务集成平台的一些进展和自己的一些思考,这里先贴一下PPT的图片,后面想整理以下关于当前OpenAPI的一些想法以及对OpenAPIFramework的一些思路。SIP交流PPT
系统 2019-08-29 22:25:42 2099
上接《索引创建(3):DocumentWriter处理流程二》1.3.3第三车间——TermsHashPerField&FreqProxTermsWriterPerFieldTermsHashPerField和FreqProxTermsWriterPerField负责将token信息(字符串内容termTest,所在文档编号docID,所在文档中的位置position,所在文档中的词频frequence)添加到索引的Hash表结构(postingsHash
系统 2019-08-29 21:59:43 2099
CriteriaQuery通过面向对象化的设计,将数据查询条件封装为一个对象。简单来讲,CriteriaQuery可以看作是传统SQL的对象化表示,如:Criteriacriteria=session.createCriteria(User.class);criteria.add(Expression.eq("name","Erica");criteria.add(Expression.eq("sex",newInteger(1)));这里的criteri
系统 2019-08-12 09:30:03 2099