- 军军小站|张军博客
搜索到与相关的文章
Python

【Python3网络爬虫开发实战】7.4-使用Selenium爬取淘宝商品

【摘要】在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取。比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可能会包含加密密钥等,所以如果想自己构造Ajax参数,还是比较困难的。对于这种页面,最方便快捷的抓取方法就是通过Selenium。本节中,我们就用Selenium来模拟浏览器操作,抓取淘宝的商品信息,并将结果保存到MongoDB。1.本节目标本节中,我们

系统 2019-09-27 17:54:29 1821

Python

python从入门到进阶整理书单推荐(近100本)

点击查看:程序员的闲置书籍该怎么处理,进来讨论下关注“资料在线”微信公众号,获取近百本python中英文电子书Python非常灵活,让实验变得容易。解决简单问题的方法简单而优雅。Python为新手程序员提供了一个很好的实验室。Python具有一些特征,使其成为第一种编程语言的接近完美的选择。Python基本结构简单、干净、设计精良,使学生能够专注于算法思维和程序设计的主要技能,而不会陷入晦涩难解的语言细节。在Python中学习的概念可以直接传递给后续学习的

系统 2019-09-27 17:54:08 1821

Python

库函数tf.conv2d()卷积的python实现

话不多说,代码说话:importnumpyasnpimportmathclassConv2D(object):def__init__(self,shape,output_channels,ksize=3,stride=1,method='VALID'):self.input_shape=shapeself.output_channels=output_channelsself.input_channels=shape[-1]self.batchsize=s

系统 2019-09-27 17:54:06 1821

Python

Python爬虫抓取技术的一些经验

前言web是一个开放的平台,这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展。然而,正所谓成也萧何败也萧何,开放的特性、搜索引擎以及简单易学的html、css技术使得web成为了互联网领域里最为流行和成熟的信息传播媒介;但如今作为商业化软件,web这个平台上的内容信息的版权却毫无保证,因为相比软件客户端而言,你的网页中的内容可以被很低成本、很低的技术门槛实现出的一些抓取程序获取到,这也就是这一系列文章将要探讨的话题――网络爬虫。有很多人认为w

系统 2019-09-27 17:54:02 1821

Python

Python中的 is 和 == 以及字符串驻留机制详解

is和==先了解下官方文档中关于is和==的概念。is表示的是对象标示符(objectidentity),而==表示的是相等(equality);is的作用是用来检查对象的标示符是否一致,也就是比较两个对象在内存中的地址是否一样(相当于检查id(a)==id(b)),而==是用来检查两个对象引用的值是否相等(相当于检查a.eq(b));这点和Java有点类似,只不过Java中是用==来比较两个对象在内存中的地址,用equals()来检查两者之间的值是否相等

系统 2019-09-27 17:53:56 1821

Python

python实现罗汉塔破解方法

主要使用函数的递归方法,考虑过程如下:n,a,b,c(n代表罗汉塔块数,a,b,c代表三块柱子)若n=1时,只需从a》》》c若n>1时,需要把上面n-1块从a移动到b,底下1块从a移动到c,再把b上n-1移动到c函数实现如下:defmove(n,a,b,c):ifn==1:print(a,'>>>',c)else:move(n-1,a,c,b)move(1,a,b,c)move(n-1,b,a,c)print(move(3,'a','b','c'))

系统 2019-09-27 17:53:43 1821

Python

Linux下Python获取IP地址的代码

《lnmp一键安装包》中需要获取ip地址,有2种情况:如果服务器只有私网地址没有公网地址,这个时候获取的IP(即私网地址)不能用来判断服务器的位置,于是取其网关地址用来判断服务器在国内还是国外(脚本为了使国内用户快速下载,yum源自动设置成163,这个情况就需要获取网关地址);如果服务器有公网地址,这时获取的IP地址可用来直接判断服务器地理位置。获取服务器IP,如果有公网地址就取公网地址,没有公网地址就取私网网址下面是之前我用shell来获取本地IP脚本:

系统 2019-09-27 17:53:41 1821

Python

Python Queue模块详解

Python中,队列是线程间最常用的交换数据的形式。Queue模块是提供队列操作的模块,虽然简单易用,但是不小心的话,还是会出现一些意外。创建一个“队列”对象importQueueq=Queue.Queue(maxsize=10)Queue.Queue类即是一个队列的同步实现。队列长度可为无限或者有限。可通过Queue的构造函数的可选参数maxsize来设定队列长度。如果maxsize小于1就表示队列长度无限。将一个值放入队列中q.put(10)调用队列对

系统 2019-09-27 17:53:36 1821

Python

【Python】注释

微信订阅号:Rabbit_svip本次笔记基于python3.7在大多数编程语言中,注释都是一项非常有用且常用的功能。在python中有3种注释方法。以#号开头三个单引号(''')三个双引号(""")以#号开头#sayhiprint("HelloWorld!")print("Python~")#这是一条注释#号后面跟着的部分都属于注释。#号适合用在单行注释。三个单引号(''')和三个双引号(""")'''这是多行注释,使用单引号。这是多行注释,使用单引号。

系统 2019-09-27 17:53:23 1821

Python

Python 字符编码处理总结

Python中经常遇到这样那样的字符编码问题,尤其在处理网页源码时(特别是爬虫中):UnicodeDecodeError:‘XXX'codeccan'tdecodebytesinposition12-15:illegalmultibyte...每次看到上面这段文字的时候,感觉整个世界都昏暗了,然后就只能各种搜索找资料,过后就忘了。下次遇到时就让世界再昏暗一次。为了彻底解决这个拦路虎,今天咱们就好好的来唠嗑唠嗑。下面以汉字'哈'来解释作示例解释所有的问题,汉

系统 2019-09-27 17:53:00 1821