- 军军小站|张军博客
搜索到与相关的文章
Python

【Python3网络爬虫开发实战】7.4-使用Selenium爬取淘宝商品

【摘要】在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取。比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可能会包含加密密钥等,所以如果想自己构造Ajax参数,还是比较困难的。对于这种页面,最方便快捷的抓取方法就是通过Selenium。本节中,我们就用Selenium来模拟浏览器操作,抓取淘宝的商品信息,并将结果保存到MongoDB。1.本节目标本节中,我们

系统 2019-09-27 17:54:29 1788

Python

Python面向对象编程——总结面向对象的优点

Python面向对象编程——总结面向对象的优点一、从代码级别看面向对象1、在没有学习类这个概念时,数据与功能是分离的defexc1(host,port,db,charset):conn=connect(host,port,db,charset)conn.execute(sql)returnxxxdefexc2(host,port,db,charset,proc_name)conn=connect(host,port,db,charset)conn.call

系统 2019-09-27 17:53:53 1788

Python

Python3 能振兴 Python的原因分析

我从StephenA.Goss那读到关于了《Python3正在毁灭Python》。这篇文章有不少精彩的论点,但我却并不认为Python3是在毁灭Python,也不认为整个局面对Python一点也不利。但是正如那些比较俗气的格言所说,也许每一次危机也意味着一次机遇。也许Python3能振兴Python。显然,麻烦的不仅仅是Python2到Python3的移植。时间不再是2005年了,年轻的程序员不再对Python的哪一个版本如此的激动了。不错,现在市场上有很

系统 2019-09-27 17:53:46 1788

Python

Linux下Python获取IP地址的代码

《lnmp一键安装包》中需要获取ip地址,有2种情况:如果服务器只有私网地址没有公网地址,这个时候获取的IP(即私网地址)不能用来判断服务器的位置,于是取其网关地址用来判断服务器在国内还是国外(脚本为了使国内用户快速下载,yum源自动设置成163,这个情况就需要获取网关地址);如果服务器有公网地址,这时获取的IP地址可用来直接判断服务器地理位置。获取服务器IP,如果有公网地址就取公网地址,没有公网地址就取私网网址下面是之前我用shell来获取本地IP脚本:

系统 2019-09-27 17:53:41 1788

Python

Python爬虫工具篇 - 必会用的6款Chrome插件

在日常PC端的Python爬虫过程工作中,Chrome浏览器是我们常用的一款工具。鉴于Chrome浏览器的强大,Chrome网上应用商店很多强大的插件可以帮助我们快速高效地进行数据爬虫。今天推荐的6款Chrome插件,可以大大提升我们的爬虫效率。EditThisCookieEditThisCookie是一个Cookie管理器,可以很方便的添加,删除,编辑,搜索,锁定和屏蔽Cookies。可以将登录后的Cookies先保存到本地,借助cookielib库,直

系统 2019-09-27 17:53:24 1788

Python

python爬虫 模拟登录人人网过程解析

requests提供了一个叫做session类,来实现客户端和服务端的会话保持使用方法1.实例化一个session对象2.让session发送get或者post请求session=requests.session()session.get(url,headers)下面就用人人网来实战一下#coding=utf-8importrequestssession=requests.session()#登录的表单urlpost_url="http://www.ren

系统 2019-09-27 17:53:16 1788

Python

python爬虫 urllib模块url编码处理详解

案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据)importurllib.request#1.指定urlurl='https://www.sogou.com/web?query=周杰伦''''2.发起请求:使用urlopen函数对指定的url发起请求,该函数返回一个响应对象,urlopen代表打开url'''response=urllib.request.urlopen(url=url)#3.获取响应对象中的页面数据:r

系统 2019-09-27 17:53:11 1788

Python

python 虚拟环境

mkvirtualenv-ppython3环境名创建虚拟环境rmvirtualenv环境名删除环境进入虚拟环境workon环境名(workon+tab可以出来所有环境)查看环境下所有包pip3list查看环境下安装的包(不包括原生python包)pip3freeze依赖包文件生成pip3freeze>requirements.txt环境导入依赖包pip3install-rrequirements.txt普通安装pip3install包名这是linux下的指

系统 2019-09-27 17:52:34 1788

Python

Python中使用select模块实现非阻塞的IO

Socket的英文原义是“孔”或“插座”。作为BSDUNIX的进程通信机制,取后一种意思。通常也称作”套接字”,用于描述IP地址和端口,是一个通信链的句柄。在Internet上的主机一般运行了多个服务软件,同时提供几种服务。每种服务都打开一个Socket,并绑定到一个端口上,不同的端口对应于不同的服务。Socket正如其英文原意那样,像一个多孔插座。一台主机犹如布满各种插座的房间,每个插座有一个编号,有的插座提供220伏交流电,有的提供110伏交流电,有的

系统 2019-09-27 17:52:33 1788

Python

Windows系统下安装Python的SSH模块教程

Python中使用SSH需要用到OpenSSH,而OpenSSH依赖于paramiko模块,而paramiko模块又依赖于pycrypto模块,因此要在Python中使用SSH,则需要先安装模块顺序是:pycrypto->ecdsa->paramiko1、安装pyCrypto安装这个比较麻烦,需要本地编译,要装vs或gcc还有一堆配置,还不一定能编译成功。(网上能搜到安装步骤)建议直接下载已编译版:http://www.voidspace.org.uk/p

系统 2019-09-27 17:52:27 1788