- 军军小站|张军博客
搜索到与相关的文章
Python

python2爬取百度贴吧指定关键字和图片代码实例

目的:在百度贴吧输入关键字和要查找的起始结束页,获取帖子里面楼主所发的图片思路:获取分页里面的帖子链接列表获取帖子里面楼主所发的图片链接列表保存图片到本地注意事项:问题:在谷歌浏览器使用xpathhelper插件时有匹配结果,但在程序里面使用python内带的xpath匹配却为空的原因。原因:不同服务器会对不同的浏览器返回不同的数据,导致在谷歌浏览器看到的和服务器返回的有区别解决方法:使用IE浏览器的User-agenet,而且越老的版本,报错几率相对越小

系统 2019-09-27 17:57:03 1916

Python

K近邻算法的python实现

前言在K近邻的原始算法中,没有对K近邻的方法进行优化,还是遍历训练集,找到与输入实例最近的K个训练实例,统计他们的类别,以此作为输入实例类别的判断。具体的模型理论见:统计学习方法——K近邻法(原始方法)1.K近邻算法的实现在算法实现的过程中,利用的是欧氏距离进行点与点之间的距离度量。在进行数据运算的时候,没有利用numpy,而是利用Python中自带的list来进行数据的计算。defknn(x,dataSet,labels,k):distanceMemor

系统 2019-09-27 17:56:59 1916

Python

python常用知识梳理(必看篇)

接触python已有一段时间了,下面针对python基础知识的使用做一完整梳理:1)避免‘\n'等特殊字符的两种方式:a)利用转义字符‘\'b)利用原始字符‘r'printr'c:\now'2)单行注释,使用一个#,如:#helloPython多行注释,使用三个单引号(或三个双引号),如:'''hellopythonhelloworld'''或"""hellopythonhelloworld"""另外跨越多行的字符串。也可以使用三个单引号或三个双引号,如:

系统 2019-09-27 17:56:22 1916

Python

Python3网络爬虫入门详解(一)

爬虫的概念:爬虫就是获取网页并提取和保存信息的自动化程序爬虫的分类:主要有四类:通用网络爬虫,聚焦网络爬虫,增量式网络爬虫,深层网络爬虫爬虫的流程:常见的几种爬虫问题:主要有五类:静态网页的爬取,Ajax数据的爬取,动态渲染页面爬取,验证码的识别,代理的使用常见的爬虫框架:pyspider框架,Scrapy框架分布式爬虫:在多台机器上运行爬虫程序爬虫的一些常用"库":解析库:lxml;BeautifulSoup;pyquery;tesserocr请求库:r

系统 2019-09-27 17:56:05 1916

Python

详解python函数的闭包问题(内部函数与外部函数详述)

python函数的闭包问题(内嵌函数)>>>deffunc1():...print('func1running...')...deffunc2():...print('func2running...')...func2()...>>>func1()func1running...func2running...内部函数func2作用域都在外部函数func1作用域之内如果试图在外部函数的外部调用内部函数将会报错>>>func2()Traceback(mostre

系统 2019-09-27 17:54:55 1916

Python

python自定义时钟类、定时任务类

这是我使用python写的第一个类(也算是学习面向对象语言以来正式写的第一个解耦的类),记录下改进的过程。分析需求最初,因为使用time模块显示日期时,每次都要设置时间字符串的格式,挺麻烦,但还是忍了。后来,在处理多线程任务时需要实现定时控制的功能,更麻烦,终于决定自己做一个解决这些问题的通用代码(虽然网上有现成的模块,但亲手编写这部分代码正好能锻炼一下我的面向对象编程)。分析框架刚开始,我计划做一个模仿时钟的抽象类,让它独立运行在一个线程中,让它提供显示

系统 2019-09-27 17:54:34 1916

Python

Python列表/字典操作 时间复杂度

文章目录Python列表/字典操作时间复杂度#1环境#2List#3Dict#字典的特性Python列表/字典操作时间复杂度#1环境Python3.7.3#2List操作操作说明时间复杂度index(value)查找list某个元素的索引O(1)a=index(value)索引赋值O(1)append(value)队尾添加O(1)pop()队尾删除O(1)pop(index)根据索引删除某个元素O(n)insert(index,value)根据索引插入某个

系统 2019-09-27 17:54:13 1916

Python

python-main

基础1、判断变量是否为None主要有三种写法:ifxisNone:ifnotx:ifnotxisNone:2、lambda函数的用法被称作匿名函数,没有具体名称的函数,允许快速定义单行函数,可以用在任何需要函数的地方。lambda与def的区别:def创建方法是有名称的,lambda没有;lambda会返回一个函数对象,但这个对象不会赋给一个标识符,而def会把函数对象赋值给一个变量;lambda只是一个表达式,def是一个语句;lambda表达式":"后

系统 2019-09-27 17:53:57 1916

Python

当一个学了20分钟python turtle 的人画滑稽会怎样

python3.7链接:https://pan.baidu.com/s/1Lob447oqCgD6nb39sB9cig提取码:vn0apycharm链接:https://pan.baidu.com/s/1BndDvTG1hPnBmq5leu3gDQ提取码:3jus#huajiimportturtleast#-------------脸t.setup(960,959,0,0)t.color("orange")t.pensize("25")t.penup()t

系统 2019-09-27 17:53:49 1916

Python

利用Python爬取豆瓣电影

目标:使用Python爬取豆瓣电影并保存MongoDB数据库中我们先来看一下通过浏览器的方式来筛选某些特定的电影:我们把URL来复制出来分析分析:https://movie.douban.com/tag/#/?sort=T&range=0,10&tags=%E7%94%B5%E5%BD%B1,%E7%88%B1%E6%83%85,%E7%BE%8E%E5%9B%BD,%E9%BB%91%E5%B8%AE有3个字段是非常重要的:1.sort=T2.range

系统 2019-09-27 17:52:44 1916