拥有Python标签的文章
Python

Python爬虫运用正则表达式的方法和优缺点

前言我看到最近几部电影很火,查了一下猫眼电影上的数据,发现还有个榜单,里面有各种经典和热映电影的排行榜,然后我觉得电影封面图还挺好看的,想着一张一张下载真是费时费力,于是突发奇想,好像可以用一下最近学的东西实现我的需求,学习了正则表达式之后,想着要感受一下它在爬虫里面的效果和优缺点。目标:爬取Top100榜单上电影的封面图Top100榜单规则:将猫眼电影库中的经典影片,按照评分和评分人数从高到低综合排序取前100名,每天上午10点更新。相关数据来源于“猫眼

系统 2019-09-27 17:48:31 2351

Python

python import 机制初探

引子考虑有如下代码结构.├──cat│├──__init__.py│├──cat.py│└──moo.py└──dog├──__init__.py└──dog.py2directories,5files情况1:#./cat/cat.pyimportmoo其余文件为空。如果我们用运行命令:pythoncat/cat.py,则程序正常运行;如果运行命令;python-mcat.cat,则会报错;情况2:#./cat/cat.pyfrom.importmoo则运

系统 2019-09-27 17:45:35 2351

Python

bat和python批量重命名文件的实现代码

最近从某网站下载了一批文档,但是文件是用数字串命名的文档(很多图书馆都这样吧),现在我也下载完了这些文件,也有这些文件的列表,就是不能一个一个的把文件给重命名吧所以从网上找了这几个脚本。一、使用bat脚本(windows系统默认可用)打开记事本,将这些代码写入记事本,另存为xx.bat文件(注意后缀名,很多小白保存成了xx.bat.txt,因为txt是隐藏的,以为不行)@echoofffor/r“d:\pdf”%%ain(*.pdf)do(for/f“to

系统 2019-09-27 17:38:41 2351

Python

Python之基本数据类型概览

Python之基本数据类型概览什么是数据类型?每一门编程语言都有自己的数据类型,例如最常见的数字1,2,3.....,字符串'小明','age','&D8'...,这些都是数据类型中的某一种。数据类型在数据结构中的定义是一组性质相同的值的集合以及定义这个值集合上的一组操作的总成。本节先介绍4种数据类型——数字、字符串、布尔类型、列表。在后续更新的章节中会详细介绍Python中所有的数据类型。一、数字1、int(整型)在64位的操作系统上,整数的二进制位数为

系统 2019-09-27 17:57:33 2350

Python

Python中单线程、多线程和多进程的效率对比实验实例

python的多进程性能要明显优于多线程,因为cpython的GIL对性能做了约束。Python是运行在解释器中的语言,查找资料知道,python中有一个全局锁(GIL),在使用多进程(Thread)的情况下,不能发挥多核的优势。而使用多进程(Multiprocess),则可以发挥多核的优势真正地提高效率。对比实验资料显示,如果多线程的进程是CPU密集型的,那多线程并不能有多少效率上的提升,相反还可能会因为线程的频繁切换,导致效率下降,推荐使用多进程;如果

系统 2019-09-27 17:56:12 2350

Python

写博客没高质量配图?python爬虫教你绕过限制一键搜索下载图虫创意图片!

目录前言分析理想状态爬虫实现其他注意效果与总结@(文章目录)前言在我们写文章(博客、公众号、自媒体)的时候,常常觉得自己的文章有些老土,这很大程度是因为配图没有选好。笔者也是遇到相同的情况,顺便解决其中一个案例,给大家一些技术上的参考和借鉴!并且,我们搜图片如果去百度,会遇到两种情况:非高清或者带水印。这都是我们所忌讳的东西。笔者此次通过图虫创意抓起高清小图,虽然不是大图,但是在火热的移动端阅读上是足够的!分析废话说完了,我们开始分析怎么样才能获取这样的图

系统 2019-09-27 17:55:43 2350

Python

linux安装python3及基本配置

Centos7自带python2.7,我们不对它进行升级,而是使用源码安装python3,让二者共存。这样可以保证系统中使用python2.7的软件正常运行。首先看看成功安装python3后,软链接的依赖关系,也包括python2.7的依赖关系:[root@localhost~]#ll/usr/bin/python*lrwxrwxrwx.1rootroot7Jun1306:30/usr/bin/python->python2lrwxrwxrwx.1root

系统 2019-09-27 17:52:13 2350

Python

Python配置虚拟环境图文步骤

使用Python进行项目开发时,由于不同的项目需要,可能会配置多个开发环境,不同开发环境之间的项目依赖包如果混合在一起,可能会引起意想不到的错误,本文主要介绍如何通过虚拟环境隔离不同开发环境,方便不同开发环境的共存。安装Python,本文以Python3.4为例。关于如何安装Python3.4,请参考其他经验,本文不在重复赘述。注意:将安装目录添加到环境变量中,否则无法在其他目录启动python。安装成功后截图如下所示:进入Python安装目录中的脚本目录

系统 2019-09-27 17:49:21 2350

Python

python basemap 画出经纬度并标定的实例

如下所示:两个函数:Basemap.drawparallels##纬度Basemap.drawmeridians##经度frommpl_toolkits.basemapimportBasemapimportmatplotlib.pyplotaspltimportnumpyasnp#setupLambertConformalbasemap.m=Basemap(width=12000000,height=9000000,projection='lcc',res

系统 2019-09-27 17:48:51 2350

Python

Python实现决策树并且使用Graphviz可视化的例子

一、什么是决策树(decisiontree)――机器学习中的一个重要的分类算法决策树是一个类似于数据流程图的树结构:其中,每个内部节点表示一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或者类的分布,树的最顶层是根结点根据天气情况决定出游与否的案例二、决策树算法构建2.1决策树的核心思路特征选择:从训练数据的特征中选择一个特征作为当前节点的分裂标准(特征选择的标准不同产生了不同的特征决策树算法)。决策树生成:根据所选特征评估标准,从上至下递

系统 2019-09-27 17:47:26 2350

Python

用python带孩子过一个快乐的“六一”

这个周末是六一,笔者分享一下给孩子做的一个小程序,这样的例子需要有趣、简单有动画效果,所以我就用python的dash_bio给孩子展示了DNA的分子结构,效果不错:)dash_bio库的安装·首先是安装dash_bio库,他的例程是基于python2.7的,不过python3应该也行,稍微改一下代码即可。执行下列语句即可完成安装。这其中没遇到什么坑。pipinstalldash-bio==0.0.10pipinstalldash_html_compone

系统 2019-09-27 17:45:49 2350

Python

Python 中的 else详解

我们都知道Python中else的基本用法是在条件控制语句中的if...elif...else...,但是else还有两个其它的用途,一是用于循环的结尾,另一个是用在错误处理的try中。这原本是Python的标准语法,但由于和大部分其它编程语言的习惯不太一样,致使人们有意或无意地忽略了这些用法。另外,对于这些用法是否符合0×00TheZenofPython的原则以及该不该广泛使用也存在很多争议。例如在我看到的两本书里(EffectivePythonVSWr

系统 2019-09-27 17:37:37 2350

Python

查看Python依赖包及其版本号信息的方法

查看依赖包及对应的版本号信息的方法有两种:方法1:piplist方法2:pipfreeze这两个同时适用于Windows和Linux系统当pip版本过低时,会出现list命令不存在,且freeze命令报错的情况。Eg:有些Linux系统自带的Python环境所对应的pip版本为1.0.2,如下图所示:在该环境下执行piplist,报pip:error:Nocommandbythenamepiplist错误,如下图所示:执行piphelp可以发现,可执行命令

系统 2019-09-27 17:57:17 2349

Python

python高级编程——网络编程(三)

TCP和并发服务器与UDP不同的是,他是一个面向连接的,可靠的数据传输协议TCP通信比较复杂先写一个TCP服务器,一般步骤如下:1、首先是要创建一个socket套接字:socket()2、服务器一般是需要一个固定的IP地址和固定端口号,服务器就要绑定这个IP地址和端口号:bind()3、客户端连接服务器是是有一定的数量(允许最大连接数)的,而这个数量是服务器设定的:listen()4、上面3步是做被连接的准备,这一步是来接受客户端的数据,在接受数据之前,服

系统 2019-09-27 17:56:05 2349

Python

Python爬虫新手教程: 知乎文章图片爬取器

1.知乎文章图片爬取器之二博客背景昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中去。首先,需要获取任意知乎的问题,只需要你输入问题的ID,就可以获取相关的页面信息,比如最重要的合计有多少人回答问题。问题ID为如下标红数字编写代码,下面的代码用来检测用户输入的是否是正确的ID,并且通过拼接URL去获取该问题下面合计有多少答案。在学习过程中有什么

系统 2019-09-27 17:55:50 2349