爬虫即网络爬虫,英文是WebSpider。翻译过来就是网络上爬行的蜘蛛,如果把互联网看作一张大网,那么爬虫就是在大网上爬来爬去的蜘蛛,碰到想要的食物,就把他抓取出来。我们在浏览器中输入一个网址,敲击回车,看到网站的页面信息。这就是浏览器请求了网站的服务器,获取到网络资源。那么,爬虫也相当于模拟浏览器发送请求,获得到HTML代码。HTML代码里通常包含了标签和文字信息,我们就从中提取到我们想要的信息。通常爬虫是从某个网站的某个页面开始,爬取这个页面的内容,找
系统 2019-09-27 17:51:07 1849
作为Python程序员,应该能够正视Python的优点与缺点。众所周之,Python的运行速度是很慢的,特别是大数据量的运算时,Python会慢得让人难以忍受。对于这种情况,“专业”的解决方案是用上numpy或者opencl。不过有时候为了一点小功能用上这种重型的解决方案很不划算,或者有时候想要实现的操作在numpy里面没有,需要我们自己用C语言来编写。总之,我们使用Python与C++的混合编程能够加快程序热点的运算速度。首先要提醒大家注意的是,在考虑联
系统 2019-09-27 17:50:46 1849
说起Python强大的地方,你可能想到是它的优雅、简洁、开发速度快,社区活跃度高。但真正使得这门语言经久不衰的一个重要原因是它的无所不能,因为社区有各种各样的第三库,使得我们用Python实现一个东西实在是太简单了,你经常会看到几行代码实现爬虫,10行代码实现人脸识别,虽然有些夸张,但确实就是有这样的库帮你把所有的繁文缛节全部封装了,最后给你开放一个优雅的API。今天给你推荐的这个库叫“FuckIt.py”,名字一看就是很黄很暴力的那种,作者是这样介绍它的
系统 2019-09-27 17:50:33 1849
阅读更多Python调用hanlp的方法此前有分享过,本篇文章分享自“逍遥自在017”的博客,个别处有修改,阅读时请注意!1.首先安装jpype首先各种坑,jdk和python版本位数必须一致,我用的是JPype1-py3版本号0.5.5.2、1.6jdk和Python3.5,win764位下亲测没问题。否则死翘翘,有可能虚拟机都无法启动:出错调试,原因已说;测试成功会有输出。下面启动虚拟机跑hanlp2.下载各种安装包使用自定义的HanLP——HanLP
系统 2019-09-27 17:50:23 1849
原题|Left-recursivePEGgrammars作者|GuidovanRossum(Python之父)译者|豌豆花下猫(“Python猫”公众号作者)声明|本翻译是出于交流学习的目的,基于CCBY-NC-SA4.0授权协议。为便于阅读,内容略有改动。我曾几次提及左递归是一块绊脚石,是时候去解决它了。基本的问题在于:使用递归下降解析器时,左递归会因堆栈溢出而导致程序终止。【这是我的PEG系列的第5部分。其它文章参见这个目录】假设有如下的语法规则:ex
系统 2019-09-27 17:49:42 1849
一般来说,选择用于应用程序的GUI工具箱会是一件棘手的事。使用Python(许多语言也一样)的程序员可以选择的GUI工具箱种类繁多,而每个工具箱都有各自的优缺点。有些速度比其它工具箱快,有些比较小;有些易于安装,有些更适合于跨平台使用(对于这一点,还要指出,有些支持您需要满足的特定特性)。当然,各种库都相应具有各种许可证。对于Python程序员而言,缺省的GUI选择是Tk(通过Tkinter绑定)―其原因显而易见。Tkinter和闲置的IDE是由Pytho
系统 2019-09-27 17:49:34 1849
本文章面向有一定基础的python学习者,使用Pygame包开发一款简单的游戏首先打开命令行,使用PyPI下载Pygame包(输入命令pipinstallpygame)打开python编辑器(vs,IDLE,或其他),再引入包定义一些需要用到的数据先使用pygame包创建一个游戏窗口,然后使用循环将窗口展示出来,运行会出现下图现在定义一个可操控的小球类Player,draw()方法可以使它展示在屏幕上,update()方法让小球跟随鼠标移动类似的,定义不可
系统 2019-09-27 17:49:28 1849
本文实例讲述了Python利用神经网络解决非线性回归问题。分享给大家供大家参考,具体如下:问题描述现在我们通常使用神经网络进行分类,但是有时我们也会进行回归分析。如本文的问题:我们知道一个生物体内的原始有毒物质的量,然后对这个生物体进行治疗,向其体内注射一个物质,过一段时间后重新测量这个生物体内有毒物质量的多少。因此,问题中有两个输入,都是标量数据,分别为有毒物质的量和注射物质的量,一个输出,也就是注射治疗物质后一段时间生物体的有毒物质的量。数据如下图:其
系统 2019-09-27 17:48:59 1849
在Python3.x的世界里,cmp函数没有了。那么sorted,min,max等需要比较函数作为参数的函数该如何用呢?以min函数的定义为例,有两种重载形式:单参数(一个迭代器):复制代码代码如下:min(iterable[,key=func])->value多参数(多个待比较内容):复制代码代码如下:min(a,b,c,...[,key=func])->value本文主要讨论key=func参数的使用。举例说明吧:1.自定义对象的比较我定义了一个类te
系统 2019-09-27 17:48:44 1849
阅读更多万能的Python大法可以做很多有趣的事情,那我们今天来看看使用简单的Python来实现对一个网页的朗读吧!首先我们需要装一些必要的库:readability它是用来提取网页内的内容的pipinstallreadability-lxmlgoose它是一个文章提取器,我们用它来进行文章的提取pipinstallgoose3baidu-aip百度提供的PythonSDK,接口文档:http://ai.baidu.com/docs#/TTS-Online
系统 2019-09-27 17:48:22 1849