阅读更多分词工具的选择:现在对于中文分词,分词工具有很多种,比如说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,并且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,并且分词效果还很不错。分词前的准备:待分词的中文文档存放分词之后的结果文档中文停用词文档(用于去停用词,在网上可以找到很多)分词之后的结果呈现:图1去停用词和分词前的中文文档图2去停用词和分词之后的结果文档分词和去停用词代码
系统 2019-09-27 17:47:54 2308
介绍aiohttp是python的一个异步网络模块,包含客户端和服务端模块。相比requests模块,除了是异步写法外,大同小异,其速度比requests模块快。python的多线程有全局解释器锁(GIL),使用多线程实际上同一时刻仅有一个线程在执行,使用协程的相对比较快,可以再配合多进程使用。基本用法安装使用pip命令安装即可。pipinstallaiohttp发起请求aiohttp模块需要配合python自带的asyncio模块使用,以下代码为发起客户
系统 2019-09-27 17:47:13 2308
一.垃圾回收机制Python中的垃圾回收是以引用计数为主,分代收集为辅。引用计数的缺陷是循环引用的问题。在Python中,如果一个对象的引用数为0,Python虚拟机就会回收这个对象的内存。#encoding=utf-8__author__='kevinlu1010@qq.com'classClassA():def__init__(self):print'objectborn,id:%s'%str(hex(id(self)))def__del__(self
系统 2019-09-27 17:45:35 2308
前一篇已经介绍过BASE页与index静态页面的开发了,但是目前index静态页面的输入框与提交按钮其实是没有任何作用的。如果需要与后台交互,还需要在数据库创建相应的表格,以及编写对应的业务逻辑去操作数据库。本篇我们暂时不去弄数据库,还是先对学生登录成功后的页面,编辑导航BASE页以及非BASE页的静态页面。之前聊过:【实战演练】Python+Django网站开发系列02-Django完整开发环境部署https://blog.51cto.com/14423
系统 2019-09-27 17:56:28 2307
在python中有个特殊的符号“*”,可以用做数值运算的乘法算子,也是用作对象的重复算子,但在作为重复算子使用时一定要注意注意的是:*重复出来的各对象具有同一个id,也就是指向在内存中同一块地址,在对各个对象进行操作是一定要注意。举例来说:>>>alist=[range(3)]*4>>>alist[[0,1,2],[0,1,2],[0,1,2],[0,1,2]]上面初始化一个二层列表用来模拟矩阵,该矩阵式4X3的,为描述方便,这里记矩阵为A。现在我想给A1
系统 2019-09-27 17:53:32 2307
前言我们在使用python开发的过程中时常听到GIL这个词,并且发现这个词经常和Python无法高效的实现多线程关联在一起,关于python多线程的实现在前面的文章已经介绍过,本文我们主要来了解一下GIL到底是什么?为什么会影响python的多线程。一、什么是GILGIL全称GlobalInterpreterLock,官方给出的解释如下:InCPython,theglobalinterpreterlock,orGIL,isamutexthatprevent
系统 2019-09-27 17:53:19 2307
花下猫语:Python之父在Medium上开了博客,现在写了两篇文章,本文是第二篇的译文。前一篇的译文在此,宣布了将要用PEG解析器来替换当前的pgen解析器。本文主要介绍了构建一个PEG解析器的大体思路,并介绍了一些基本的语法规则。根据Python之父的描述,这个PEG解析器还是一个很笼统的实验品,而他也预告了,将会在以后的系列文章中丰富这个解析器。阅读这篇文章就像在读一篇教程,虽然很难看懂,但是感觉很奇妙:我们竟然可以见证Python之父如何考虑问题、
系统 2019-09-27 17:51:49 2307
学习python以来的第一爬虫,参考《Python3网络爬虫开发实践》爬取目标为:猫眼电影Top100榜完全是依葫芦画瓢,首先请求网页内容,然后在通过正则表达式提取自己感兴趣的数据,最后转成json格式存入文本文件。importjsonimporttimeimportrequestsimportredefget_one_page(url):headers={'User-agent':'Mozilla/5.0(Macintosh;IntelMacOSX10_
系统 2019-09-27 17:50:24 2307
练习介绍要求:请使用多协程和队列,爬取时光网电视剧TOP100的数据(剧名、导演、主演和简介),并用csv模块将数据存储下来。时光网TOP100链接:http://www.mtime.com/top/tv/top100/目的:1.练习掌握gevent的用法2.练习掌握queue的用法fromgeventimportmonkey#gevent从库里导入monkey模块monkey.patch_all()#能把程序变成协作式运行,就是可以帮助程序实现异步imp
系统 2019-09-27 17:50:08 2307
pandas主要有三个用来删除的函数,.drop()、.drop_duplicates()、.dropna()。总结如下.drop()删除行、列.drop_duplicates()删除重复数据.dropna()删除空值(所在行、列)为避免篇幅太长,将其分为两部分,不想看参数介绍的可以直接看实例。本篇介绍.drop_duplicates(),df.dropnadrop_duplicates()的用法df.drop_duplicates()则通常用于数据去重,
系统 2019-09-27 17:49:32 2307
在python中,任务并发一种方式是通过进程分支来实现的.在linux系统在,通过fork()方法来实现进程分支.1.fork()调用后会创建一个新的子进程,这个子进程是原父进程的副本.子进程可以独立父进程外运行.2.fork()是一个很特殊的方法,一次调用,两次返回.3.fork()它会返回2个值,一个值为0,表示在子进程返回;另外一个值为非0,表示在父进程中返回子进程ID.以下只能在linux中运行,不能在window下运行.进程分支fork()实例如
系统 2019-09-27 17:47:07 2307
python中,list这种数据结构很常用到,如果两个或者多个list结构相同,内容类型相同,我们通常会将两个或者多个list合并成一个,这样我们再循环遍历的时候就可以一次性处理掉了。所以如何将两个或者多个list合并成一个就是我们接下来要讲的内容哦python合并list方法1,运算符:list1=[1,2,3]list2=[4,5,6]list3=list1+list2print(list3)方法2,extend()方法:list1=[1,2,3]li
系统 2019-09-27 17:38:22 2307
Python字典的创建方法一:>>>blank_dict={}>>>product_dict={'MAC':8000,'Iphone':5000,'ipad':4000,'mp3':300}>>>product_dict{'ipad':4000,'MAC':8000,'Iphone':5000,'mp3':300}>>>blank_dict,product_dict({},{'ipad':4000,'MAC':8000,'Iphone':5000,'mp3
系统 2019-09-27 17:37:59 2307
相对于自动化测试工具QTP来说,selenium小巧、免费,而且兼容Google、FireFox、IE多种浏览器,越来越多的人开始使用selenium进行自动化测试。我是使用的python2.7,下面说一下selenium+Python的自动化测试环境搭建。安装Python环境,从python官网下载安装包双击安装包,进行安装可以选择python的安装目录,按步骤安装,直至完成。在早期的版本中,需要单独安装setuptools和pip,在新的python安
系统 2019-09-27 17:37:51 2307
原文链接:https://blog.csdn.net/asialee_bird/article/details/796738601、方法一:#python的标准库手册推荐在任何情况下尽量使用time.clock().#只计算了程序运行CPU的时间,返回值是浮点数importtimestart=time.clock()#中间写上代码块end=time.clock()print('Runningtime:%sSeconds'%(end-start))#运行结果
系统 2019-09-27 17:57:30 2306