作者:伏草惟存来源:http://www.cnblogs.com/baiboy/p/nltk2.htmlPython的几个自然语言处理工具1.NLTK:NLTK在用Python处理自然语言的工具中处于领先的地位。它提供了WordNet这种方便处理词汇资源的借口,还有分类、分词、除茎、标注、语法分析、语义推理等类库。2.Pattern:Pattern的自然语言处理工具有词性标注工具(Part-Of-SpeechTagger),N元搜索(n-gramsearc
系统 2019-09-27 17:51:09 2043
事情是这样的,我写了一个tornado的服务,过程当中我用logging记录一些内容,由于一开始并没有仔细观察tornado自已的日志管理,所以我就一般用debug来记录普通日志,error记录有问题的日志,但是当服务跑起来以后才发现,tornado的访问日志的级别是info,也就是20,debug是10的,所以如果我定义了日志的级别是debug,那么默认情况下肯定也会输出到日志文件中的。但是我现在并不关心访问日志,而且由于我这个服务可能每时每刻都会有访问
系统 2019-09-27 17:50:30 2043
Python2的字符串有两种:str和Unicode,Python3的字符串也有两种:str和Bytes。Python2的str相当于Python3的Bytes,而Unicode相当于Python3的Bytes。Python2里面的str和Unicode是可以混用的,在都是英文字母的时候str和unicode没有区别。而Python3严格区分文本(str)和二进制数据(Bytes),文本总是Unicode,用str类型,二进制数据则用Bytes类型表示,这
系统 2019-09-27 17:50:25 2043
一、缘起前不久,我在翻译GuidovanRossum(Python之父)的文章时,给他留言,申请非商业用途的翻译授权。过程中起了点小误会,略去不表,最终的结果是:他的文章以CCBY-NC-SA4.0许可协议进行授权。部分对话如下:CC协议是一种授权许可协议,我曾看到过几次,但了解不多,所以便查阅了相关的内容。本文主要是作个记录,既是加深自己的理解,也给有需要的同学一个参考。二、著作权、著佐权与自由版权对于知识产权,通常有如下几种说法:AllRightsRe
系统 2019-09-27 17:50:18 2043
createtime:2019年7月17日我在网上找了好多,现在基本实现了传输视频的功能,其思路是:首先得先了解如何使用openCV采集摄像头数据,其次得了解pythonsocket网络编程。因为socket不能直接传输openCV采集的数据,所以还需要转码操作。在下个版本,我用的类的方式实现了视频传输,这个版本先用平常方法实现的,也是一个客户端,一个服务端。服务端#!/usr/bin/python#-*-coding:utf-8-*-importsock
系统 2019-09-27 17:50:02 2043
以下实例为通过用户输入两个数字,并计算两个数字之和:#-*-coding:UTF-8-*-#Filename:test.py#authorby:www.runoob.com#用户输入数字num1=input('输入第一个数字:')num2=input('输入第二个数字:')#求和sum=float(num1)+float(num2)#显示计算结果print('数字{0}和{1}相加结果为:{2}'.format(num1,num2,sum))执行以上代码输
系统 2019-09-27 17:49:48 2043
数据类型:float―浮点数可以精确到小数点后面15位int―整型可以无限大bool―非零为true,零为falselist―列表Float/Int:运算符:/―浮点运算除//―当结果为正数时,取整;11//5=2;11//4=2当结果为负数时,向下取整;-11//5=-3;-11//4=-3当分子分母都是float,结果为float型**―计算幂;11**2=121%―取余其他数学运算:1.分数:importfractions;fractions.Fra
系统 2019-09-27 17:47:01 2043
目的测试一个对象是否是字符串方法Python的字符串的基类是basestring,包括了str和unicode类型。一般可以采用以下方法:复制代码代码如下:defisAString(anobj):returnisinstance(anobj,basestring)不过以上方法对于UserString类的实例,无能无力。复制代码代码如下:In[30]:b=UserString.UserString('abc')In[31]:isAString(b)Out[3
系统 2019-09-27 17:46:56 2043
发送端代码:#!/usr/bin/python#-*-coding:UTF-8-*-importsocketimportstructraw_socket=socket.socket(socket.PF_PACKET,socket.SOCK_RAW,socket.htons(0x1234))raw_socket.bind(("eth0",0))packet=struct.pack("!6s6sH","\xff\xff\xff\xff\xff\xff","\x
系统 2019-09-27 17:46:50 2043
如果直接对大文件对象调用read()方法,会导致不可预测的内存占用。好的方法是利用固定长度的缓冲区来不断读取文件内容。即通过yield。在用Python读一个两个多G的txt文本时,天真的直接用readlines方法,结果一运行内存就崩了。还好同事点拨了下,用yield方法,测试了下果然毫无压力。咎其原因,原来是readlines是把文本内容全部放于内存中,而yield则是类似于生成器。代码如下:defopen_txt(file_name):withope
系统 2019-09-27 17:38:24 2043