搜索到与相关的文章
编程技术

【分词】正向最大匹配中文分词算法

中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。在这里我想介绍一下中文分词的一个最基础算法:最大匹配算法(MaximumMatching,以下简称MM算法)。MM算法有两种:一种正向最大匹配,一种逆向最大匹配。●算法思想正向最大匹配算法:从左到右将待分词文本中的几个

系统 2019-08-29 21:59:36 2050

Python

python学习手册笔记——39.元类

00.比99%的用户所担心的魔力要更深。如果你犹豫是否需要他们,那你不需要它们(真正需要元类的人,能够确定地直到需要它们,并且不需要说明为什么需要)。“因为某物很酷”而编写它,似乎不是一种合理的判断,除非你在做试验或者学习。01.元类就是用来创建类的“东西”。你创建类就是为了创建类的实例对象。02.03.元类的主要目的就是为了当创建类时能够自动地改变类。04.元类修改:内省属性:__class__和__dict__这样的特殊属性允许我们查看Python对象

系统 2019-09-27 17:57:31 2049

Python

解决Python内层for循环如何break出外层的循环的问题

偶然发现了for…else…这种用法,使用这个实现了break跳出嵌套的for循环In[31]:foriinrange(1,5):...:forjinrange(5,10):...:print(i,j)...:ifj==6:...:break...:else:...:continue...:break1516for…else…的运行逻辑是当for循环正常执行结束就会运行其else语句,如果中途break的话,就不会执行else中的内容上面的代码实现了内存f

系统 2019-09-27 17:57:18 2049

Python

python爬虫urllib的request与parse方法

在爬虫前,需要知道这两个知识点!!!字符串转字节类型str-->bytesencode()字节类型转字符串bytes-->strdecode()1.以一个简单的例子讲解urllib.request方法read读取相应内容,内容geturl获取请求的urlgetheaders获取头部信息getcode获取状态码readlines按行读取,返回列表,都是字节类型1.1获取百度的网页代码importurllib.requesturl="https://www.b

系统 2019-09-27 17:57:13 2049

Python

第16课 python 编码和文件读写

编码0,12进制,8,16进制;ACSII是127个不到1个byte=8bit由于时间发现欧洲使用第8个bit,有256个字符,到了中国不足够。所以中国人gb2312,gbk开发。。为了python程序方便。。。不能说python,世界和平,规定了unicode(在内存运营)unicode不人性化,什么都要占2个byte16个bit,然后utf-8出现了机会。。。。中文3个byte,英文1个byte..#####################"aaa".

系统 2019-09-27 17:56:48 2049

Python

详解python脚本自动生成需要文件实例代码

python脚本自动生成需要文件在工作中我们经常需要通过一个文件写出另外一个文件,然而既然是对应关系肯定可以总结规律让计算机帮我们完成,今天我们就通过一个通用文件生成的python脚本来实现这个功能,将大家从每日重复的劳动中解放!定义一个函数defproduceBnf(infilename,outfilename):List=[]withopen(infilename,'r')asinf:forlineininf.readlines():List.appe

系统 2019-09-27 17:56:45 2049

Python

python pillow模块使用方法详解

pillowPillow是PIL的一个派生分支,但如今已经发展成为比PIL本身更具活力的图像处理库。pillow可以说已经取代了PIL,将其封装成python的库(pip即可安装),且支持python2和python3,目前最新版本是3.0.0。Pillow的Github主页:https://github.com/python-pillow/PillowPillow的文档(对应版本v3.0.0):https://pillow.readthedocs.org

系统 2019-09-27 17:56:31 2049

Python

python实现根据图标提取分类应用程序实例

本文实例讲述了python实现根据图标提取分类应用程序,分享给大家供大家参考。具体方法如下:#!/usr/bin/python#-*-coding:utf-8-*-importImageimportwin32uiimportwin32guidefmake_regalur_image(img,size=(256,256)):returnimg.resize(size).convert('RGB')defsplit_image(img,part_size=(6

系统 2019-09-27 17:56:14 2049

Python

python中文编码问题小结

中文编码问题一直是Python程序设计中很头痛的问题,本文对此较为详细的进行了总结归纳。具体如下:当字符串是:'\u4e2d\u56fd'>>>s=['\u4e2d\u56fd','\u6e05\u534e\u5927\u5b66']>>>str=s[0].decode('unicode_escape')#.encode("EUC_KR")>>>printstr中国当字符串是:'东亚学团一中'>>>printunichr(19996)东ord()支持uni

系统 2019-09-27 17:56:07 2049

Python

python写文件

写文件f=open('url.txt','a')#若是'wb'就表示写二进制文件f.write(response.url+'\n')f.close()

系统 2019-09-27 17:55:55 2049