搜索到与相关的文章
编程技术

【分词】正向最大匹配中文分词算法

中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。在这里我想介绍一下中文分词的一个最基础算法:最大匹配算法(MaximumMatching,以下简称MM算法)。MM算法有两种:一种正向最大匹配,一种逆向最大匹配。●算法思想正向最大匹配算法:从左到右将待分词文本中的几个

系统 2019-08-29 21:59:36 1967

编程技术

Ibatis ISqlMapper工厂类案例

namespaceModel{publicclassMapperFactory{//声明一个ISqlMapper接口类型的数据映射器_mapper,其初始值为nullprivatestaticvolatileISqlMapper_mapper=null;//privatestaticlog4net.Appender.AdoNetAppenderadoApd=null;staticMapperFactory(){RefreshMapperSetting();

系统 2019-08-12 01:33:02 1967

Python

Python 打败 R 了吗?

随着编程语言的发展,有些语言有很好的发展,有些则面临淘汰,而要数较热门的,其中就有Python。Python作为一种通用脚本语言,后来逐渐成为数据科学中最流行的语言。据IT行业的一些人说,Python的成名是以R语言为踏脚石,R现在是一门垂死的语言。有一些证据表明,Python的流行导致R的使用率越来越低。根据TIOBE统计,Python目前是世界上第三大最受欢迎的语言,仅次于两大热门语言Java和C,从2018年8月到2019年8月,Python的使用率

系统 2019-09-27 17:57:12 1966

Python

Python:计算欧氏距离的两种写法

使用列表List作为样本点表示的欧氏距离计算方法:importmath#计算两点之间的距离defeucliDist(A,B):returnmath.sqrt(sum([(a-b)**2for(a,b)inzip(A,B)]))X=[1,2,3,4]Y=[0,1,2,3]print(eucliDist(X,Y))使用np.array作为样本点表示的欧氏距离计算方法:importnumpyasnp#计算两点之间的距离defeucliDist(A,B):retu

系统 2019-09-27 17:56:21 1966

Python

python如何匹配CSV文件某一列数据,并根据匹配到的数据的值在后面添加新

CSV数据格式如下所示:分类要求为:AAAI属于AI类,ICDM,SDM和KDD属于DM类,WWW属于NEW类上图所示第一列为名称,如何根据第一列的名称把前面的类别名称输出到第三列,实际效果为:如上图所示,第一列为名称,第三列为对应的类别名称,请给出python的实现代码答案对人有帮助,有参考价值0答案没帮助,是错误的答案,答非所问可以用pandas里面的map映射字典。In[1]:importpandasaspdIn[2]:df=pd.DataFrame

系统 2019-09-27 17:56:15 1966

Python

python打造爬虫代理池过程解析

最近在使用爬虫爬取数据时,经常会返回403代码,大致意思是该IP访问过于频繁,被限制访问。限制IP访问网站最常用的反爬手段了,其实破解也很容易,就是在爬取网站是使用代理即可,这个IP被限制了,就使用其他的IP。对于高大上的公司来说,他们基本都使用收费的代理,基本不会有什么问题,比较稳定。像我这样的矮矬穷,肯定是用不起收费的代理。一般都是使用国内免费的代理,网上也有很多提供免费的代理。很多人都是从网上爬取一批免费的代理IP,存放在存储媒介中,例如excel文

系统 2019-09-27 17:56:04 1966

Python

Python 上下文管理器(contextor)

最直观的上下文,莫过于小学的语文课,经常会问联系上下文,推测...,回答...,表明作者...。文章里的上下文比较好懂,无非就是前与后。在了解了计算机的执行状态,程式的运行,才稍微对计算机的上下文(context)有了一定的认识,多半还是只可意会,不可言传。本文所讨论的上下文,简而言之,就是程式所执行的环境状态,或者说程式运行的情景。提及上下文,就不可避免的涉及Python中关于上下文的魔法,即上下文管理器(contextor)。资源的创建和释放场景上下文

系统 2019-09-27 17:55:33 1966

Python

python自定义时钟类、定时任务类

这是我使用python写的第一个类(也算是学习面向对象语言以来正式写的第一个解耦的类),记录下改进的过程。分析需求最初,因为使用time模块显示日期时,每次都要设置时间字符串的格式,挺麻烦,但还是忍了。后来,在处理多线程任务时需要实现定时控制的功能,更麻烦,终于决定自己做一个解决这些问题的通用代码(虽然网上有现成的模块,但亲手编写这部分代码正好能锻炼一下我的面向对象编程)。分析框架刚开始,我计划做一个模仿时钟的抽象类,让它独立运行在一个线程中,让它提供显示

系统 2019-09-27 17:54:34 1966

Python

python itchat给指定联系人发消息的方法

itchat模块官方参考文档:https://itchat.readthedocs.io/zh/latest/安装pipinstallitchat/pip3installitchat原理Python模仿网页版微信登陆,并且现有一套操作网页版微信的API,可以将你使用微信中产生的数据爬下来,并做出相应的处理。操作1.导入这套微信API的包itchatimportitchat2.模仿网页版微信登陆itchat.auto_login()3.使用相关函数找到相关微

系统 2019-09-27 17:54:06 1966

Python

ubuntu18 下配置sublime text3 (python编码环境)

1下载sublimetext3(不要下载最新版Version:Build3207不好找licence)https://www.unyoo.com/2320.html(参考这个,需要指定版本windows或mac的可以看这个)https://download.sublimetext.com/sublime_text_3_build_3200_x64.tar.bz2(我用的是这个版本)放到ubuntu里面,解压tar-xvfsublime_text_3_bui

系统 2019-09-27 17:54:03 1966