- 军军小站|张军博客
搜索到与相关的文章
编程技术

【分词】正向最大匹配中文分词算法

中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。在这里我想介绍一下中文分词的一个最基础算法:最大匹配算法(MaximumMatching,以下简称MM算法)。MM算法有两种:一种正向最大匹配,一种逆向最大匹配。●算法思想正向最大匹配算法:从左到右将待分词文本中的几个

系统 2019-08-29 21:59:36 1910

编程技术

Google Analytics 网站分析中的退出率与跳出率

指标的定义:在GoogelAnalytics中征对页面的一个分析有这么两项指标:跳出率(BounceRate)、退出率(ExitRate)如下图所示:该指标都可以用来表示离开网站的访问者数量,但两者的计算方法和征对的页面是完全不同的。跳出是征对访问者来到网站后的第一个页面,即登录页,访问者跳出的动作只有在这个页面上才会出现。退出是在网站上所有页面都可以出现,只要访问者离开网站就算一次退出,页访问者访问的最后一个页面就是退出页面如下图所示:GoogleAna

系统 2019-08-12 09:30:03 1910

编程技术

UNIX环境高级编程 守护进程

相关函数列表//syslog函数#includevoidopenlog(constchar*ident,intoption,intfacility);voidsyslog(intpriority,constchar*format,...);voidcloselog(void);intsetlogmask(intmaskpri);//除syslog,很多平台还提供它的一种变体来处理可变参数列表#include#incl

系统 2019-08-12 09:29:37 1910

Python

K近邻算法的python实现

前言在K近邻的原始算法中,没有对K近邻的方法进行优化,还是遍历训练集,找到与输入实例最近的K个训练实例,统计他们的类别,以此作为输入实例类别的判断。具体的模型理论见:统计学习方法——K近邻法(原始方法)1.K近邻算法的实现在算法实现的过程中,利用的是欧氏距离进行点与点之间的距离度量。在进行数据运算的时候,没有利用numpy,而是利用Python中自带的list来进行数据的计算。defknn(x,dataSet,labels,k):distanceMemor

系统 2019-09-27 17:56:59 1909

Python

python 读取excel文件生成sql文件实例详解

python读取excel文件生成sql文件实例详解学了python这么久,总算是在工作中用到一次。这次是为了从excel文件中读取数据然后写入到数据库中。这个逻辑用java来写的话就太重了,所以这次考虑通过python脚本来实现。在此之前需要给python添加一个xlrd模块,这个模块是专门用来操作excel文件的。在mac中可以通过easy_installxlrd命令实现自动安装模块importxdrlib,sysimportxlrddefopen_e

系统 2019-09-27 17:55:37 1909

Python

python程序运行进程、使用时间、剩余时间显示功能的实现代码

有很多程序运行时间比较长,如果不将运行过程输出将很难判断程序运行的时间。下边这段程序将按照上图所示的格式输出程序运行进程、已用时间、剩余时间。deftime_change(time_init):#定义将秒转换为时分秒格式的函数time_list=[]iftime_init/3600>1:time_h=int(time_init/3600)time_m=int((time_init-time_h*3600)/60)time_s=int(time_init-t

系统 2019-09-27 17:54:42 1909

Python

python自定义时钟类、定时任务类

这是我使用python写的第一个类(也算是学习面向对象语言以来正式写的第一个解耦的类),记录下改进的过程。分析需求最初,因为使用time模块显示日期时,每次都要设置时间字符串的格式,挺麻烦,但还是忍了。后来,在处理多线程任务时需要实现定时控制的功能,更麻烦,终于决定自己做一个解决这些问题的通用代码(虽然网上有现成的模块,但亲手编写这部分代码正好能锻炼一下我的面向对象编程)。分析框架刚开始,我计划做一个模仿时钟的抽象类,让它独立运行在一个线程中,让它提供显示

系统 2019-09-27 17:54:34 1909

Python

python-main

基础1、判断变量是否为None主要有三种写法:ifxisNone:ifnotx:ifnotxisNone:2、lambda函数的用法被称作匿名函数,没有具体名称的函数,允许快速定义单行函数,可以用在任何需要函数的地方。lambda与def的区别:def创建方法是有名称的,lambda没有;lambda会返回一个函数对象,但这个对象不会赋给一个标识符,而def会把函数对象赋值给一个变量;lambda只是一个表达式,def是一个语句;lambda表达式":"后

系统 2019-09-27 17:53:57 1909

Python

python sqlite3 基本操作

创建数据库importsqlite3#连接数据库(如果不存在则创建)conn=sqlite3.connect('test.db')print("Openeddatabasesuccessfully")#创建游标c=conn.cursor()#SQL语句sql="""CREATETABLESTUDENTS(IDINTPRIMARYKEYNOTNULL,NAMETEXTNOTNULL,AGEINTNOTNULL,ADDRESSCHAR(50));"""#创建表

系统 2019-09-27 17:53:45 1909

Python

使用python爬取微博数据打造一颗“心”

前言一年一度的虐狗节终于过去了,朋友圈各种晒,晒自拍,晒娃,晒美食,秀恩爱的。程序员在晒什么,程序员在加班。但是礼物还是少不了的,送什么好?作为程序员,我准备了一份特别的礼物,用以往发的微博数据打造一颗“爱心”,我想她一定会感动得哭了吧。哈哈准备工作有了想法之后就开始行动了,自然最先想到的就是用Python了,大体思路就是把微博数据爬下来,数据经过清洗加工后再进行分词处理,处理后的数据交给词云工具,配合科学计算工具和绘图工具制作成图像出来,涉及到的工具包有

系统 2019-09-27 17:53:34 1909