各行各业 - 军军小站|张军博客
各行各业

Nutch 二次开发之parse正文内容

关于nutch的基础知识能够參考lemo的专栏nutch支持二次开发,为了满足搜索的准确率的问题,考虑只将网页正文的内容提取出来作为索引的内容,相应的是parse_text的数据。我使用的事nutch1.4版本号,在cygwin下运行crawl命令进行爬取。bin/nutchcrawlurls-dircrawl-depth3-topN30爬取的流程例如以下:inject:将urls下的url文档中的url注入到数据库,generate:从数据库中取得url

系统 2019-08-12 01:33:22 2218

各行各业

JSF测试工具

http://developer.51cto.comJSF测试工具因为在容器以外测试JSF组件有所限制,所以大家一直认为对于JSF应用进行单元测试是困难的。多数web层的测试框架遵循黑盒测试方式,开发者用web组件编写测试类来验证渲染的HTML输出是否符合预期。HtmlUnit,HttpUnit,CanooWebTest和Selenium等框架都属于这个类型。这些框架的局限在于它们仅仅只能测试web应用的客户端。但是这种现象已经随着近来发布的JSFUnit

系统 2019-08-12 01:32:25 2218

各行各业

WMI 远程修改服务启动类型

ConnectionOptionsoptions=newConnectionOptions();options.Username=UserName;options.Password=PassWord;ManagementScopeConn=newManagementScope(@"\\"+IP+@"\root\cimv2",options);Conn.Connect();ManagementPathpath=newManagementPath("Win32

系统 2019-08-12 09:27:25 2217

各行各业

利用统计进行中文分词与词性分析

利用统计进行中文分词与词性分析-IveelyLiu-博客园利用统计进行中文分词与词性分析今天,翻出了我以前在本科阶段写的一些论文,虽然有几篇没有发表。突然发现很多还是比较实用,虽然学术价值并不是很大,于是我重新整理了下,用最简单的方式,摘要了部分出来拼成此文,当然拼的原料都是自己的,本文适合初学者,如若转载,请著名版权。中文分词已经是老调重弹的话题了,传统的基于词库的分词技术应该是目前最基本的分词技术,在这里我不去深入挖掘,什么好什么不好的问题,今天我只想

系统 2019-08-12 01:31:59 2217

各行各业

Sublime Text 2 使用心得

常用快捷键:ctrl+l选择当前行ctrl+P调出面板,输入:加行号(或者ctrl+g)Alt+F3选中文本按下快捷键,即可一次性选择全部的相同文本进行同时编辑Alt+Shift+1~9(非小键盘)屏幕显示相等数字的小窗口ctrl+p面板输入文件名,跳转。输入@跳转到方法。支持模糊匹配heip@vi直接按Ctrl+R也可。Shift+右键拖拽进入列编辑模式配置设置:Default设置:"highlight_line":true,当前鼠标所在行高亮显示"dr

系统 2019-08-12 01:33:26 2216

各行各业

统计:概述

结束了概率,下面开始统计。这一篇,是统计的一个小介绍。统计是研究数据的学科。它包括描述数据,推测群体信息,判断假设的真伪。统计是一门实用学科。人们利用统计,寻找下一个NBA巨星,推测奥斯卡奖项,寻找自己的真心伴侣。在电影“点球成金”中,球队的经理就是利用统计思想,来搜寻球员,管理球队,最终造就了一支劲旅。点球成金统计这件大事如果说最早有统计意识的人,那莫过于古往今来的“王霸”之人。精明的王者,早早的意识到数据的重要性,也因此从统计数据中获得信息优势。刘邦占

系统 2019-08-12 01:32:39 2216

各行各业

第一次编写简单的中间件测试工具(2) - 读代码

加入新员工训练营的有开发也有测试,大家的coding水平参差不齐。我发现一个问题,就是当面对一个新学的语言时,我们这期训练营里除了我以外所有的测试人员甚至一些开发人员都不会读代码,不知道怎么去读,或者虽然读了,却一知半解,毫无效率。首先分享一下我读代码的方法供从手工测试转自动化测试的同学们参考(可能各人思维模式不同,仅供参考):我读代码时的思维方式属于一级一级严密的逻辑思维,所以一旦我的逻辑链中间断掉,我就不能理解这些代码。一句话总结:先跑起来,再调试,理

系统 2019-08-12 09:27:32 2215

各行各业

SUDT2177体检

http://acm.sdut.edu.cn/sdutoj/problem.php?action=showproblem&problemid=2177题目描述大家都知道,新生入学的前几周要体检,体检的那一天HH早起(九点半)来到了校医院,但是到了之后她发现排队等候体检的人太多了,而且人数在不断的增加。体检需要检查许多个项目,每个项目都需要排队,而且随着时间的推移,每个队列的人数都在慢慢增加。已知每个体检项目的队列都有两个属性(ai,bi):1、如果HH在0

系统 2019-08-12 09:26:49 2215

各行各业

第二人生的源码分析(三十四)读取通讯的消息模板

在开发通讯的软件里,要让通讯的两端程序相互对话,其实就跟人与人的交流是一样的,要使用共同语言,而不能一个人说英语,一个人说汉语。由于通讯两端是分别在不同的程序里,那么就需要定出一套相互认同的语言—协议定义。而定义协议的办法有很多种,比如直接写成C结构,这样的方式最直接了,但它有点不灵活。又有采用XML的方式,这样虽然灵活了,但它的通讯消息大小又太大了,不便于传送,对于中国慢慢网络来说,又太不现实。像QQ那么短的消息结构,发送的速度那么快才是真正地适应中国的

系统 2019-08-12 01:32:53 2215

各行各业

反编译工具Reflector下载(集成FileGenerator和F

Reflector是一款比较强大的反编译工具,相信很多朋友都用过它,但reflector本身有很多局限性,比如只能一个一个的查看方法等,但幸好reflector支持插件功能目前网上有很多reflector的插件,本人找取了两个应用范围很广,并且广受好评的插件:Reflector.FileDisassembler和Reflector.FileGenerator和Reflector进行了整合,放在了一个压缩包中,大家可以直接解压缩后就开始使用,其中FileGe

系统 2019-08-12 01:31:51 2215

各行各业

对比一下微软公司与开源软件社区中,开发测试管

微软的Bug管理系统ProductStudioTestDirectorTeamFoundationServer微软的源码控制系统VisualSourceSafeSourceDepotTeamFoundationServer微软的文档管理系统SharePointServer微软的用户管理系统MicrosoftActiveDirectory开源的Bug管理系统BugzillaMantisBugfree开源的版本控制系统:ControlVersionSystem

系统 2019-08-12 09:27:35 2214

各行各业

[InstallShield] 卸载相关问题

说明]本文由piggybank花费了一定的心血编写,所以转载或引用时务必注明来源,保证本说明及原文完整性。如果需要在报刊转载,请与我联系,谢谢!原文刊载在:http://blog.xiaozhu.com/play/--------------------------------------------------------------------------------在后面的内容中,主要解答以下几个经常有朋友问到,却又往往得不到很好的解决的问题:如何创

系统 2019-08-12 09:27:31 2214

各行各业

使用Varnish代替Squid做网站缓存加速器的详细解

Varnish是一款高性能的开源HTTP加速器,挪威最大的在线报纸VerdensGang(vg.no)使用3台Varnish代替了原来的12台squid,性能比以前更好。Varnish的作者Poul-HenningKamp是FreeBSD的内核开发者之一,他认为现在的计算机比起1975年已经复杂许多。在1975年时,储存媒介只有两种:内存与硬盘。但现在计算机系统的内存除了主存外,还包括了cpu内的L1、L2,甚至有L3快取。硬盘上也有自己的快取装置,因此s

系统 2019-08-12 01:32:34 2214

各行各业

使用ldap登录服务器

在服务器上安装libnss-ldap,sudoapt-getinstalllibnss-ldap,修改/etc/ldap.conf,如:basedc=imd,dc=comurildap://ldap.prod.i-md.com/ldap_version3pam_login_attributeuidpam_lookup_policyyespam_check_host_attrnopam_passwordmd5nss_base_passwdou=People,

系统 2019-08-12 01:32:05 2214

各行各业

用InstallShield制作卸载快捷方式

新建一个快捷菜单,在其对应的属性页中的shortcuttext中写入UNINSTALL(你想写什么就写什么),在target里面输入/InstallShieldInstallationInformation/{2CE6588F-D966-41C7-BAEB-1DB319218F1A}/Setup.exe,这里替换{2CE6588F-D966-41C7-BAEB-1DB319218F1A}为你的项目ID(PROJECTID),然后

系统 2019-08-12 09:27:31 2213