关于nutch的基础知识能够參考lemo的专栏nutch支持二次开发,为了满足搜索的准确率的问题,考虑只将网页正文的内容提取出来作为索引的内容,相应的是parse_text的数据。我使用的事nutch1.4版本号,在cygwin下运行crawl命令进行爬取。bin/nutchcrawlurls-dircrawl-depth3-topN30爬取的流程例如以下:inject:将urls下的url文档中的url注入到数据库,generate:从数据库中取得url
系统 2019-08-12 01:33:22 2502
jni的介绍JNI是JavaNativeInterface的缩写,中文为JAVA本地调用。从Java1.1开始,JavaNativeInterface(JNI)标准成为java平台的一部分,它允许Java代码和其他语言写的代码进行交互。JNI一开始是为了本地已编译语言,尤其是C和C++而设计的,但是它并不妨碍你使用其他语言,只要调用约定受支持就可以了。以下介绍Android中如何使用jni移植开源库的技巧.JNI日志输出到Logcat中#include
系统 2019-08-12 01:31:48 2501
MS-DOS的版本包括:1983年11月Word11985年Word21986年Word31987年Word4akaMicrosoftWord4.0forthePC1989年Word51991年Word5.5AppleMacintosh的版本包括:1985年1月Word1fortheMacintosh1987年Word31989年Word41991年Word51993年Word61998年Word982000年Word2001,最后一个与MacOS9兼容的
系统 2019-08-12 09:26:58 2500
引用包来自selenium-java-2.23.1.jar调用以下代码时,需要引入actions类,以java为例:importorg.openqa.selenium.interactions.Actions;鼠标事件-概述1.单击click()、click(WebElementonElement)2.双击doubleClick()、doubleClick(WebElementonElement)3.右击contextClick()、contextClic
系统 2019-08-12 09:27:32 2499
http://developer.51cto.comJSF测试工具因为在容器以外测试JSF组件有所限制,所以大家一直认为对于JSF应用进行单元测试是困难的。多数web层的测试框架遵循黑盒测试方式,开发者用web组件编写测试类来验证渲染的HTML输出是否符合预期。HtmlUnit,HttpUnit,CanooWebTest和Selenium等框架都属于这个类型。这些框架的局限在于它们仅仅只能测试web应用的客户端。但是这种现象已经随着近来发布的JSFUnit
系统 2019-08-12 01:32:25 2499
消息解包已经看得比较多了,现在就来分析一下怎么样打包一个消息包。上面已经介绍了通过UDP发送消息包给服务器,这里主要介绍打包的过程,它的代码如下:#001voidgive_money(constLLUUID&uuid,LLViewerRegion*region,S32amount,BOOLis_group,#002S32trx_type,constLLString&desc)#003{下面判断是否有钱要给别人。#004if(0==amount)return
系统 2019-08-12 01:32:51 2498
注:本文转自“http://asc.18dao.com/”目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(AmericanStandardCodeforInformationInterchange,美国标准信息交换码),它已被国际标准化组织(ISO)定为国际标准,称为ISO646标准。适用于所有拉丁文字字母,ASCII码有7位码和8位码两种形式。因为1位二进制数可以表示(21=)2种状态:0、1;而2位二进制数可以
系统 2019-08-12 01:32:31 2498
OpenfireSVN+Eclipse3.3+Subversive安装指南Openfire是由JiveSoftware主导开发的一套功能非常强大的开源im服务器(前身是wildfire),它基于XMPP协议,完全用java实现,是一款非常优秀的服务器端软件。最近参与了一个开源项目thinksns,负责im部分,于是准备研究一下openfire的源码,想要测试和编写自己的代码,首先要配置好源码的运行环境,本文正是基于这个目的而写的,希望能和志同道合的朋友多交
系统 2019-08-12 09:27:11 2497
今天重新配置了MQ服务器,把MQ服务器移动到繁体的Server上啦.配置OK.用我的客户端连接去始终报2539错误.IBM帮助文件给出的解释.2539(09EB)(RC2539):MQRC_CHANNEL_CONFIG_ERRORExplanationAnMQCONNcallwasissuedfromaclienttoconnecttoaqueuemanagerbuttheattempttoestablishcommunicationfailed.Comm
系统 2019-08-12 09:26:59 2497
OpenCASCADEFoundationClassesOpenCASCADE基础类eryar@163.com一、简介1.基础类概述FoundationClassesOverview本文将对OpenCASCADE中的基础类进行介绍及如何使用基础类。更多信息可访问其官网:www.opencascade.org/support/training/。基础类库提供了一些通用功能,如自动动态内存管理、集合、异常处理、泛型编程和plug-in的创建。基础类库包含如下内
系统 2019-08-12 01:33:31 2495
属性/样式初始化【转】一、PP_AttrProp类1、类功能说明,代表了一个相同类型的属性/样式集合PP_AttrPropcapturesthecompletesetofXMLandCSSAttributes/Propertiesforapieceofthedocument.Thesearegenerallycreatedbythefile-reader.Attributesrepresentalloftheattribute/valuepairsinth
系统 2019-08-12 09:27:10 2493
所谓爬虫,首先要通过各种手段爬取到想要站点的数据。web2.0之后,各种网络站点类型越来越多,早期的站点多为静态页面【html、htm】,后来逐步加入jsp。asp,等交互性强的页面。再后来随着js的兴起,也处于站点的美观和易于维护,越来越多的ajax异步请求方式数据站点。[不扯犊子了,马上上示例]参与工作时间不是很长,但工作期间一直做不同的爬虫项目。对常见的页面数据获取,有一些简单的认识。接触到的页面分为三类。A静态页面(数据在源码中直接可以获取到)B数
系统 2019-08-12 01:33:24 2493
很简单WiXWindowsInstallerXML(WiX)平台是一组开源的工具与规范,使您能够创建MicrosoftWindowsInstaller数据库文件(MSI和MSM[MergeModules]).WiX工具承袭了根据源代码创建可执行文件所使用的传统编译和链接模型.WiX的源代码是使用XML文件编写的.WiX源代码经过预处理,编译与链接,以创建WindowsInstaller数据库.来源:http://baike.baidu.com/view/2
系统 2019-08-12 01:32:51 2493
半年前,写了一个Gdal1.4的编译,前一段时间又开始用Gdal了,发现已经日新月异到1.6版了,还推出了针对.NET开发的solution编译,实在是大大方便了我这样的C#程序员。但是很奇怪的是官网下载的源码居然编译出错,仔细研究了一会才发现代码中确实有个低级错误,不知道是不是由于编程语言之间的转换造成的。在此写出来,供自己和大家参考。1、源代码地址http://download.osgeo.org/gdal/gdal160.zip2、打开makegda
系统 2019-08-12 09:26:45 2492
下面来详细地分析语法分析相关的类,以便了解整个语法分析的过程和细节,这样也方便地复用第二人生里的脚本编译器,达到源码复用的目标。先来分析类LLScriptFilePosition,它的声明代码如下:#001classLLScriptFilePosition#002{#003public:构造函数,保存脚本所在的行号和列号。#004LLScriptFilePosition(S32line,S32col)#005:mLineNumber(line),mColu
系统 2019-08-12 01:32:38 2492