nutch网上有不少有它的源码解析,但是采集这块还是不太让人容易理解.今天终于知道怎么,弄的.现在把crawl-urlfilter.txt文件贴出来,让大家一块交流,也给自己备忘录一个。#LicensedtotheApacheSoftwareFoundation(ASF)underoneormore#contributorlicenseagreements.SeetheNOTICEfiledistributedwith#thisworkforadditio
系统 2019-08-12 09:27:12 2084
今天刚把这个400多M的sp1从公司拷回来,算计着这样可以省掉不少下载时间.可是,可是,竟然没有想到,安装过程是如此的恐怖.首先,我的C盘空间明显的感到害羞,只有1.5G的剩余空间了,赶快压缩一下,转移一下虚拟内存,腾出了5个G的空间来伺候这位爷.(刚看到微软官方说明,最好有6个G的剩余空间,nnd,别吓我,我已经装了一晚上了)终于,点击安装的exe,漫长的等待开始了...经过长达30分钟的第一次收集信息,然后出现几个提示让你选Yes,然后又是长达n分钟的
系统 2019-08-12 09:27:11 2084
在使用jsf+Spring+Hibernate做项目时,发现配置Hibernate的实体映射文件相当繁琐.前段时间做EJB时,一直采用的是JPA的注解方式.相比较之下,少写不少代码.于是花了些时间.将项目中原来使用xml配置的方式转成使用Annotation方式.记录如下:
磁盘阵列(RedundantArrayofindependentDisks,RAID)是由美国加州大学柏克莱分校于1987年提出的,其概念是将多个硬盘组成一个逻辑虚拟的硬盘。操作上和操作单一的一块硬盘没有差别。不过实际上,数据是存储在不同硬盘上的。磁盘阵列的好处整合多个硬盘:能将多个小的硬盘整合为一个大的硬盘。数据具有较高的安全性:磁盘阵列具有修改错误的能力。他将校验码(parity)放在不同的硬盘上,当数据发生问题,即会用到校验码来恢复原始数据。提高存取
系统 2019-08-12 09:26:58 2084
前言函数function是python编程核心内容之一,也是比较重要的一块。首先我们要了解Python函数的基本定义:函数是什么?函数是可以实现一些特定功能的小方法或是小程序。在Python中有很多内建函数,当然随着学习的深入,你也可以学会创建对自己有用的函数。简单的理解下函数的概念,就是你编写了一些语句,为了方便使用这些语句,把这些语句组合在一起,给它起一个名字。使用的时候只要调用这个名字,就可以实现语句组的功能了。语法如下:#定义方式:deffunct
系统 2019-09-27 17:57:00 2083
Python设计模式设计模式(DesignPattern)是一套被反复使用、多数人知晓的、经过分类的、代码设计经验的总结。使用设计模式的目的:为了代码可重用性、让代码更容易被他人理解、保证代码可靠性。设计模式使代码编写真正工程化;设计模式是软件工程的基石脉络,如同大厦的结构一样。所有的设计模式示例都是来源于菜鸟教程,每个设计模式的UML都可以在菜鸟教程中找到相应的示例github地址:Python设计模式以工厂模式为例:工厂模式在菜鸟教程中的UML图为工厂
系统 2019-09-27 17:55:33 2083
一、I/O模型IO在计算机中指Input/Output,也就是输入和输出。由于程序和运行时数据是在内存中驻留,由CPU这个超快的计算核心来执行,涉及到数据交换的地方,通常是磁盘、网络等,就需要IO接口。同步(synchronous)IO和异步(asynchronous)IO,阻塞(blocking)IO和非阻塞(non-blocking)IO分别是什么,到底有什么区别?这个问题其实不同的人给出的答案都可能不同,比如wiki,就认为asynchronousI
系统 2019-09-27 17:55:10 2083
Python3对函数参数的排序规则更加通用化了,即Python3keyword-only参数,该参数即为必须只按照关键字传递而不会有一个位置参数来填充的参数。该规则在处理人一多个参数是很有用的。keyword-onlykword_only(1,2,3,c=4)print('-'*20)kword_only(a=1,c=3)示例结果:1(2,3)4--------------------1()3在*args之后的参数都需要在调用中使用关键字的方式传递,否则会
系统 2019-09-27 17:54:49 2083
一、概论C4.5主要是在ID3的基础上改进,ID3选择(属性)树节点是选择信息增益值最大的属性作为节点。而C4.5引入了新概念“信息增益率”,C4.5是选择信息增益率最大的属性作为树节点。二、信息增益以上公式是求信息增益率(ID3的知识点)三、信息增益率信息增益率是在求出信息增益值在除以。例如下面公式为求属性为“outlook”的值:四、C4.5的完整代码fromnumpyimport*fromscipyimport*frommathimportlogim
系统 2019-09-27 17:54:47 2083
网络爬虫,是在网上进行数据抓取的程序,使用它能够抓取特定网页的HTML数据。虽然我们利用一些库开发一个爬虫程序,但是使用框架可以大大提高效率,缩短开发时间。Scrapy是一个使用Python编写的,轻量级的,简单轻巧,并且使用起来非常的方便。使用Scrapy可以很方便的完成网上数据的采集工作,它为我们完成了大量的工作,而不需要自己费大力气去开发。首先先要回答一个问题。问:把网站装进爬虫里,总共分几步?答案很简单,四步:新建项目(Project):新建一个新
系统 2019-09-27 17:54:44 2083