- 军军小站|张军博客
搜索到与相关的文章
各行各业

[Nutch]如何利用HTML页面中meta元素?

[Nutch]如何利用HTML页面中meta元素?[郑昀]1:假如说你的站点页面中有这么一句:你利用Nutch抓取并分析时,如何得到这个meta数值并处理呢?2:你可以从HtmlParseFilter扩展出一个RobotsParserFilter,用下面的代码得到meta值:PropertiesgeneralMetaTags=metaTags.getGeneralTags()

系统 2019-08-12 01:32:23 2071

各行各业

Play on Words[HDU1116]

PlayonWordsTimeLimit:10000/5000MS(Java/Others)MemoryLimit:65536/32768K(Java/Others)TotalSubmission(s):4094AcceptedSubmission(s):1328ProblemDescriptionSomeofthesecretdoorscontainaveryinterestingwordpuzzle.Theteamofarchaeologistshas

系统 2019-08-12 01:32:14 2071

Python

python3实现TCP协议的简单服务器和客户端案例(分享)

利用python3来实现TCP协议,和UDP类似。UDP应用于及时通信,而TCP协议用来传送文件、命令等操作,因为这些数据不允许丢失,否则会造成文件错误或命令混乱。下面代码就是模拟客户端通过命令行操作服务器。客户端输入命令,服务器执行并且返回结果。TCP(TransmissionControlProtocol传输控制协议):是一种面向连接的、可靠的、基于字节流的传输层通信协议,由IETF的RFC793定义。TCP客户端fromsocketimport*ho

系统 2019-09-27 17:55:14 2070

Python

python常用

1字符串中加空格"".join(list(user_q))2dic转jsonhjson=json.dumps(stand_q_dic,ensure_ascii=False)3str转jsonstringhjson=json.loads(psrser_json)message=hjson["message"]文件fp=open('data_for_bigru/char_c2i_128.json','r+')dict=json.load(fp)print(di

系统 2019-09-27 17:55:06 2070

Python

python snownlp情感分析简易demo(分享)

SnowNLP是国人开发的python类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。MIT许可下发行。其github主页我自己修改了上文链接中的python代码

系统 2019-09-27 17:54:43 2070

Python

Python中zip()函数的简单用法举例

定义:zip([iterable,...])zip()是Python的一个内建函数,它接受一系列可迭代的对象作为参数,将对象中对应的元素打包成一个个tuple(元组),然后返回由这些tuples组成的list(列表)。若传入参数的长度不等,则返回list的长度和参数中长度最短的对象相同。利用*号操作符,可以将listunzip(解压),看下面的例子就明白了:>>>a=[1,2,3]>>>b=[4,5,6]>>>c=[4,5,6,7,8]>>>zipped=

系统 2019-09-27 17:54:31 2070

Python

python SocketServer源码深入解读

再看继承真正的大餐来之前,还是来点儿开胃菜!回顾一下关于类的继承的知识:我们先看上面的代码,这是一个简单的类继承,我们可以看到父类Base和子类Son,它们中各有一个Testfunc方法,当我们实例化子类的对象sonobj时,可以看到初始化方法中黄色框框调用了Testfunc,那么这个时候执行的是哪个类里面的代码呢?我会告诉你执行的是子类里面的方法,不信就自己试试吧,代码在下面~为什么呢?其实这里是绕了一个圈,所以把很多人绕晕了,包括我!后来想想其实很容易

系统 2019-09-27 17:54:10 2070

Python

Python爬取小说

起因:有一天突然想看本小说,在小说网站上不能下载,广告太多,便。。。思路:–分析网站的结构–爬取目录(获得章节名和链接)–多线程加载章节网页–正则匹配内容–保存生成错误日志–链接单个章节txt合并为一个#-*-coding:utf-8-*-"""CreatedonTueJul218:23:492019@author:24709"""importurllibimporturllib.requestimportmultiprocessingfrombs4imp

系统 2019-09-27 17:53:50 2070

Python

python去除字符串中的换行符

今天写这个,要用python去除字符串中的换行符并写入文件,网上查阅,就一句代码replace("\n",""),加上之后,搞了半天,还是不对。以上是我今天遇到的问题,以下是解决方案。本地测试是window系统,正式用的时候是unix服务器。两者对换行符具体有什么差别我也不是很清楚。于是将字符串写入的文件用notepad++打开,显示行尾符(如何用notepad++显示行尾符自己百度),发现是CR,所以将代码改为replace("\r",""),完美解决总

系统 2019-09-27 17:53:39 2070

Python

理解“狭义”的 python 协程

转载自我自己的github博客——>半天钟的博客这篇博文讲述的python协程是不正式的、宽泛的协程,即通过客户调用.send(…)方法发送数据或使用yieldfrom结构驱动的生成器函数,而不是asyncio库采用的定义更为严格的协程。前言在事件驱动型编程中,协程常用于离散事件的仿真(在单个线程中使用一个主循环驱动协程执行并发活动)。协程通过显式自主地把控制权让步给中央调度程序从而实现了协作式多任务。所以,协程是python事件驱动型框架和协作式多任务的

系统 2019-09-27 17:53:36 2070