搜索到与相关的文章
Python

使用Python检测文章抄袭及去重算法原理解析

在互联网出现之前,“抄”很不方便,一是“源”少,而是发布渠道少;而在互联网出现之后,“抄”变得很简单,铺天盖地的“源”源源不断,发布渠道也数不胜数,博客论坛甚至是自建网站,而爬虫还可以让“抄”完全自动化不费劲。这就导致了互联网上的“文章”重复性很高。这里的“文章”只新闻、博客等文字占据绝大部分内容的网页。中文新闻网站的“转载”(其实就是抄)现象非常严重,这种“转载”几乎是全文照抄,或改下标题,或是改下编辑姓名,或是文字个别字修改。所以,对新闻网页的去重很有

系统 2019-09-27 17:51:18 2258

Python

Python项目生成requirements

详细版本见个人博客:Python项目生成requirements一起开发项目的时候总是要搭建环境和部署环境的,这个时候必须得有个Python第三方包的list,一般都叫做requirements.txt。本文介绍了两种生成requirements.txt的方法。一、使用pipfreezepipfreeze>requirements.txt这种方式配合virtualenv才好使,否则把整个环境中的包都列出来了。下面是在虚拟环境中生成的requirements

系统 2019-09-27 17:49:16 2258

Python

python爬取百度贴吧前1000页内容(requests库面向对象思想实现)

此程序以李毅吧为例子,以面向对象的设计思想实现爬取保存网页数据,暂时并未用到并发处理,以后有机会的话会加以改善首先去百度贴吧分析贴吧地址栏中url后的参数,找到分页对应的参数pn,贴吧名字对应的参数kw首先创建类,写好__init__方法,run方法,__init__方法里先可以直接写passrun方法里大概整理一下整体的思路构造url列表,因为要爬取1000页,每页需对应一个url遍历发送请求,获取响应保存将可封装的步骤封装到单独的方法,所以这里又增加了

系统 2019-09-27 17:46:58 2258

Python

python使用if语句实现一个猜拳游戏详解

任务要求在控制台中提示输入石头、剪刀、布,按回车键,然后给出游戏结果。分析我们知道在游戏规则中,石头克剪刀,剪刀克布,布克石头。但是这在计算机中并不是很好直接的表示,因此我们分别用0、1、2分别代表游戏中的石头剪刀布。那么电脑该如何出拳呢?那就该用到python中的一个模块random中的一个方法random.randint()在0~2范围内产生一个随机整数,就表电脑出拳了。random.randint()的用法如下:#首先导入模块importrandom

系统 2019-09-27 17:46:51 2258

Python

如何将python中的List转化成dictionary

问题1:如何将一个list转化成一个dictionary?问题描述:比如在python中我有一个如下的list,其中奇数位置对应字典的key,偶数位置为相应的value解决方案:1.利用zip函数实现2.利用循环来实现3.利用enumerate函数生成index来实现问题2我们如何将两个list转化成一个dictionary?问题描述:假设你有两个list解决方案:还是常见的zip函数这里我们看到了zip函数确实在配对上面起到了很不错的效果,如果两个lis

系统 2019-09-27 17:45:42 2258

编程技术

架构设计的三个维度

架构设计是一个非常大的话题,不管写几篇文章,接触到的始终只是冰山一角,更多的是实践中去体会。这篇文章主要介绍的是面向对象OO,面向方面AOP,面向服务SOA这三个要素在架构设计中的位置与作用。一、架构设计三个维度架构设计有三个维度,或者说是我们在考虑架构时需要思考的三个方向。分别为:面向对象、面向方面、面向服务。这三个维度可以看作是正交的,但不同维度会互相印证,互相支撑。整个架构的示意图如下所示:二、面向对象面向对象技术最初是从面向对象的程序设计开始的,它

系统 2019-08-29 23:37:12 2258

编程技术

WCF中神秘的“8731“端口和“Design_Time_Addre

WCF中神秘的“8731"端口和“Design_Time_Addresses”如果使用VisualStudio2008SP1开发WCF应用程序时,会发现当使用VisualStudio2008的新建“WCF服务”模板向项目中添加WCF服务时,VisualStudio2008总是使用wsHttpBinding绑定,并且使用以下格式的地址:

系统 2019-08-29 22:21:01 2258

编程技术

Navigate2 compare with Navigate

CWebBrowser2ctrlprovidetwomethodtolinkawebpage:Navigate2(VARIANT*URL,VARIANT*Flags,VARIANT*TargetFrameName,VARIANT*PostData,VARIANT*Headers)Navigate(LPCTSTRURL,VARIANT*Flags,VARIANT*TargetFrameName,VARIANT*PostData,VARIANT*Headers

系统 2019-08-29 22:18:34 2258

编程技术

深入 Lucene 索引机制

Lucene是一个基于Java的全文检索工具包,你可以利用它来为你的应用程序加入索引和检索功能。Lucene目前是著名的ApacheJakarta家族中的一个开源项目,下面我们即将学习Lucene的索引机制以及它的索引文件的结构。在这篇文章中,我们首先演示如何使用Lucene来索引文档,接着讨论如何提高索引的性能。最后我们来分析Lucene的索引文件结构。需要记住的是,Lucene不是一个完整的应用程序,而是一个信息检索包,它方便你为你的应用程序添加索引和

系统 2019-08-12 09:30:30 2258