思路:1.读取所有文章标题;2.用“结巴分词”的工具包进行文章标题的词语分割;3.用“sklearn”的工具包计算Tf-idf(词频-逆文档率);4.得到满足关键词权重阈值的词结巴分词详见:结巴分词Githubsklearn详见:文本特征提取――4.2.3.4Tf-idf项加权importosimportjiebaimportsysfromsklearn.feature_extraction.textimportTfidfVectorizersys.pat
系统 2019-09-27 17:48:06 2278
序言python的列表对象是这个语言提供的最通用的序列,列表是一个任意类型的对象的位置相关的有序集合,它没有固定的大小。不像字符串,其大小是可变的,通过对偏移量进行赋值以及其他各种列表的方法进行调用,确实能够修改列表的大小。列表的形式如下>>>A=['apple',1,[1,2,'peach'],2]列表可以包含多种元素,可以进行嵌套,带有多种方法(具体的方法,可以查看相关手册),通过这些方法,列表可以有很多功能,例如可以当做栈,队列(低效,一般不用)等,
系统 2019-09-27 17:47:41 2278
html页面一般都会指定一个编码,如何获取到是处理html页面的第一步,因为错误的编码必然带来后面处理的问题。这里我用python的正则表达式写了个:importrea=["",'','','','','','']b="
系统 2019-09-27 17:47:13 2278
假如文件夹有大量视频文件,需求目标是想从每个视频中提取一帧作为视频的一个封面图片,本文利用opencv-python模块实现需求。结合自己的工作,做一下简单的记录,原本想生成可传参数的exe文件,以方便同事使用。但importcv2用pyinstaller生成exe时就会报错,暂时没有找到解决方案,报错如下:(如哪位朋友碰到类似问题,并且解决,请给我留言,谢谢大神)1、安装模块pipinstallopencv-python安装完成后importcv2出现异
系统 2019-09-27 17:45:42 2278
Celery(芹菜)是基于Python开发的分布式任务队列。它支持使用任务队列的方式在分布的机器/进程/线程上执行任务调度。架构设计Celery的架构由三部分组成,消息中间件(messagebroker),任务执行单元(worker)和任务执行结果存储(taskresultstore)组成。1.消息中间件Celery本身不提供消息服务,但是可以方便的和第三方提供的消息中间件集成。包括,RabbitMQ,Redis,MongoDB(experimental)
系统 2019-09-27 17:38:45 2278
SpringAop代理机制静态代理机制代理对象和被代理对象必须实现同一个接口可以按业务分开不同服务呼叫不同业务对象动态代理机制设计一个类实现java.lang.reflect.InvocationHandler于原有业务不相干不用知道会调用谁AOP术语Cross-cuttingconcern横切到业务流程中Aspect把Cross-cuttingconcern组织起来设计成可重用的对象AOP强调独立重用时不用做任何的修改AdviceAspect的具体实现在
系统 2019-08-29 23:52:04 2278
晚餐是在一家叫做“诸葛烤鱼”的连锁店里边吃的,由于同事不能吃太辣的东西,所以要的是葱香口味的,一条鲤鱼花了46块,有点贵哦。星期日也没有休息的很好,中午的时候提供了第1版的解决方案,但是对方发现了一些问题,需要我们进一步的修订,刚开始的时候确实有点不情愿,觉得有点多此一举,但是仔细分析之后发现的确是存在问题。用了过多的术语,对方很不理解。一些流程认为客户已经理解了,因此没有详细阐述,给客户造成了误导。部分流程没有详细设计,因此造成了一些细节的不完善。呵呵,
系统 2019-08-29 23:48:28 2278
前言做为程序员,为了实现理想而奋斗不懈,每天对着电脑辐射坐在工位上拼搏8小时甚至更久,这种如同机器旁边的机器般的工作对于健康的损耗何其之大?再这么下去,还真得应了:“职务不高,工资不高,血压血脂血糖高;政治不突出,业务不突出,腰椎盘突出”这种亚健康状态,最可怕的是技术人员平均寿命都有点惊悚,就怕最后“出师未捷身先死,长使英雄泪满襟”。是时候呼吁一下健康的问题了!废话不说了,进入正题吧。本次的带来的是:程序员必备的10大健康装备,Let'sgo!装备1:沙袋
系统 2019-08-29 23:12:06 2278
树的遍历是树的一种重要的运算。所谓遍历是指对树中所有结点的系统的访问,即依次对树中每个结点访问一次且仅访问一次。树的3种最重要的遍历方式分别称为前序遍历、中序遍历和后序遍历。以这3种方式遍历一棵树时,若按访问结点的先后次序将结点排列起来,就可分别得到树中所有结点的前序列表,中序列表和后序列表。相应的结点次序分别称为结点的前序、中序和后序。树的这3种遍历方式可递归地定义如下:如果T是一棵空树,那么对T进行前序遍历、中序遍历和后序遍历都是空操作,得到的列表为空
系统 2019-08-29 23:08:21 2278
一个小需求,获取远程页面的源码,主要用于抓数据。原来用的好好的,最近突然不能获取页面源码了,但是仍然可以用浏览器正常浏览。(文后附源码下载。^_^)经过分析,原来用的代码如下:StreamReadersreader=null;stringresult=string.Empty;try{HttpWebRequesthttpWebRequest=(HttpWebRequest)WebRequest.Create(Url);//httpWebRequest.Ti
系统 2019-08-29 23:01:15 2278