编程技术

【文本分类】 概述

部分转载:http://www.blogjava.net/zhenandaci/archive/2008/05/31/204646.html作者:Jasper文本分类(textcategorization)问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说,就好比你拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育,计算机答不上就打它的屁屁(……)。注意这个定义当中着重强调的两个事实。

系统 2019-08-29 21:59:32 1908

Python

python 图片去噪的方法示例

图像可能在生成、传输或者采集过程中夹带了噪声,去噪声是图像处理中常用的手法。通常去噪声用滤波的方法,比如中值滤波、均值滤波。但是那样的算法不适合用在处理字符这样目标狭长的图像中,因为在滤波的过程中很有可能会去掉字符本身的像素。一个采用的是去除杂点的方法来进行去噪声处理的。具体算法如下:扫描整个图像,当发现一个黑色点的时候,就考察和该黑色点间接或者直接相连接的黑色点的个数有多少,如果大于一定的值,那就说明该点不是离散点,否则就是离散点,把它去掉。在考察相连的

系统 2019-09-27 17:56:42 1907

Python

的个数-python版本

#!/usr/bin/envpython#-*-coding:utf-8-*-#问题:给出一个字符串,分别输出该字符串中小写字母,大写字母,数字,以及其他字符串的个数chuan="aasdhauADSGFTHFTdbhi1224324汉字"len_lower=0len_upper=0len_digit=0foriinchuan:ifi.islower():len_lower+=1ifi.isupper():len_upper+=1ifi.isdigit()

系统 2019-09-27 17:56:34 1907

Python

python实现多线程端口扫描

一个简易的TCP端口扫描器,使用python3实现。需求:扫描目标网站开放哪些端口号,将所有开放的端口号输出。分析:使用socket连接,如果连接成功,认为端口开放,如果连接失败,认为端口关闭(有可能端口开放但连接失败,这里简单认为端口不开放)使用到的库:socket,threading过程:先定义一个函数,对给定的(ip,port)进行扫描,看其是否能连接成功。deftcpPortScan(ip,port,openPort):sock=socket.so

系统 2019-09-27 17:55:41 1907

Python

LeetCode 腾讯50题Python实现之《二叉树中的最大路径》

题目给定一个非空二叉树,返回其最大路径和。本题中,路径被定义为一条从树中任意节点出发,达到任意节点的序列。该路径至少包含一个节点,且不一定经过根节点。示例1:输入:[1,2,3]1/\23输出:6示例2:输入:[-10,9,20,null,null,15,7]-10/\920/\157输出:42思路关键是要求出,某一个根节点到某个子节点的最长路径是多少。最后的结果一定是某一个根节点的值加上它左右子树的那个最长路径。代码如下,代码ref:https://le

系统 2019-09-27 17:54:00 1907

Python

简单了解python高阶函数map/reduce

高阶函数map/reducePython内建了map()和reduce()函数。我们先看map。map()函数接收两个参数,一个是函数,一个是Iterable,map将传入的函数依次作用到序列的每个元素,并把结果作为新的Iterator返回。举例说明,比如我们有一个函数f(x)=x2,要把这个函数作用在一个list[1,2,3,4,5,6,7,8,9]上,就可以用map()实现如下:现在,我们用Python代码实现:deff(x):returnx*xr=m

系统 2019-09-27 17:53:59 1907

Python

Python连接mssql数据库编码问题解决方法

python一直对中文支持的不好,最近老遇到编码问题,而且几乎没有通用的方案来解决这个问题,但是对常见的方法都试过之后,发现还是可以解决的,下面总结了常用的支持中文的编码问题(这些方法中可能其中一个就能解决问题,也可能是多个组合)。(1)、首先,要保证文件的开头要加上编码设置来说明文件的编码复制代码代码如下:#encoding=utf-8(2)、然后,在连接数据的连接参数里加上字符集说明查询出的结果的编码,这个不加的后果可能是查询出的汉字字符都是问号复制代

系统 2019-09-27 17:53:20 1907

Python

Python进阶之路 3.4.5 断言

3.4.5断言断言(assertions)的使用方式类似于if语句,只是在不满足条件时,会直接抛出异常。类似于下面的if语句(伪代码)ifnotcondition:#如果不满足条件,会直接抛出异常,程序会中断crashprogram那么究竟为什么需要这样的代码呢?主要原因为需要检测程序在某个地方是否满足条件,如果不满足条件,应该及时通知开发人员,而不是将这些bug隐藏起来,知道关键的时候在崩溃。其实在TDD中经常使用断言,TDD会在程序发现异常时执行断言,

系统 2019-09-27 17:52:20 1907

Python

Python脚本实现DNSPod DNS动态解析域名

闲暇之余,在家里自建了个服务器,因为用的小区宽带,IP位动态分配。域名解析就是个问题,我的域名一般停放在DNSPod下。DNSPod有提供修改的API,就用Python简单的实现了一下动态解析。这样,就不用安装花生壳了。废话不说,看代码:#!/usr/bin/envpython#-*-coding:utf-8-*-importhttplib,urllib,urllib2importtimeimportsys,osimportreimportjsonuser

系统 2019-09-27 17:52:14 1907

Python

Python列表对象实现原理详解

Python中的列表基于PyListObject实现,列表支持元素的插入、删除、更新操作,因此PyListObject是一个变长对象(列表的长度随着元素的增加和删除而变长和变短),同时它还是一个可变对象(列表中的元素根据列表的操作而发生变化,内存大小动态的变化),PyListObject的定义:typedefstruct{#列表对象引用计数intob_refcnt;#列表类型对象struct_typeobject*ob_type;#列表元素的长度intob

系统 2019-09-27 17:52:11 1907

Python

python input()用法

a=input("a=")b=input("b=")c=int(a)+int(b)print(c)结果:/usr/bin/python3.6/home/rooter/PycharmProjects/python1/pp1a=4b=48Processfinishedwithexitcode0a=input("a=")b=input("b=")c=a+b#或者c=int(a+b)/c=str(a+b)print(c)结果/usr/bin/python3.6/h

系统 2019-09-27 17:51:10 1907

Python

python实现车牌识别的示例代码

某天回家之时,听到有个朋友说起他正在做一个车牌识别的项目于是对其定位车牌的位置算法颇有兴趣,今日有空得以研究,事实上车牌识别算是比较成熟的技术了,这里我只是简单实现。我的思路为:对图片进行一些预处理,包括灰度化、高斯平滑、中值滤波、Sobel算子边缘检测等等。利用OpenCV对预处理后的图像进行轮廓查找,然后根据一些参数判断该轮廓是否为车牌轮廓。效果如下:test1:test2实现代码如下(对图像预处理(滤波器等)的原理比较简单,这里只是对一些函数进行调包

系统 2019-09-27 17:50:43 1907

Python

module in Python i...

转:https://www.jianshu.com/p/4be85de84d2a本机环境:Windows1064位Anacondapython3.7报错信息:pipisconfiguredwithlocationsthatrequireTLS/SSL,howeverthesslmoduleinPythonisnotavailable.解决方法:原因:Anaconda环境变量未配置完全需要配置的环境变量:D:\ProgramData\Anaconda3D:\

系统 2019-09-27 17:50:37 1907

Python

如何用Python搭建一个简单的推荐系统?

推荐系统的相关知识我们已在前文中提到,在这篇文章中,我们会介绍如何用Python来搭建一个简单的推荐系统。本文使用的数据集是MovieLens数据集,该数据集由明尼苏达大学的Grouplens研究小组整理。它包含1,10和2亿个评级。Movielens还有一个网站,我们可以注册,撰写评论并获得电影推荐。接下来我们就开始实战演练。在这篇文章中,我们会使用Movielens构建一个基于item的简易的推荐系统。在开始前,第一件事就是导入pandas和numPy

系统 2019-09-27 17:50:15 1907

Python

Python编写生成验证码的脚本的教程

在web开发中经常用到验证码,为了防止机器人注册或者恶意登陆和查询等,作用不容小觑但是验证码其实不是一个函数就能搞定的,它需要生成图片和水印,其实每种语言都有相关的函数生成图片和文字水印。包括我熟悉的php,呵呵,今天主要来分享如何用python生成验证码。python生成验证码主要用到如下模块:Image,ImageDraw,ImageFont,ImageFilter和随机数生成模块Random。代码如下:#!/usr/bin/envpython#cod

系统 2019-09-27 17:48:19 1907