搜索到与相关的文章
Python

Python提取文本tf、idf

"""python提取文本的tfidf特征"""importmathfromcollectionsimportCounter#1.语料库corpus=['thisisthefirstdocument','thisisthesecondseconddocument','andthethirdone','isthisthefirstdocument']#2.对语料进行分词word_list=[]foriinrange(len(corpus)):word_lis

系统 2019-09-27 17:57:10 2045

Python

python打造爬虫代理池过程解析

最近在使用爬虫爬取数据时,经常会返回403代码,大致意思是该IP访问过于频繁,被限制访问。限制IP访问网站最常用的反爬手段了,其实破解也很容易,就是在爬取网站是使用代理即可,这个IP被限制了,就使用其他的IP。对于高大上的公司来说,他们基本都使用收费的代理,基本不会有什么问题,比较稳定。像我这样的矮矬穷,肯定是用不起收费的代理。一般都是使用国内免费的代理,网上也有很多提供免费的代理。很多人都是从网上爬取一批免费的代理IP,存放在存储媒介中,例如excel文

系统 2019-09-27 17:56:04 2045

Python

Python进阶之使用selenium爬取淘宝商品信息功能示例

本文实例讲述了Python进阶之使用selenium爬取淘宝商品信息功能。分享给大家供大家参考,具体如下:#encoding=utf-8__author__='Jonny'__location__='西安'__date__='2018-05-14''''需要的基本开发库文件:requests,pymongo,pyquery,selenium开发流程:搜索关键字:利用selenium驱动浏览器搜索关键字,得到查询后的商品列表分析页码并翻页:得到商品页码数,模

系统 2019-09-27 17:55:34 2045

Python

Python之字符串

在Python中字符串是不可变变量,对其进行切片及其中的元素复制都会报错>>>str="ThisisPython">>>str[0:3]="abc"Traceback(mostrecentcalllast):File"",line1,inTypeError:'str'objectdoesnotsupportitemassignment其常用的方法:split用法:str.split(sep=None,maxsplit=-1)将字符串划分为序列>>>env=

系统 2019-09-27 17:55:21 2045

Python

python3获取当前目录的实现方法

1.以前的方法如果是要获得程序运行的当前目录所在位置,那么可以使用os模块的os.getcwd()函数。如果是要获得当前执行的脚本的所在目录位置,那么需要使用sys模块的sys.path[0]变量或者sys.argv[0]来获得。实际上sys.path是Python会去寻找模块的搜索路径列表,sys.path[0]和sys.argv[0]是一回事因为Python会自动把sys.argv[0]加入sys.path。具体来说,如果你在C:\test目录下执行p

系统 2019-09-27 17:54:47 2045

Python

Python操作SQLite数据库过程解析

SQLite是一款轻型的数据库,是遵守ACID的关系型数据库管理系统。不像常见的客户-服务器范例,SQLite引擎不是个程序与之通信的独立进程,而是连接到程序中成为它的一个主要部分。所以主要的通信协议是在编程语言内的直接API调用。Python标准库包含一个SQLite包装器:使用模块sqlite3实现的PySQLite。下面是一个操作SQLite数据库的例子:创建表、插入记录、查询记录。importsqlite3#创建直接到数据库文件的连接,如果文件不存

系统 2019-09-27 17:54:40 2045

Python

Python字典实现简单的三级菜单(实例讲解)

如下所示:data={"北京":{"昌平":{"沙河":["oldboy","test"],"天通苑":["链接地产","我爱我家"]},"朝阳":{"望京":["奔驰","陌陌"],"国贸":["CICC","HP"],"东直门":["advent","飞信"]},"海淀":{}},"山东":{"德州":{},"青岛":{},"济南":{}},"广东":{"东莞":{},"常熟":{},"佛山":{}}}exit_flag=Falsewhilenotex

系统 2019-09-27 17:54:15 2045

Python

ubuntu18 下配置sublime text3 (python编码环境)

1下载sublimetext3(不要下载最新版Version:Build3207不好找licence)https://www.unyoo.com/2320.html(参考这个,需要指定版本windows或mac的可以看这个)https://download.sublimetext.com/sublime_text_3_build_3200_x64.tar.bz2(我用的是这个版本)放到ubuntu里面,解压tar-xvfsublime_text_3_bui

系统 2019-09-27 17:54:03 2045

Python

切换Python2版本到Python3版本

实测系统:ubuntu16.4debain9.01.Ubuntu16.04系统自带Python2.7和Python3.5,而默认采用的是2.7版本,可采用如下命令查看单当前版本号:python-V2.Python2.7和3.5都是默认安装在/usr/local/lib/python2.7(3.5)目录下,link文件在/usr/bin文件夹下,需要删除默认pythonlink文件pythonsudorm/usr/bin/python重新建立链接,并指向Py

系统 2019-09-27 17:53:40 2045

Python

python——类型转换和冗余数据删除

1.类型转换importpandasaspdimportdatetime一般我们拿到日期型数据时,基本都是字符串表示的,该如何将其转换为日期型和日期时间型。法1:dt='2019/06/1316:16:39'd='2017-04-24'str2datetime=datetime.datetime.strptime(dt,'%Y/%m/%d%H:%M:%S')str2date1=datetime.datetime.strptime(d,'%Y-%m-%d')

系统 2019-09-27 17:53:36 2045