搜索到与相关的文章
Python

python 缺失值处理的方法(Imputation)

一、缺失值的处理方法由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格、nans或者是其他的占位符。但是这样的数据集并不能被scikit-learn算法兼容,因为大多数的学习算法都会默认数组中的元素都是数值,因此素偶有的元素都有自己的代表意义。使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值,但是这样处理会浪费大量有价值的数据。下面是处理缺失值的常用方法:1.忽略元组当缺少类别标签时通常这样做(假定挖掘

系统 2019-09-27 17:50:59 1964

Python

Python面试:算法面试中的趣味题—附答案纯分享

这里给大家分享几个面试时遇到的趣味性比较浓厚的题目,答案呢也是个人的理解,不足的地方,还望大家指出!1、25匹马,有一条只能5匹马比赛的赛道,我们无法计时,只能看到马的排名,如何用最短的次数找出跑的最快的5匹马?这道题目的话最好的情况是7次,最坏的情况是10次。我们首先建立一个表格,先把25匹马分为如下的五组:每组进行比赛,假设第一组快慢顺序为A1、A2、A3、A4和A5,第二组依次类推。那么各组的第一分别是A1、B1、C1、D1、E1。在最好的情况下,先

系统 2019-09-27 17:50:54 1964

Python

python抽取pdf中内容

这两天一直在windows上做用python(版本是3.6)抽取pdf中内容的东西,主要就是从pdf中提取出里面的字体和表格内容。尝试了好些个库,现在算是找到比较符合我需求(比较好用)的pdf解析的了。在这个过程中,用了以下几个库:PDFminerPDFminer算是一个还算不错的吧,安装直接用pip安装就行。如下:pipinstallpdfminer3k它这个对pdf中内容做了好些个对象,用这些对象来存储不同的信息,比如表格有LTFigure对象存储、文

系统 2019-09-27 17:50:26 1964

Python

CentOS 7下安装Python3.6 及遇到的问题小结

先给大家介绍下CentOS7下安装Python3.6的方法安装python3.6可能使用的依赖yuminstallopenssl-develbzip2-develexpat-develgdbm-develreadline-develsqlite-devel•到python官网找到下载路径,用wget下载wgethttps://www.python.org/ftp/python/3.6.4/Python-3.6.4.tgz•解压tgz包tar-zxvfPyt

系统 2019-09-27 17:50:23 1964

Python

python文本数据处理学习笔记详解

最近越发感觉到限制我对Python运用、以及读懂别人代码的地方,大多是在于对数据的处理能力。其实编程本质上就是数据处理,怎么把文本数据、图像数据,通过python读入、切分等,变成一个N维矩阵,然后再带入别人的模型,bingo~跑出来一个结果。结果当然也是一个矩阵或向量的形式。所以说,之所以对很多模型、代码束手无策,其实还是没有掌握好数据处理的“屠龙宝刀”,无法对海量数据进行“庖丁解牛”般的处理。因此,我想以一个别人代码中的一段为例,仔细琢磨文本数据处理的

系统 2019-09-27 17:49:36 1964

Python

Python并发编程04/多线程

目录Python并发编程04/多线程1.生产消费者模型2.线程的理论知识2.1什么是线程2.2线程vs进程2.3线程的应用3.开启进程的两种方式3.1第一种方式3.2第一种方式4.线程vs进程的代码对比4.1开启速度对比4.2对比pid4.3同一个进程内线程共享内部数据5.线程的其他方法6.join与守护线程6.1join6.2守护线程7.互斥锁Python并发编程04/多线程1.生产消费者模型#编程思想,模型,设计模式,理论等等,都是交给你一种编程的方法

系统 2019-09-27 17:49:07 1964

Python

python词云可视化方法总结记录【简单词云+背景图片词云+自定义字体颜色词云】

词云是一种非常漂亮的可视化展示方式,正所谓一图胜过千言万语,词云在之前的项目中我也有过很多的使用,可能对于我来说,一种很好的自我介绍方式就是词云吧,就像下面这样的:个人觉还是会比枯燥的文字语言描述性的介绍会更吸引人一点吧。今天不是说要怎么用词云来做个人介绍,而是对工作中使用到比较多的词云计较做了一下总结,主要是包括三个方面:1、诸如上面的简单形式矩形词云2、基于背景图片数据来构建词云数据3、某些场景下不想使用类似上面的默认的字体颜色,这里可以自定义词云的字

系统 2019-09-27 17:48:59 1964

Python

Python3简单爬虫抓取网页图片代码实例

现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2),所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正。importurllib.requestimportreimportosimporturllib#根据给定的网址来获取网页详细信息,得到的html就是网页的源代码defgetHtml(url):page=urllib.request.u

系统 2019-09-27 17:47:54 1964

Python

python 数据描述符的使用(附带装饰器)

什么是python描述符:类里面有__get__或__set__或__del__的就叫描述符属性查找优先级类属性数据描述符(同时实现__get__和__set__)实例属性非数据描述符(只实现__get__)__getattr__通过代理和描述符实现属性懒加载这里是使用装饰器的方式实现的懒加载。可以将耗时的操作放到方法里面。在未使用的时候是一个方法,当第一次使用过后就会替换掉方法,并为之设置属性值。注意,只有在使用的时候才会执行函数里面的代码,并且只执行一

系统 2019-09-27 17:47:51 1964

Python

Python中用max()方法求最大值的介绍

max()方法返回其参数最大值:最接近正无穷大的值。语法以下是max()方法的语法:max(x,y,z,....)参数x--这是一个数值表达式。y--这也是一个数值表达式。z--这是一个数值表达式。返回值此方法返回其参数的最大值。例子下面的例子显示了max()方法的使用。#!/usr/bin/pythonprint"max(80,100,1000):",max(80,100,1000)print"max(-20,100,400):",max(-20,100

系统 2019-09-27 17:47:38 1964