我搜集了国内10几个电影网站的数据,里面近几十W条记录,用文本没法存,mongodb学习成本非常低,安装、下载、运行起来不会花你5分钟时间。#-*-coding:utf-8-*-#byawakenjoys.mysite:www.dianying.atimportreimporturllib2frombs4importBeautifulSoupimportstring,timeimportpymongoNUM=0#全局变量,电影数量m_type=u''#全局
系统 2019-09-27 17:37:39 2472
python下os模块强大的重命名方法renames详解在python中有很多强大的模块,其中我们经常要使用的就是OS模块,OS模块提供了超过200个方法来供我们使用,并且这些方法都是和数据处理相关的,这里介绍下重命名这个方法。OS的重命名方法是os.rename,我用的ipython,这个玩意很是强大,只要按下TAB键,可以帮助我们自动对齐和列出可以使用的方法,发现有2个方法,分别是rename和renames,2个方法,前面的rename使用过无数次,
系统 2019-09-27 17:56:33 2471
摘要在进行数据分析时,我们经常需要把DataFrame的一列拆成多列或者根据某列把一行拆成多行,这篇文章主要讲解这两个目标的实现。码字不易,喜欢请点赞!!!读取数据将City列转成多列(以‘|’为分隔符)这里使用匿名函数lambda来讲City列拆成两列。3.将DataFrame一行拆成多行(以‘|’为分隔符)方法一:在刚刚得到的DataFrame基础上操作,如下图所以,可以明显看到我们按照City列将DataFrame拆成了多行。主要是先将DataFra
系统 2019-09-27 17:56:30 2470
代码架构以自己的回测框架为例。主要包含下面两个文件backtest/backtest.pybroker.pybacktest.py主要提供BackTest这个类用于提供回测框架,暴露以下钩子函数.definitialize(self):"""在回测开始前的初始化"""passdefbefore_on_tick(self,tick):passdefafter_on_tick(self,tick):passdefbefore_trade(self,order)
系统 2019-09-27 17:49:55 2470
内网的主机都是自动分配ip地址,有时候需要查看下有那些ip在使用,就写了个简单的脚本。linux和windows下都可以用,用多线程来ping1-255所有的地址,效率不高,2分钟左右。先凑合和用吧。#-*-coding:utf-8-*-#author:orangleliudate:2014-11-12#python2.7.xip_scaner.py'''''不同平台,实现对所在内网端的ip扫描有时候需要知道所在局域网的有效ip,但是又不想找特定的工具来扫
系统 2019-09-27 17:48:35 2470
bt种子文件转换为磁力链接BT种子文件相对磁力链来说存储不方便,而且在网站上存放BT文件容易引起版权纠纷,而磁力链相对来说则风险小一些。而且很多论坛或者网站限制了文件上传的类型,分享一个BT种子还需要改文件后缀或者压缩一次,其他人需要下载时候还要额外多一步下载种子的操作。所以将BT种子转换为占用空间更小,分享更方便的磁力链还是有挺大好处的。首先一个方案是使用bencode这个插件,通过pip方式安装或者自行下载源文件https://pypi.python.
系统 2019-09-27 17:37:55 2470
[Python3爬虫]爬取新浪微博用户信息及微博内容大数据时代,对于研究领域来说,数据已经成为必不可少的一部分。新浪微博作为新时代火爆的新媒体社交平台,拥有许多用户行为及商户数据,因此需要研究人员都想要得到新浪微博数据,But新浪微博数据量极大,获取的最好方法无疑就是使用Python爬虫来得到。网上有一些关于使用Python爬虫来爬取新浪微博数据的教程,但是完整的介绍以及爬取用户所有数据信息比较少,因此这里分享一篇主要通过selenium包来爬取新浪微博用
系统 2019-09-27 17:56:33 2469
之前一篇笔记:Python机器学习笔记:不得不了解的机器学习知识点(1)1,什么样的资料集不适合用深度学习?数据集太小,数据样本不足时,深度学习相对其它机器学习算法,没有明显优势。数据集没有局部相关特性,目前深度学习表现比较好的领域主要是图像/语音/自然语言处理等领域,这些领域的一个共性是局部相关性。图像中像素组成物体,语音信号中音位组合成单词,文本数据中单词组合成句子,这些特征元素的组合一旦被打乱,表示的含义同时也被改变。对于没有这样的局部相关性的数据集
系统 2019-09-27 17:55:45 2469
场景高德API提供给开发者们一些常用功能的接口,其中有一种叫地理/逆地理编码能实现地名查询经纬度和经纬度查地名。实现高德API平台:https://lbs.amap.com/注册并登陆找到Web服务然后点击获取key,按照指示获取自己的key。按照其逆地理编码的API,只需要发送一个GET请求并带着指定参数即可。这里我们先使用PostMan进行测试。最简单的就是只有两个参数,一个是刚才申请的key,一个是经纬度。接下来使用Python进行请求测试新建pyt
系统 2019-09-27 17:55:26 2469
工作中最常见的配置文件有四种:普通key=value的配置文件、Json格式的配置文件、HTML格式的配置文件以及YAML配置文件。这其中以第一种居多,后三种在成熟的开源产品中较为常见,本文只针对第一种配置文件。一般来说Linuxshell下提供了diff命令来比较普通文本类的配置文件,Python的difflib也提供了str和HTML的比较接口,但是实际项目中这些工具其实并不好用,主要是因为我们的配置文件并不是标准化统一化的。为了解决此类问题,最好针对
系统 2019-09-27 17:56:01 2468
1、图像分割原理图像分割(imagesegmentation)技术是计算机视觉领域的一个重要的研究方向,是图像语义理解的重要一环。图像分割是指将图像分成若干具有相似性质的区域的过程,从数学角度来看,图像分割是将图像划分成互不相交的区域的过程。近些年来随着深度学习技术的逐步深入,图像分割技术有了突飞猛进的发展,该技术相关的场景物体分割、人体前背景分割、人脸人体Parsing、三维重建等技术已经在无人驾驶、增强现实、安防监控等行业都得到广泛的应用。GraphC
系统 2019-09-27 17:53:33 2468
一、为何人工智能(AI)首选Python?读完这篇文章你就知道了。我们看谷歌的TensorFlow基本上所有的代码都是C++和Python,其他语言一般只有几千行。如果讲运行速度的部分,用C++,如果讲开发效率,用Python,谁会用Java这种高不成低不就的语言搞人工智能呢?Python虽然是脚本语言,但是因为容易学,迅速成为科学家的工具(MATLAB也能搞科学计算,但是软件要钱,且很贵),从而积累了大量的工具库、架构,人工智能涉及大量的数据计算,用Py
系统 2019-09-27 17:51:30 2468
基于python的socket实现单机五子棋到双人对战,供大家参考,具体内容如下本次实验使用python语言。通过socket进行不同机器见的通信,具体可以分为以下四步:1.创建ServerSocket和Socket;2.打开链接到Socket的输入/输出流;3.按照协议对Socket进行读/写操作;4.关闭输入输出流、关闭Socket。由于是双人对战,服务器必须应对多人及以上的客户端的连接,因此本实验还引入了python的threading多线程模块,通
系统 2019-09-27 17:48:47 2468
系统环境CentOS7.3阿里云服务器1.ll/usr/bin/python*2.此时python的默认版本还是2.7.53.mvpythonpython.bak备份源文件后期可以恢复2.7.5版本4.下载自己需要的python版本https://www.python.org/ftp/python/以3.5为例子5.下载好了利用FTP工具上传到/root上传不再演示6.mkdir/usr/local/python3创建python3的文件存放位置依照个人习
系统 2019-09-27 17:57:41 2467
strdata="addsf:dfsf:地方的地方:123"#方法一:result1=strdata.split(':',1)#方法二:a,*b=strdata.split(':')result2=''.join(b)按照中文冒号进行分割,只分割一次。
系统 2019-09-27 17:57:22 2467