拥有Python标签的文章
Python

2019年 python 爬虫面试题 参考答案不对的请指出 持续更新 7/7

1.import导入模块importxxx,xxx,xxx可以同时导入多个库建议每次导入一个。fromxxximportxx从模块中导入指定方法xx()导入的方法就直接用2.python基本数据类型数字(intfloatlongcomplex(复数))字符串列表字典元组集合py3去除long了,拥抱py3吧其中complex是高中数学知识,不知道的就直接百度。3.区分可变数据类型和不可变数据类型就是变量的内存地址变不变的问题可变数据类型:字典dict,列表

系统 2019-09-27 17:53:32 1730

Python

Python连接mssql数据库编码问题解决方法

python一直对中文支持的不好,最近老遇到编码问题,而且几乎没有通用的方案来解决这个问题,但是对常见的方法都试过之后,发现还是可以解决的,下面总结了常用的支持中文的编码问题(这些方法中可能其中一个就能解决问题,也可能是多个组合)。(1)、首先,要保证文件的开头要加上编码设置来说明文件的编码复制代码代码如下:#encoding=utf-8(2)、然后,在连接数据的连接参数里加上字符集说明查询出的结果的编码,这个不加的后果可能是查询出的汉字字符都是问号复制代

系统 2019-09-27 17:53:20 1730

Python

解决Python抓HTML结构存入数据库转义报错问题

解决Python抓HTML结构存入数据库转义报错问题首先需求是这样的,抓一些资讯(带有标准的html结构入库),然后研究了半天,各种手动转义,尝试了很多种方法都没有效的解决,下面是有效的最后转义的方案,下面这种入库是没有转义符号的,和原html是一样的,如果前台需要带转义符号需要手动替换一下newSql=db.escape(param)sql='INSERTINTOzhixun(htmls)VALUES({})'.format(newSql)数据库比较懒了

系统 2019-09-27 17:53:17 1730

Python

python爬取全国公交线路---bs4方法

这里主要讲了bs4解析方法和json方法,以8684网页为例子,爬取了全国公交线路importrequestsimporttimefrombs4importBeautifulSoupimportjsonfromxpinyinimportPinyinheaders={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/76.0.

系统 2019-09-27 17:53:12 1730

Python

Python实现某论坛自动签到功能

1.[文件]DakeleSign.py~4KB#!/usr/bin/envpython#-*-coding:utf-8-*-__author__='poppy''''dakelebbssigin'''importsysimporturllib2importurllibimportrequestsimportcookielibimportjsonfrompyqueryimportPyQueryaspqimportlogginglogging.basicCon

系统 2019-09-27 17:53:08 1730

Python

使用python为mysql实现restful接口

最近在做游戏服务分层的时候,一直想把mysql的访问独立成一个单独的服务DBGate,原因如下:请求收拢到DBGate,可以使DBGate变为无状态的,方便横向扩展当请求量或者存储量变大时,mysql需要做分库分表,DBGate可以内部直接处理,外界无感知通过restful限制对数据请求的形式,仅支持简单的get/post/patch/put进行增删改查,并不支持复杂查询。这个也是和游戏业务的特性有关,如果网站等需要复杂查询的业务,对此并不适合DBGate

系统 2019-09-27 17:52:45 1730

Python

Spark学习实例(Python):窗口操作 Window

说到流处理,Spark为我们提供了窗口函数,允许在滑动数据窗口上应用转换,常用场景如每五分钟商场人流密度、每分钟流量等等,接下来我们通过画图来了解SparkStreaming的窗口函数如何工作的,处理过程图如下所示:上图中绿色的小框框是一批一批的数据流,虚线框和实线框分别是前一个窗口和后一个窗口,从图中可以看出后一个窗口在前一个窗口基础上移动了两个批次的数据流,而我们真正通过算子操作的数据其实就是窗口内所有的数据流。在代码实现前了解下窗口操作常用的函数有:

系统 2019-09-27 17:52:34 1730

Python

Python使用Pandas对csv文件进行数据处理的方法

今天接到一个新的任务,要对一个140多M的csv文件进行数据处理,总共有170多万行,尝试了导入本地的MySQL数据库进行查询,结果用Navicat导入直接卡死....估计是XAMPP套装里面全默认配置的MySQL性能不给力,又尝试用R搞一下吧结果发现光加载csv文件就要3分钟左右的时间,相当不给力啊,翻了翻万能的知乎发现了Python下的一个神器包:Pandas(熊猫们?),加载这个140多M的csv文件两秒钟就搞定,后面的分类汇总等操作也都是秒开,太牛

系统 2019-09-27 17:52:33 1730

Python

Spark学习实例(Python):RDD、DataFrame、DataSet

在学习转换之前先了解以下它们的基本概念RDD:弹性分布式数据集,是一个只读分区集合DataFrame:以命名列方式组织的分布式数据集,概念上和关系型数据库的一张表一样DataSet:分布式数据集合,Python暂时不支持了解了基本的概念之后,接下来我们通过代码编写三种数据集的形成RDD的形成frompyspark.sqlimportSparkSessionif__name__=='__main__':spark=SparkSession\.builder\

系统 2019-09-27 17:52:31 1730

Python

【第十三篇】Python 异常

一、异常1.1异常介绍异常就是程序运行时发生错误的信号,在python中,错误触发的异常如下:1.2异常种类在python中不同的异常可以用不同的类型(python中统一了类与类型,类型即类)去标识,不同的类对象标识不同的异常,一个异常标识一种错误1#触发IndexError2l=['egon','aa']3l[3]45#触发KeyError6dic={'name':'egon'}7dic['age']89#触发ValueError10s='hello'1

系统 2019-09-27 17:52:31 1730

Python

Python设计模式3--建造者模式

建造者模式,也是一种创建新对象的设计方法,和C++中的虚函数很类似,但是用到了python自身的虚基类ABCMeta。1.应用场景:某个类中的函数较多,且实现比较复杂,很多时候需要继承的子类重载或者重新定义逻辑;2.背景基础:由于用到python中虚函数,需要了解abc模块中的ABCMeta和python中类创建对象时的__metaclass__属性含义。一般地,在某个类中如果定义__metaclass__=something时,简单地说是,创建对象时,会

系统 2019-09-27 17:52:24 1730

Python

python连接PostgreSQL数据库的过程详解

1.常用模块#连接数据库connect()函数创建一个新的数据库连接对话并返回一个新的连接实例对象PG_CONF_123={'user':'emma','port':123,'host':'192.168.1.123','password':'emma','database':'dbname'}conn=psycopg2.connect(**PG_CONF_123)#打开一个操作整个数据库的光标连接对象可以创建光标用来执行SQL语句cur=conn.cur

系统 2019-09-27 17:52:21 1730

Python

排序算法总结(Python实现)——(一)

整个排序算法分两部分来总结,这篇总结第一部分一些相对简单和常用的排序算法,包括冒泡排序、选择排序、插入排序和希尔排序。冒泡排序冒泡排序应该是大家接触的最早的排序方法了,理解起来也十分简单。冒泡排序是一种简单的排序算法。它重复地走访过要排序的数列,一次比较两个元素,如果它们的顺序错误就把它们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。算法描述比较相邻的

系统 2019-09-27 17:52:14 1730

Python

Python基于BeautifulSoup和requests实现的爬虫功能示例

本文实例讲述了Python基于BeautifulSoup和requests实现的爬虫功能。分享给大家供大家参考,具体如下:爬取的目标网页:http://www.qianlima.com/zb/area_305/这是一个招投标网站,我们使用python脚本爬取红框中的信息,包括链接网址、链接名称、时间等三项内容。使用到的Python库:BeautifulSoup、requests代码如下:#-*-coding:utf-8-*-importrequestsfr

系统 2019-09-27 17:52:10 1730

Python

python多线程详解

目录python多线程详解一、线程介绍什么是线程为什么要使用多线程二、线程实现threading模块自定义线程守护线程主线程等待子线程结束多线程共享全局变量互斥锁递归锁信号量(BoundedSemaphore类)事件(Event类)三、GIL(GlobalInterpreterLock)全局解释器锁python多线程详解一、线程介绍什么是线程线程(Thread)也叫轻量级进程,是操作系统能够进行运算调度的最小单位,它被包涵在进程之中,是进程中的实际运作单位

系统 2019-09-27 17:51:56 1730