- 军军小站|张军博客
搜索到与相关的文章
Python

零基础写python爬虫之爬虫框架Scrapy安装配置

前面十章爬虫笔记陆陆续续记录了一些简单的Python爬虫知识,用来解决简单的贴吧下载,绩点运算自然不在话下。不过要想批量下载大量的内容,比如知乎的所有的问答,那便显得游刃不有余了点。于是乎,爬虫框架Scrapy就这样出场了!Scrapy=Scrach+Python,Scrach这个单词是抓取的意思,Scrapy的官网地址:点我点我。那么下面来简单的演示一下Scrapy的安装流程。具体流程参照://www.jb51.net/article/48607.htm

系统 2019-09-27 17:54:46 1826

Python

python urllib urlopen()对象方法/代理的补充说明

pythonurlliburlopen()对象方法/代理的补充说明urllib是python自带的一个抓取网页信息一个接口,他最主要的方法是urlopen(),是基于python的open()方法的。下面是主要说明:urllib.urlopen('网址')这里传入urlopen()的参数有特别说要求,要遵循一些网络协议,比如http,ftp,也就是说,在网址的开头必须要有http://这样的说明,如:urllib.urlopen('http://www.b

系统 2019-09-27 17:54:45 1826

Python

自学Python编程的第六天(最后代码有更好的请告诉我

2019-09-16-23:09:06自学Python的第六天,也是写博客的第六天今天学的内容是有关dict字典的用法看视频加上练习,目前还没遇到有难点,但是感觉很不好的样子没有难点以后突然出现一个有关字典的程序感觉要炸,还是得继续掌握看最后的代码吧,有更好的请告诉我======我======是=====一======条======快======乐======的======分======割======线======一.重要知识点1.dict用大括号{}括起

系统 2019-09-27 17:54:44 1826

Python

python生成词云的实现方法(推荐)

期末复习比较忙过段时间来专门写scrapy框架使用,今天介绍如何用python生成词云,虽然网上有很多词云生成工具,不过自己用python来写是不是更有成就感。今天要生成的是励志歌曲的词云,百度文库里面找了20来首,如《倔强》,海阔天空是,什么的大家熟悉的。所要用到的python库有jieba(一个中文分词库)、wordcould、matplotlib、PIL、numpy。首先我们要做的是读取歌词。我将歌词存在了文件目录下励志歌曲文本中。现在来读取他#en

系统 2019-09-27 17:54:39 1826

Python

Python提取转移文件夹内所有.jpg文件并查看每一帧的方法

python里面可以将路径里面的\替换成/避免转义。os.walk方法可以将目标路径下文件的root,dirs,files提取出来。后面对每个文件进行操作。切片操作[:]判断是否为.jpg或.JPG文件。shutil的copy方法将文件从旧路径复制到新路径。glob的glob方法提取目标文件夹的所有图片,对每张图片进行显示保存等操作。详细代码及注释如下:importosimportshutilimportglobimportcv2path='C:/User

系统 2019-09-27 17:54:30 1826

Python

python下载图片实现方法(超简单)

我们有时候会需要在网上查找并下载图片,当数量比较少的时候,点击右键保存,很轻松就可以实现图片的下载,但是有些图片进行了特殊设置,点击右键没有显示保存选项,或者需要下载很多图片,这样的情况,写一段Python爬虫代码就可以轻松解决!一、页面抓取#coding=utf-8importurllibdefgetHtml(url):page=urllib.urlopen(url)html=page.read()returnhtmlhtml=getHtml("http

系统 2019-09-27 17:54:24 1826

Python

Python读写Excel文件方法介绍

一、读取excel这里介绍一个不错的包xlrs,可以工作在任何平台。这也就意味着你可以在Linux下读取Excel文件。首先,打开workbook;复制代码代码如下:importxlrdwb=xlrd.open_workbook('myworkbook.xls')检查表单名字:复制代码代码如下:wb.sheet_names()得到第一张表单,两种方式:索引和名字复制代码代码如下:sh=wb.sheet_by_index(0)sh=wb.sheet_by_n

系统 2019-09-27 17:54:06 1826

Python

Python编程中的反模式实例分析

本文实例讲述了Python编程中的反模式。分享给大家供大家参考。具体分析如下:Python是时下最热门的编程语言之一了。简洁而富有表达力的语法,两三行代码往往就能解决十来行C代码才能解决的问题;丰富的标准库和第三方库,大大节约了开发时间,使它成为那些对性能没有严苛要求的开发任务的首选;强大而活跃的社区,齐全的文档,也使很多编程的初学者选择了它作为自己的第一门编程语言。甚至有国外的报道称,Python已经成为了美国顶尖大学里最受欢迎的编程入门教学语言。要学好

系统 2019-09-27 17:53:32 1826

Python

python爬虫 urllib模块url编码处理详解

案例:爬取使用搜狗根据指定词条搜索到的页面数据(例如爬取词条为‘周杰伦'的页面数据)importurllib.request#1.指定urlurl='https://www.sogou.com/web?query=周杰伦''''2.发起请求:使用urlopen函数对指定的url发起请求,该函数返回一个响应对象,urlopen代表打开url'''response=urllib.request.urlopen(url=url)#3.获取响应对象中的页面数据:r

系统 2019-09-27 17:53:11 1826

Python

明天找python工作,看看这几道Python面试题吧,Python面试题

第1题:如何解决验证码的问题,用什么模块,听过哪些人工打码平台?PIL、pytesser、tesseract模块平台的话有:(打码平台特殊,不保证时效性)云打码挣码斐斐打码若快打码超级鹰第2题:ip被封了怎么解决,自己做过ip池么?关于ip可以通过ip代理池来解决问题ip代理池相关的可以在github上搜索ipproxy自己选一个去说https://github.com/awolfly9/IPProxyTool提供大体思路:获取器通过requests的爬虫

系统 2019-09-27 17:52:35 1826