前一段时间一直在研究如何用python抓取搜索引擎结果,在实现的过程中遇到了很多的问题,我把我遇到的问题都记录下来,希望以后遇到同样问题的童鞋不要再走弯路。1.搜索引擎的选取选择一个好的搜索引擎意味着你能够得到更准确的搜索结果。我用过的搜索引擎有四种:Google、Bing、Baidu、Yahoo!。作为程序员,我首选Google。但当我看见我最爱的Google返回给我的全是一堆的js代码,根本没我想要的搜索结果。于是我转而投向了Bing的阵营,在用过一段
系统 2019-09-27 17:48:21 1855
问题提出:有时候我们采集网页,处理完毕后将字符串保存到文件或者写入数据库,这时候需要制定字符串的编码,如果采集网页的编码是gb2312,而我们的数据库是utf-8的,这样不做任何处理直接插入数据库可能会乱码(没测试过,不知道数据库会不会自动转码),我们需要手动将gb2312转换成utf-8。首先我们知道,python里的字符默认是ascii码,英文当然没问题啦,碰到中文的时候立马给跪。不知道你还记不记得,python里打印中文汉字的时候需要在字符串前面加u
系统 2019-09-27 17:48:17 1855
下面是实现代码#coding:utf-8importtime,serialfromstructimport*importbinasciifile=open('E:\\1.bin','rb')i=0while1:c=file.read(1)#将字节转换成16进制;ssss=str(binascii.b2a_hex(c))[2:-1]print(str(binascii.b2a_hex(c))[2:-1])ifnotc:breakser=serial.Seri
系统 2019-09-27 17:48:02 1855
当年学爬虫的第一个想法就是想把双色球的数据爬下来,然后看能不能用什么牛叉的算法,或者数据分析把后面的双色球概率算出来;知道现在才抽空写了这几行代码爬取了双色球的数据,我也真是够懒的;也算是闲来无事,练手的爬虫吧;好了,多余的就不说了,直接上代码吧,代码注释已经很清楚了;importsysimportrequestsfromlxmlimportetreedefget_url(url):#请求url的方法,返回htmlheaders={'User-Agent'
系统 2019-09-27 17:47:57 1855
Python是一门弱类型语言,很多从C/C++转过来的朋友起初不是很适应。比如,在声明一个函数时,不能指定参数的类型。用C做类比,那就是所有参数都是void*类型!void类型强制转换在C++中被广泛地认为是个坏习惯,不到万不得已是不会使用的。Python自然没有类型强制转换一说了,因为它是动态语言。首先,所有对象都从Object继承而来,其次,它有强大的内省,如果调用某个不存在的方法会有异常抛出。大多数情况,我们都不需要做参数类型栓查,除了一些特殊情况。
系统 2019-09-27 17:47:04 1855
分析分析网站寻找需要的网址用谷歌浏览器摁F12打开开发者工具,然后打开斗鱼颜值分类的页面,如图:在里面的请求中,最后发现它是以ajax加载的数据,数据格式为json,如图:圈住的部分是我们需要的数据,然后复制它的网址为https://www.douyu.com/gapi/rknc/directory/yzRec/1,出于学习目的只爬取第一页(减少服务器压力)。然后把网址放到浏览器中测试是否可以访问。如图:结果正常。分析json数据,提取图片链接最后分析发现
系统 2019-09-27 17:46:57 1855
首先通过一个例子来看一下本文中可能用到的对象和相关概念。复制代码代码如下:#coding:UTF-8importsys#模块,sys指向这个模块对象importinspectdeffoo():pass#函数,foo指向这个函数对象classCat(object):#类,Cat指向这个类对象def__init__(self,name='kitty'):self.name=namedefsayHi(self):#实例方法,sayHi指向这个方法对象,使用类或实
系统 2019-09-27 17:46:49 1855
django使用app机制来实现组件的重用,充分的利用已有的app可以极大的简化开发工作。目前django下的app虽然还不够丰富,却也还是有部分不错的。django-tagging就是一个不错的app。现在tag的应用非常广泛,tag基本上成了各网站的必备项目之一,django-tagging就是一个提供tag功能的app。django-tagging提供的功能非常丰富,使用起来却十分简单。下面我就介绍一些常用的用法,让大家对该app有个基本的了解,更详
系统 2019-09-27 17:46:09 1855
介绍python使用百度智能去的文字识别功能,可以识别截图中的文,登陆路验证码等等。,登陆百度智能云,选择产品服务。选择“人工智能”---文字识别。点击创建应用。如图下面有关于“文字识别”的各类信息,如通用文字识别每天可以名费使用50000次,文字识别高精度版本免费使用500次每天。对于一般应用应该还足够。在创建应用界面填入必要的信息,点击“立即创建”按纽。返回后点击“管理应用”按纽。管理应用界面主要是能看到调用接口时需要的APP_ID,API_KEY,S
系统 2019-09-27 17:46:02 1855
set无序排序且不重复,是可变的,有add(),remove()等方法。既然是可变的,所以它不存在哈希值。基本功能包括关系测试和消除重复元素.集合对象还支持union(联合),intersection(交集),difference(差集)和sysmmetricdifference(对称差集)等数学运算。sets不支持indexing。frozenset是不可变的Set。set的形式是{1,2},有点像字典。set.add(1),set.update([3,
系统 2019-09-27 17:45:55 1855