前提:python3.4windows作用:通过搜狗的微信搜索接口http://weixin.sogou.com/来搜索相关微信文章,并将标题及相关链接导入Excel表格中说明:需xlsxwriter模块,另程序编写时间为2017/7/11,以免之后程序无法使用可能是网站做过相关改变,程序较为简单,除去注释40多行。正题:思路:打开初始Url-->正则获取标题及链接-->改变page循环第二步-->将得到的标题及链接导入Excel爬虫的第一步都是先手工操作
系统 2019-09-27 17:54:31 2123
一般用xlml但遇到过解析出来的内容不一样。有误用另一种方法得到正确的,有误应该只是极少问题。这种方案备用html=browser.page_sourcehtm=bs(html,'html.parser')
系统 2019-09-27 17:53:29 2123
上面我们学习了RDD如何转换,即一个RDD转换成另外一个RDD,但是转换完成之后并没有立刻执行,仅仅是记住了数据集的逻辑操作,只有当执行了Action动作之后才会真正触发Spark作业,进行算子的计算执行操作有:reduce(func)collect()count()first()take(n)takeSample(withReplacement,num,[seed])takeOrdered(n,[ordering])saveAsTextFile(path
系统 2019-09-27 17:52:33 2123
1.锁:Lock(1次放1个)同步锁线程安全,多线程操作时,内部会让所有线程排队处理。如:list/dict/Queue线程不安全+人=>排队处理。需求:a.创建100个线程,在列表中追加8b.创建100个线程v=[]锁-把自己的添加到列表中。-在读取列表的最后一个。解锁以后锁一个代码块:importthreadingimporttimev=[]lock=threading.Lock()deffunc(arg):lock.acquire()#锁的区域---
系统 2019-09-27 17:52:33 2123
在之前学习的RDD和DataFrame数据集主要处理的是离线数据,随着时代发展进步,我们会发现越来越多数据是在源源不断发回到数据中心,同时需要立刻响应给用户,这样的情况我们就会用到实时处理,常用的场景有实时显示某商场一小时人流密度、实时显示当天火车站人口总数等等。接下来从实时数据源说起,实时数据源主要有:FileSourceSocketSourceFlumeSourceKafkaSourceFileSource指的是文件作为数据来源,常用的有本地文件fil
系统 2019-09-27 17:52:32 2123
1#!/usr/bin/envpython3.72#-*-coding:utf-8-*-3#Author:Lancer2019-09-0210:07:2145importsys,getopt67defusage():8print("usagecall")910defmain():11try:12opts,args=getopt.getopt(sys.argv[1:],"ho:v",["help","output="])13print(sys.argv[1:
系统 2019-09-27 17:52:18 2123
经典的汉诺塔问题:这里我们可以利用递归的思想去做,递归中重要的三步,我们逐条来实现:1、函数+分支结构2、递归链条3、递归基例函数+分支结构:defhanoi(n,start,end,mid):globalcountif:else:这里我们可以定义一个函数,里面的参数有:一共有n个圆盘,从start柱子移到end柱子,中间柱子为mid。这里定义一个全局变量来计算移动的步骤数,若为局部变量,会在函数内部不断初始化,所以需要定义全局变量。递归基例:ifn==1
系统 2019-09-27 17:52:07 2123
一.if语句1.if语句作用:让程序根据条件选择性地执行某条语句或某些语句说明:if语句又叫条件语句,也叫分支语句语法:if真值表达式1:语句块1elif真值表达式2:语句块2...else:语句块4语法说明:elif子句可以有0个,1个或多个else子句可以有0个或1个且只能放在此if语句的最后要求:if语句内部的语句通常要以4个空格的缩进来表示包含关系,相同的缩进格式代表相同的所属级别示例:#输入一个数字,判断这个数是0,还是正数,还是负数n=int(
系统 2019-09-27 17:51:22 2123
将test01.csv中的张三语文成绩替换成100,且不改变文件其他内容新建一个test02.csv的空文件代码实现如下:importoswithopen("./test01.csv",mode="r",encoding="utf-8")ast1,open("./test02.csv",mode="w",encoding="utf-8")ast2:forlineint1:#文件也是可以迭代的一行行拿出来替换写入新文件中,节省内存if"语文"inline:l
系统 2019-09-27 17:51:18 2123
本文总结分析了selenium2.0中常用的python函数。分享给大家供大家参考,具体如下:新建实例driver=webdriver.Firefox()此处定位均使用的百度首页输入框1.通过标签属性Id查找元素方法:find_element_by_id(element_id)实例:driver.find_element_by_id("kw")2.通过标签属性name查找元素方法:find_element_by_name(element_name)实例:d
系统 2019-09-27 17:50:52 2123