#使用StandardScaler进行数据预处理importnumpyimportmatplotlib.pyplotaspltfromsklearn.datasetsimportmake_blobsX,y=make_blobs(n_samples=40,centers=2,random_state=50,cluster_std=2)plt.scatter(X[:,0],X[:,1],c=y,cmap=plt.cm.cool)plt.show()#导入Sta
系统 2019-09-27 17:52:41 2046
Python中的json对象实际是一个字典结构,用于存储和交换信息,导入json模块:importjson1,把字符串转换为jsonjson的load()方法用于把josn格式的字符串转换为json对象,这实际上是一个字典结构:json_string='{"name":"John","age":30,"city":"NewYork"}'#parsestringtojsonjson_obj=json.loads(json_string)2,把字典转换为jso
系统 2019-09-27 17:52:33 2046
在之前学习的RDD和DataFrame数据集主要处理的是离线数据,随着时代发展进步,我们会发现越来越多数据是在源源不断发回到数据中心,同时需要立刻响应给用户,这样的情况我们就会用到实时处理,常用的场景有实时显示某商场一小时人流密度、实时显示当天火车站人口总数等等。接下来从实时数据源说起,实时数据源主要有:FileSourceSocketSourceFlumeSourceKafkaSourceFileSource指的是文件作为数据来源,常用的有本地文件fil
系统 2019-09-27 17:52:32 2046
Python爬虫,使用BeautifulSoup可以轻松解析页面结果,下面是使用该方法爬取boss页面的职位信息:包括职位名称、薪资、地点、公司名称、公司融资情况等信息。通过这个示例可以轻松看到BeautifulSoup的使用方法。1、爬取boss直聘的职位信息importrequestsfrombs4importBeautifulSoupfrommiddlewaresimportget_random_proxy,get_random_agentimpor
系统 2019-09-27 17:51:39 2046
pika生产者程序大致步骤:1.建立连接connection,需要认证的调用认证参数2.创建通道channel当然channel可以池化,这样可以重复使用3.声明队列指定队列属性,一旦指定属性不能修改,例如是否持久化,名称4.声明交换机交换机类型,名称等,也可以不用声明,直接使用“”空字符串,默认交换机也可以5.将队列与交换机绑定queue_bind6.basic_publish发送到交换机指定路由键pika消费者程序大致步骤:1.建立连接connecti
系统 2019-09-27 17:51:26 2046
将test01.csv中的张三语文成绩替换成100,且不改变文件其他内容新建一个test02.csv的空文件代码实现如下:importoswithopen("./test01.csv",mode="r",encoding="utf-8")ast1,open("./test02.csv",mode="w",encoding="utf-8")ast2:forlineint1:#文件也是可以迭代的一行行拿出来替换写入新文件中,节省内存if"语文"inline:l
系统 2019-09-27 17:51:18 2046
python修改大数据文件时,如果全加载到内存中,可能会导致内存溢出。因此可借用如下方法,将分件分段读取修改。withopen('file.txt','r')asold_file:withopen('file.txt','r+')asnew_file:current_line=0#定位到需要删除的行whilecurrent_line<(3-1):#(del_line-1)old_file.readline()current_line+=1#当前光标在被删除
系统 2019-09-27 17:51:18 2046
打开excel文件读取数据data=xlrd.open_workbook("excelFile.xls")读取工作表table=data.sheets()[0]#通过索引顺序获取table=data.sheet_by_index(0)#通过索引顺序获取table=data.sheet_by_name(u'Sheet1')#通过名称获取获取整行和整列的值(数组)table.row_values(i)#获取整行值table.col_values(i)#获取整列
系统 2019-09-27 17:51:17 2046
在接收raw_input方法后,判断接收到的字符串是否为数字例如:str=raw_input("pleaseinputthenumber:")ifstr.isdigit():为True表示输入的所有字符都是数字,否则,不是全部为数字str为字符串str.isalnum()所有字符都是数字或者字母str.isalpha()所有字符都是字母str.isdigit()所有字符都是数字str.islower()所有字符都是小写str.isupper()所有字符都是
系统 2019-09-27 17:51:10 2046
B.py调用A.py的函数或类在同一个文件夹下调用函数:A.py文件:defadd(x,y):print('和为:%d'%(x+y))B.py文件:importAA.add(1,2)或fromAimportaddadd(1,2)调用类:A.py文件:classA:def__init__(self,xx,yy):self.x=xxself.y=yydefadd(self):print("x和y的和为:%d"%(self.x+self.y))B.py文件:fr
系统 2019-09-27 17:51:08 2046