- 军军小站|张军博客
搜索到与相关的文章
编程技术

机器学习-KMeans聚类 K值以及初始类簇中心点的

本文主要基于AnandRajaraman和JeffreyDavidUllman合著,王斌翻译的《大数据-互联网大规模数据挖掘与分布式处理》一书。KMeans算法是最常用的聚类算法,主要思想是:在给定K值和K个初始类簇中心点的情况下,把每个点(亦即数据记录)分到离其最近的类簇中心点所代表的类簇中,所有点分配完毕之后,根据一个类簇内的所有点重新计算该类簇的中心点(取平均值),然后再迭代的进行分配点和更新类簇中心点的步骤,直至类簇中心点的变化很小,或者达到指定的

系统 2019-08-12 01:32:45 1924

Python

python爬虫存进数据库

importos,sysimportrequestsimportbs4importpymysql#importMySQLdb#连接MYSQL数据库,第一个参数是ip地址/数据库的用户名/密码/数据库名称/端口/编码格式db=pymysql.connect(host='127.0.0.1',user='root',password='mysql',db='test',port=3306,charset='utf8')#db=MySQLdb.connect('

系统 2019-09-27 17:57:32 1923

Python

python 中selenium常用的键盘键

python中selenium常用的键盘键#!/usr/bin/python#-*-coding:utf-8-*-fromseleniumimportwebdriverfromselenium.webdriver.common.keysimportKeysimporttimedriver=webdriver.Chrome()driver.get("http://www.baidu.com")time.sleep(3)driver.find_element_

系统 2019-09-27 17:56:30 1923

Python

Python-memcached的使用用法

MemcachedAPIset(key,val,time=0,min_compress_len=0)无条件键值对的设置,其中的time用于设置超时,单位是秒,而min_compress_len则用于设置zlib压缩(注:zlib是提供数据压缩用的函式库)set_multi(mapping,time=0,key_prefix='',min_compress_len=0)设置多个键值对,key_prefix是key的前缀,完整的键名是key_prefix+ke

系统 2019-09-27 17:55:05 1923

Python

python[requests]爬取知乎个人信息数据

效果技术栈python3requestsredisechart源码地址https://github.com/MasakiOvO/...python需要安装的库requests,BeautifulSoup,redis,django思路两个程序。一个程序负责爬取用户关注和粉丝列表,并把用户名存入set另一个程序负责根据用户名获取详细信息,存入hash维护两个列表1.已爬用户2.未爬用户第一个程序的流程:当未爬set不为空时:执行如下操作:每次从未爬取列表中取出

系统 2019-09-27 17:55:04 1923

Python

Python_垃圾回收机制之GC模块③

一.垃圾回收机制Python中的垃圾回收是以引用计数为主,分代收集为辅。1、导致引用计数+1的情况对象被创建,例如a=23对象被引用,例如b=a对象被作为参数,传入到一个函数中,例如func(a)对象作为一个元素,存储在容器中,例如list1=[a,a]2、导致引用计数-1的情况对象的别名被显式销毁,例如dela对象的别名被赋予新的对象,例如a=24一个对象离开它的作用域,例如f函数执行完毕时,func函数中的局部变量(全局变量不会)对象所在的容器被销毁,

系统 2019-09-27 17:55:03 1923

Python

Python 库体系整理

爱漂泊人生Python常用库大全,看看有没有你需要的作者:史豹链接:https://www.zhihu.com/question/20501628/answer/223340838来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。环境管理管理Python版本和环境的工具p–非常简单的交互式python版本管理工具。pyenv–简单的Python版本管理工具。Vex–可以在虚拟环境中执行命令。virtualenv–创建独立Pyth

系统 2019-09-27 17:53:52 1923

Python

Python编码

1.内存和硬盘都是用来存储的。内存:速度快硬盘:永久保存2.文本编辑器存取文件的原理(nodepad++,pycharm,word)打开编辑器就可以启动一个进程,是在内存中的,所以在编辑器编写的内容也都是存放在内存中的,断电后数据就丢失了。因而需要保存在硬盘上,点击保存按钮或快捷键,就把内存中的数据保存到了硬盘上。在这一点上,我们编写的py文件(没有执行时),跟编写的其他文件没有什么区别,都只是编写一堆字符而已。3.python解释器执行py文件的原理,例

系统 2019-09-27 17:53:01 1923

Python

elasticsearch python 查询的两种方法

elasticsearchpython查询的两种方法,具体内容如下所述:fromelasticsearchimportElasticsearches=Elasticsearchres1=es.search(index="2018-07-31",body={"query":{"match_all":{}}})print(es1){'_shards':{'failed':0,'skipped':0,'successful':5,'total':5},'hits

系统 2019-09-27 17:51:02 1923

Python

Python 使用matplotlib模块模拟掷骰子

掷骰子骰子类#die.py骰子类模块fromrandomimportrandintclassDie():"""骰子类"""def__init__(self,num_sides=6):"""默认六面的骰子"""self.num_sides=num_sidesdefroll(self):"""掷骰子的方法"""returnrandint(1,self.num_sides)折线图掷骰子#die_visual_plot.py使用plot可视化骰子importmat

系统 2019-09-27 17:48:44 1923