Python数据科学入门DmitryZinoviev著熊子源译第三章使用文本数据第13单元处理HTML文件Beautifulsoup通过Python字典接口实现对HTML标签属性的访问。如果标签对象t表示超链接,则超链接目标的字符串值为t[“herf”].string。HTML标签是不区分大小写的。Soup最有用的函数:soup.find()找到目标的一个实例soup.find_all()找到目标的所有实例HTML\XML之所以强大,是因为有多样化的功能,
系统 2019-09-27 17:53:41 2038
最近基于对抗样本做了一些工作,这里写一篇论文介绍对抗样本基本的原理和生成方法。内容上参考Goodfellow的论文ExplainingandHarnessingAdversarialExamples一、什么是对抗样本?对抗样本的概念最早提出于2014年Szegedy的论文IntriguingPropertiesofNeuralNetworks.在论文,作者发现了一种有趣的现象,即:当前流行的机器学习模型包括神经网络会容易以很高的置信度分错和原始样本仅仅有轻
系统 2019-09-27 17:53:26 2038
装饰器是什么?定义:装饰器是用于拓展原函数功能的一种语法,返回新函数替换旧函数作用:在不更改原函数代码的前提下,拓展出新功能@语法:加上@符系统会自动把下面的函数当成参数传递到装饰器中,从下到上.@符又被称作语法糖装饰器:1.普通装饰器defdecor(func):definner():print(“财务拿钱买货”)func()print(“卖货的钱还回来”)returninner@decor#效果等同于sell=decor(sell)defsell():
系统 2019-09-27 17:53:22 2038
前言正则表达式就是从字符串中发现规律,并通过“抽象”的符号表达出来。打个比方,对于2,5,10,17,26,37这样的数字序列,如何计算第7个值,肯定要先找该序列的规律,然后用n2+1这个表达式来描述其规律,进而得到第7个值为50。对于需要匹配的字符串来说,同样把发现规律作为第一步,本文主要使用正则表达式完成字符串的查询匹配、替换匹配和分割匹配。常用的正则符号在进入字符串的匹配之前,先来了解一下都有哪些常用的正则符号,见下表所示:如果读者能够比较熟练地掌握
系统 2019-09-27 17:52:54 2038
前言栈、队列和优先级队列都是非常基础的数据结构。Python作为一种“编码高效”的语言,对这些基础的数据结构都有比较好的实现。在业务需求开发过程中,不应该重复造轮子,今天就来看看些数据结构都有哪些实现。0x00栈(Stack)栈是一种LIFO(后进先出)的数据结构,有入栈(push)、出栈(pop)两种操作,且只能操作栈顶元素。在Python中有多种可以实现栈的数据结构。1、listlist是Python内置的列表数据结构,它支持栈的特性,有入栈和出栈操作
系统 2019-09-27 17:52:46 2038
设计模式的重要性,不再赘述,分方法和类型逐一记录,以备忘。一、单例模式单例模式,顾名思义,python中的某个类有且仅有一个对象(实例);1.应用场景:某个实例必须保证全局唯一性,如读取某些配置文件的实例,需要确保在任意地方都是相同配置值;2.实现方法:使用python中的基类object中__new__();3.代码:classsingleton(object):def__new__(cls,*args,**kw):ifnothasattr(cls,'_
系统 2019-09-27 17:52:35 2038
上面我们学习了RDD如何转换,即一个RDD转换成另外一个RDD,但是转换完成之后并没有立刻执行,仅仅是记住了数据集的逻辑操作,只有当执行了Action动作之后才会真正触发Spark作业,进行算子的计算执行操作有:reduce(func)collect()count()first()take(n)takeSample(withReplacement,num,[seed])takeOrdered(n,[ordering])saveAsTextFile(path
系统 2019-09-27 17:52:33 2038
代码如下#!/bin/python#coding=utf-8#python-version=2.75#使用python2fromftplibimportFTP#引用ftplib库中的FTP功能模块,进行ftp下载使用importtime#引用time模块importos#引用os模块"""使用字典,定义交换机主机,一个字典包含多个键,一个键使用一个列表,包含多个主机地址按照实际情况定义"""dic={'tongjiju':['XXXX.XXXX.XXXX.
系统 2019-09-27 17:52:21 2038
一、计算机结构五大部件:输入设备、输出设备、存储器、运算器、控制器二、cpu、硬盘、内存三者之间的关系cpu:是计算机运算核心和控制中心,让电脑的各个部件顺利工作,起到协调和控制作用硬盘:存储资料和软件等数据设备,有容量大,断电数据不丢失的特点,也被人们称之为“数据仓库”内存:a、负责硬盘等硬件上的数据与cpu之间的数据交换处理。b、缓存系统中的临时数据。c、断电后数据丢失三、变量的命名规则:1、要具有描述性2、变量名只能_、数字、字母组成,不能有空格或特
系统 2019-09-27 17:51:18 2038
计算机之所以能做很多自动化的任务,因为它可以自己做条件判断。比如,输入用户年龄,根据年龄打印不同的内容,在Python程序中,可以用if语句实现:age=20ifage>=18:print'yourageis',ageprint'adult'print'END'注意:==Python代码的缩进规则==。具有相同缩进的代码被视为代码块,上面的3,4行print语句就构成一个代码块(但不包括第5行的print)。如果if语句判断为True,就会执行这个代码块。
系统 2019-09-27 17:51:01 2038