运行splash:控制台输入:dockerrun-p8050:8050scrapinghub/splash如果报错:重启Docker后再输入。
系统 2019-09-27 17:53:24 2058
这篇博客做一个爬虫的实例今天刚看到一个新闻,在7月26日上映的《哪吒之魔童降世》,密钥第二次延期至10月26日。截止至9月17日,《哪吒之魔童降世》票房已超49亿票房,在豆瓣上对该电影的评价有好有坏。说实话,博主看了这个电影真的觉得蛮不错的,因此把短评中的差评爬取下来,看下差评包括哪些方面。目录一、BeautifulSoup二、xpath三、正则表达式一、BeautifulSoup首先需要了解下差评文字内容在哪些标签下:进入豆瓣该电影短评界面,检查元素:可
系统 2019-09-27 17:53:05 2058
小编在以前给大家介绍过python一些很少用到的功能,这次我们给大家分享了6个隐藏的python功能,学习下。在python的设计哲学中,有这么一条内容:“Simpleisbetterthancomplex”,简单的代码比复杂的要好,这也是为什么python被推荐为初学者必学的语言。很多人初学python,往往会受到其他语言的影响,比如之前学过java的,把python代码写的像java一样。举个例子,在java中设计一个类时,我们常常会为内部变量定义ge
系统 2019-09-27 17:53:03 2058
关于Python语言,众说纷纭,但无外乎两种,强大,垃圾。大多数人还是对Python持肯定意见,认为它很强大。前些天和两个的大学同学聊天,一个是在做手机测试,一个是给银行系统做维护一类的工作,都在北京。都在一边工作一边学习,其中一个学的就是Python。我也不能落后啊,走上了Python的不归路。我个人觉得对广大编程爱好者来说,尤其是在校大学生,大家可以有时间学习一门语言,对以后是很有帮助的。以下实例为通过用户输入三角形三边长度,并计算三角形的面积:#-*
系统 2019-09-27 17:52:59 2058
技术要点:把sklearn中模型的训练结果保存为文件,然后再从文件中加载训练结果直接使用,不需要反复进行训练。查看原文
系统 2019-09-27 17:52:15 2058
随着脚本复杂程度增加,配置文件成了必不可少。之前一直使用json文件,当作配置文件。比较之下,configparser库更加适合。下述文件为一个简单的configparser库的配置文件config.ini[testdb]db_port=3306db_host=127.0.0.1db_user=rootdb_passwd=123456#remark[zhfx]target="zy-zhfx"targets=["zy-zhfx"]num=3上述方括号内的[]
系统 2019-09-27 17:52:13 2058
缘由日常工作中经常遇到类似的问题:把某个服务器上的某些指定的表同步到另外一台服务器。类似需求用SSIS或者其他ETL工作很容易实现,比如用SSIS的话,就会会存在相当一部分反复的手工操作。建源的数据库信息,目标的数据库信息,如果是多个表,需要一个一个地拉source和target,然后一个一个地mapping,然后运行实现数据同步。然后很可能,这个workflow使用也就这么一次,就寿终正寝了,却一样要浪费时间去做这个ETL。快速数据同步实现于是在想,可不
系统 2019-09-27 17:52:07 2058
个人想到的解决方法有两种,一种是.replace('old','new')第一个参数是需要换掉的内容比如空格,第二个是替换成的内容,可以把字符串中的空格全部替换掉.第二种方法是像这样str_1_data='abc'str_2_list=str_1_data.split()str_1=''foriinrange(len(str_2_list)):#这里可以直接用str_1.join(str2_list)str_1+=str_2_list[i]print(st
系统 2019-09-27 17:51:45 2058
ubuntu系统自带的python有多个版本,使用时难免会遇到环境变量出错,特别是当自动化运行脚本的时候。特别是近一个月来,实验室的小伙伴们的都倾心于python。为了帮助小伙伴们快速搭建自己的python环境,笔者写下了这篇教程。当然,如果ubuntu自带的python自己使用没有问题,可以略去anaconda的安装。AnacondaAnaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。因为包
系统 2019-09-27 17:51:20 2058
一、计算机结构五大部件:输入设备、输出设备、存储器、运算器、控制器二、cpu、硬盘、内存三者之间的关系cpu:是计算机运算核心和控制中心,让电脑的各个部件顺利工作,起到协调和控制作用硬盘:存储资料和软件等数据设备,有容量大,断电数据不丢失的特点,也被人们称之为“数据仓库”内存:a、负责硬盘等硬件上的数据与cpu之间的数据交换处理。b、缓存系统中的临时数据。c、断电后数据丢失三、变量的命名规则:1、要具有描述性2、变量名只能_、数字、字母组成,不能有空格或特
系统 2019-09-27 17:51:18 2058