这次只演示了,如何在真实项目内用到BeautifulSoup库来解析网页,而新浪的新闻是ajax加载过来的数据,在这里我们只演示解析部分数据(具体反扒机制没做分析)。代码地址:https://gitee.com/dwyui/BeautifulSoup_xinlang.git。关于的爬虫的博客已经越来越多,使用到的技术也越来越多,后期我还会持续写下去,大概从几个角度去写,多线程爬取(提高效率),如何更好的做到爬取数据(破解反扒)。用redis管理多线程和代理
系统 2019-09-27 17:45:54 1896
1.编译nginx在网上买了一本《实战nginx-取代Apache的高性能服务器》,写的比较浅,主要是些配置方面的东西,不过却正是目前我所需要的。由于需要支持https和rewrite,所以除了nginx的源码之外,又下载了openssl-0.9.8r.tar.gz和pcre-8.12.tar.gz,把他们和nginx-1.0.4.tar.gz放到同一个目录。为了方便编译,笔者写了一个脚本,代码如下:#!/bin/bash#================
系统 2019-09-27 17:38:47 1896
myPhoneBook2.py#!/usr/bin/python#-*-coding:utf-8-*-importreclassPhoneBook(object):'''这是一个电话簿脚本。该脚本能够实现AddContact:添加联系人信息ShowContact:查找姓名显示联系人SaveContacts:存储联系人到TXT文档(存储格式――姓名:号码/号码)LoadContacts:从txt文档中载入联系人'''def__init__(self):sel
系统 2019-09-27 17:38:30 1896
1lambda函数函数格式是lambdakeys:express匿名函数lambda是一个表达式函数,接受keys参数,返回表达式的值。所以不用return,也没有函数名,经常用在需要key参数的函数中,比如sorted。2元组(),它是以逗号辨别的,而不是小括号。比如一个元素的元组新手经常写成(12),其实他会被解释成单个元素12.正确的写法应该是(12,),在元素后面加上逗号。3模块导入。比如importrandomprintrandom.choice
系统 2019-09-27 17:38:19 1896
easy_install卸载通过easy_install安装的模块可以直接通过easy_install-mPackageName卸载,然后删除\Python27\Lib\site-packages目录下的egg。setup.py卸载通过发行包附带的setup.py安装的模块,首选setup.py提供的uninstall选项。如果作者没有提供uninstall选项,则通过如下命令行手动卸载:首先获取安装过程中产生的文件:pythonsetup.pyinsta
系统 2019-09-27 17:38:18 1896
最近开发了一个GoogleAnalytics相关的应用,但需要在Windows下部署,结合网上的相关经验,最终选择了apache+mod_wsgi这样的配置。修改python应用复制代码代码如下:Notethatmod_wsgirequiresthattheWSGIapplicationentrypointbecalled'application'.Ifyouwanttocallitsomethingelsethenyouwouldneedtoconfig
系统 2019-09-27 17:38:15 1896
对于某一类网站,管理界面是基础设施中非常重要的一部分。这是以网页和有限的可信任管理者为基础的界面,它可以让你添加,编辑和删除网站内容。一些常见的例子:你可以用这个界面发布博客,后台的网站管理者用它来润色读者提交的内容,你的客户用你给他们建立的界面工具更新新闻并发布在网站上,这些都是使用管理界面的例子。但是管理界面有一问题:创建它太繁琐。当你开发对公众的功能时,网页开发是有趣的,但是创建管理界面通常是千篇一律的。你必须认证用户,显示并管理表格,验证输入的有效
系统 2019-09-27 17:37:46 1896
arora是一个很不错的开源的浏览器,我说它不错并不见得它的性能很好,但它代码确实通俗易懂,在我的gcc4.7.2下编译只有一个warning,很多东西给出了不错的解决方案.我的downloadMgr还"借鉴"了它的代码随便吐槽一下qwebview之类的东东,居然下载还要程序员自己写qtwebkit
系统 2019-08-29 23:40:26 1896
已经是RIAMeeting的第三次活动了,参加的人越来越多。这也体现了Flex等RIA技术的成长。这次活动除了主题演讲,还增加了分组讨论。第一个主题,kenshin(Flex第一步作者)AIR相关内容。看得出准备的内容很多,时间太少,演示了一个书签的air应用。介绍了air的开发和应用。第二个主题,联想Best4C介绍,据说所有的控件都是他们自己写的。编译后只有200多k。他们现在正在招人。然后统计一下大家关心的话题进行分组讨论1.Flex与后台通信方案2
系统 2019-08-29 22:25:39 1896
1.1AOP的概念简单地说,AOP就是将那些与业务无关,却为业务模块所共同调用的逻辑或责任,例如事务处理(Transactions),日志管理(logging,tracing,profilingandmonitoring记录跟踪优化校准),权限控制(Authentication),同步(Synchronization),封装起来,便于减少系统的重复代码,降低模块间的耦合度,并有利于未来的可操作性和可维护性。实质上,AOP只是OOP的一种补充或某种改进,它转
系统 2019-08-29 22:12:50 1896