Python爬虫之爬取小说 - 军军小站|张军博客

(^_−)☆本喵的放松方式是看小说，而且类型不限，属于偏好成谜的那一种。所以从爬取完天气预报开始，我就开始想着爬取小说，编写了一个还不算完善的爬取小说程序，期待你们的完善。

小说来源：

努努书坊：https://www.kanunu8.com/

山海经：https://www.kanunu8.com/book3/7766/index.html

解析页面源代码：

在页面源代码中我们可以看到 url+1为每章节的内容链接

小说名字：r' (.+) '
章节目录：r' (.+) '
小说内容：r'
(.+)
'

爬取代码：

            
              import re
import requests

url="https://www.kanunu8.com/book3/7766/"
txt=requests.get(url).content.decode("gbk")

m1=re.compile(r'
              
                
                  (.+)
                
              
              ')
print(m1.findall(txt)[0].center(23,'='))

m2=re.compile(r'
              
                (.+)
              
              ')
raw=m2.findall(txt)

SHJ=[(i[2],url+i[1]) for i in raw]	#i[2]为每一章节标题，url+i[1]为每章节的内容链接
print("小说目录已加载完毕!")

m3=re.compile(r'
              
                (.+)
              
              ',re.S)	#每章节小说内容
m4=re.compile(r"
              

              ")	#
              

              小说内容中的符号

with open("山海经.txt","a") as f:
	for i in SHJ:
		print("开始下载--->",i[0])
		t1=requests.get(i[1]).content.decode("gbk")	#每章节小说内容获取
		nr=m3.findall(t1)   #[0]
		nrl=m4.sub('',nr[0])
		f.write(i[0])
		f.write("\n")
		f.write(nrl)
		f.write("\n\n")
print("下载完毕！")

执行结果：

更多文章、技术交流、商务合作、联系博主

微信扫码或搜索：z360901061

微信扫一扫加我为好友

QQ号联系： 360901061

您的支持是博主写作最大的动力，如果您喜欢我的文章，感觉我的文章对您有帮助，请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧，狠狠点击下面给点支持吧，站长非常感激您！手机微信长按不能支付解决办法：请将微信支付二维码保存到相册，切换到微信，然后点击微信右上角扫一扫功能，选择支付二维码完成支付。

【本文对您有帮助就好】元

2元

5元

10元

20元

自定义