(^_−)☆本喵的放松方式是看小说,而且类型不限,属于偏好成谜的那一种。所以从爬取完天气预报开始,我就开始想着爬取小说,编写了一个还不算完善的爬取小说程序,期待你们的完善。
小说来源:
努努书坊:https://www.kanunu8.com/
山海经:https://www.kanunu8.com/book3/7766/index.html
解析页面源代码:
在页面源代码中我们可以看到 url+1为每章节的内容链接
- 小说名字:r' (.+) '
- 章节目录:r' (.+) '
-
小说内容:r'
(.+)
'
爬取代码:
import re
import requests
url="https://www.kanunu8.com/book3/7766/"
txt=requests.get(url).content.decode("gbk")
m1=re.compile(r'
(.+)
')
print(m1.findall(txt)[0].center(23,'='))
m2=re.compile(r'
(.+)
')
raw=m2.findall(txt)
SHJ=[(i[2],url+i[1]) for i in raw] #i[2]为每一章节标题,url+i[1]为每章节的内容链接
print("小说目录已加载完毕!")
m3=re.compile(r'
(.+)
',re.S) #每章节小说内容
m4=re.compile(r"
") #
小说内容中的符号
with open("山海经.txt","a") as f:
for i in SHJ:
print("开始下载--->",i[0])
t1=requests.get(i[1]).content.decode("gbk") #每章节小说内容获取
nr=m3.findall(t1) #[0]
nrl=m4.sub('',nr[0])
f.write(i[0])
f.write("\n")
f.write(nrl)
f.write("\n\n")
print("下载完毕!")
执行结果: