Python爬虫之爬取小说

系统 2057 0

(^_−)☆本喵的放松方式是看小说,而且类型不限,属于偏好成谜的那一种。所以从爬取完天气预报开始,我就开始想着爬取小说,编写了一个还不算完善的爬取小说程序,期待你们的完善。

小说来源: 

努努书坊:https://www.kanunu8.com/ 

山海经:https://www.kanunu8.com/book3/7766/index.html

Python爬虫之爬取小说_第1张图片

解析页面源代码: 

Python爬虫之爬取小说_第2张图片

在页面源代码中我们可以看到 url+1为每章节的内容链接

  • 小说名字:r' (.+) '
  • 章节目录:r' (.+) '
  • 小说内容:r'

    (.+)

    '

爬取代码: 

            
              import re
import requests

url="https://www.kanunu8.com/book3/7766/"
txt=requests.get(url).content.decode("gbk")

m1=re.compile(r'
              
                
                  (.+)
                
              
              ')
print(m1.findall(txt)[0].center(23,'='))

m2=re.compile(r'
              
                (.+)
              
              ')
raw=m2.findall(txt)

SHJ=[(i[2],url+i[1]) for i in raw]	#i[2]为每一章节标题,url+i[1]为每章节的内容链接
print("小说目录已加载完毕!")

m3=re.compile(r'
              

(.+)

',re.S) #每章节小说内容 m4=re.compile(r"
") #
小说内容中的符号 with open("山海经.txt","a") as f: for i in SHJ: print("开始下载--->",i[0]) t1=requests.get(i[1]).content.decode("gbk") #每章节小说内容获取 nr=m3.findall(t1) #[0] nrl=m4.sub('',nr[0]) f.write(i[0]) f.write("\n") f.write(nrl) f.write("\n\n") print("下载完毕!")

执行结果: 

Python爬虫之爬取小说_第3张图片

 

 


更多文章、技术交流、商务合作、联系博主

微信扫码或搜索:z360901061

微信扫一扫加我为好友

QQ号联系: 360901061

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧,狠狠点击下面给点支持吧,站长非常感激您!手机微信长按不能支付解决办法:请将微信支付二维码保存到相册,切换到微信,然后点击微信右上角扫一扫功能,选择支付二维码完成支付。

【本文对您有帮助就好】

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描上面二维码支持博主2元、5元、10元、自定义金额等您想捐的金额吧,站长会非常 感谢您的哦!!!

发表我的评论
最新评论 总共0条评论