浅谈 python 爬虫
原创2023/4/19大约 2 分钟
最近处理了一个Python的爬虫项目
相关需求:
上cnblog网站上爬取某个人主页的所有文章
是一个很简单的初级python需求,毕竟博客园没有做出任何的反爬措施,那么就借这个机会来分享一下我常见的处理爬虫脚本手法链
先思考一个问题:
你觉得爬虫的精髓重点在哪里?
是你脚本的 多线程处理?高质量反扒处理手段?
都不对,是你本身对于这个业务需求的分析以及你相关的处理手法
回到这个项目上:
业务场景很简单,首先对这个人的主页进行访问
Get请求:https://home.cnblogs.com/u/XXXXXX然后对当中得到的文章:形如
https://www.cnblogs.com/XXXXXX/p/八位数字发送GET请求,随后保存下来html,再做一套html转markdown的形式
那么这个编写的链条可以分为:
内容的获取->本地的内容的处理->存储到本地文件夹
对于内容的获取:作者十分不推荐使用:selenium这个内嵌浏览器驱动去做一些大范围的数据收集,效率十分的低下
一般的更多的数据获取还是推荐使用模拟发包的request库
对于内容的获取:
# 获取文章内容
def fetch_article(url, cookies):
if not cookies:
raise ValueError("未找到有效Cookies,请检查登录状态")
response = requests.get(url, cookies=cookies)
response.raise_for_status()
return response.text。。。很早写的文章了,烂尾了,但是也放上来了,虽然只有一半,但是这一半也是有东西的
