当前位置: 首页>关注 >
Python采集C站高校信息实战示例
2023-05-06 06:01:50 来源:脚本之家
(资料图)
目录
前言功能实现内容获取总结前言
大家好,我们今天来爬取c站的高校名单,把其高校名单,成员和内容数获取下来,不过,我们发现这个网站比我们平时多了一个验证,下面看看我是怎么解决的。
功能实现
话不多说,我们和平时一样,发送我们的请求,按照平时,我们看看代码怎么写。
url = "https://bizapi.csdn.net/community-cloud/v1/homepage/community/by/tag?deviceType=PC&tagId=37" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36"} response = requests.get(url=url,headers=headers)
我们在这里使用requests
库发送 GET 请求,并将 URL 和请求头作为参数传递给get
方法。请求的 URL 是https://bizapi.csdn.net/community-cloud/v1/homepage/community/by/tag?deviceType=PC&tagId=37
,表示查询社区根据标签分类的数据。请求头包含了User-Agent
和Accept
字段,分别表示客户端的 User-Agent 和 Accept 协议类型。
不过我们会发现,我们得不到数据,就说明我们被反爬了,我尝试了很多次,我们发现它做了一个验证。
headers = { "accept": "application/json, text/plain, */*", "origin": "https://bbs.csdn.net", "referer": "https://bbs.csdn.net/college?utm_source=csdn_bbs_toolbar&spm=1035.2022.3001.8850&category=37", "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36", "x-ca-key": "203899271", "x-ca-nonce": "13b10c23-6a9b-423e-92a7-b114bc2c7f48", "x-ca-signature": "Hhnf/RUARDM2jddNAkl2tJ6hpXfweWbY1U4/yh6FCZM=", "x-ca-signature-headers": "x-ca-key,x-ca-nonce", }
我们这里科普一下,x-ca-signature 是对请求内容的签名,用于验证请求的完整性和可信性。 签名通常是通过使用私钥和一种哈希算法(如 SHA256)对请求内容进行计算得到的。 如果请求头中出现这三个参数,放心,是为了反爬用的,当然也可以用于限制请求频率,防止恶意攻击。
在解决该反爬问题时,第一步就是要找到他们的加密点。寻找 x-ca-key、x-ca-nonce、x-ca-signature 加密位置这一步主要看你对开发者工具的使用熟练程度了,寻找任意一个携带该请求头参数的请求,然后添加相应断点。通过请求地址中的部分关键字,即可添加 XHR 断点。再次刷新页面,可进入断点中,一般会停留在send()函数位置。 下面的步骤就是比较枯燥的了,需要一点点的解密,例如在本函数头部找到headers,发现其参数 x-ca-key、x-ca-nonce、x-ca-signature 已经被赋值。
这里我们没有做多页爬虫,就没有去解密了,感兴趣的朋友自己去尝试。
内容获取
我们拿到了数据,接下来就可以提取内容了,我们看看代码怎么写,这里就很简单了。
data =responses.json()["data"] for list in data: tagName = list["tagName"] list_url= list["url"] res = requests.get(list_url) num = re.findall("我们这里使用
responses.json()["data"]
读取 API 响应 JSON 数据,并在一个数组中提取数据。然后,它使用一个 for 循环遍历数组中的每个元素,提取tagName
和url
两个字段,并使用requests.get()
发送 GET 请求获取数据。最后,它使用正则表达式从响应文本中提取num
数据,并将其打印到控制台上。总结
我们这样就获取到了内容,本文仅供学习,更多关于Python采集C站高校信息的资料请关注脚本之家其它相关文章!
关键词:
为你推荐
-
Python采集C站高校信息实战示例
-
REITs二级市场价格回调,长期投资价值显现?投资者可关注这些方面 当前聚焦
-
pokemmo属性克制表图片(pokemmo属性克制表)
-
加拿大皇家银行:维持Monster Beverage(MNST.US)优于大市评级_每日看点
-
当前速看:REITs二级市场价格回调,长期投资价值显现?投资者可关注这些方面
-
郴州苏仙区:把“五一”当作省旅发大会“模拟考” 为游客保驾护航
-
【全球聚看点】理念·思路·实践-绵阳师范学院办学思想研究_关于理念·思路·实践-绵阳师范学院办学思想研究介绍
-
P4093[HEOI2016/TJOI2016]序列-全球滚动
-
当前讯息:新农开发收问询函 要求说明本次重大资产出售的目的和必要性 是否损害上市公司及中小股东利益
-
好望角在哪里啊_好望角在哪里|天天热闻
-
聊起这些,“闯队”一下打开话匣子
-
中国证券投资基金业协会:积极应对数字化带来的市场变局,推动基金托管和服务业务数字化转型-环球要闻
-
今日播报!海棠苏轼赏析和翻译_海棠苏轼赏析
-
每日热点:坤集团(00924.HK)5月5日收盘涨12.7%
-
环球讯息:南宁潮宏基今日黄金价格查询(2023年5月5日)
-
蒲城县召开大气污染治理专项行动指挥部第二次调度会
-
天天日报丨项伯多次被迫项羽帮助刘邦 项伯最后待遇如何
-
天天微动态丨游客遭餐馆设低消当地部门登门道歉:点162元要求满200
-
《海贼王》结局已有定数,t骨一死,证明和明末一个剧本
-
矿石视在回采率|全球信息
推荐内容
- Python采集C站高校信息实战示例
- REITs二级市场价格回调,长期投资价值显现?投资
- pokemmo属性克制表图片(pokemmo属性克制表)
- 加拿大皇家银行:维持Monster Beverage(MNST.US)
- 当前速看:REITs二级市场价格回调,长期投资价值
- 郴州苏仙区:把“五一”当作省旅发大会“模拟考”
- 【全球聚看点】理念·思路·实践-绵阳师范学院办
- P4093[HEOI2016/TJOI2016]序列-全球滚动
- 当前讯息:新农开发收问询函 要求说明本次重大资
- 好望角在哪里啊_好望角在哪里|天天热闻
- 聊起这些,“闯队”一下打开话匣子
- 中国证券投资基金业协会:积极应对数字化带来的市
- 今日播报!海棠苏轼赏析和翻译_海棠苏轼赏析
- 每日热点:坤集团(00924.HK)5月5日收盘涨12.7%
- 环球讯息:南宁潮宏基今日黄金价格查询(2023年5
- 蒲城县召开大气污染治理专项行动指挥部第二次调度
- 天天日报丨项伯多次被迫项羽帮助刘邦 项伯最后待
- 天天微动态丨游客遭餐馆设低消当地部门登门道歉:
- 《海贼王》结局已有定数,t骨一死,证明和明末一
- 矿石视在回采率|全球信息
- 世界观焦点:近两三天江南华南等地有较强降雨天气
- 鸡蛋在盐水中浮起来的原理(鸡蛋会浮在盐水的上面
- 【世界热闻】康县引导农民大力发展果蔬产业 推动
- 全球新动态:“五一”假期北京市开展文化活动超41
- XBB.1.16会引发新一轮疫情吗?多国发现新毒株,全
- 广西师大附属外国语学校招生_广西师大附属外国语
- 假期消费热潮提振中国经济 彰显超大规模市场潜力
- 中电联:一季度末非化石能源发电装机容量占比首次
- 立面图怎么画
- 全球热推荐:什么水果糖分低营养高 什么水果糖分低
- 守护“夜间烟火气”!这群普陀人巧解占道“任性”
- 华硕PN42迷你主机将上市,采用英特尔N100处理器
- 5部门联合印发规划 推动重点流域水生态环境保护|
- 废旧木材哪里回收_废旧木材在哪里可以回收
- 华夏银行:5月4日融资净买入3578.56万元,连续3日
- 全球新资讯:尤文祝贺那不勒斯:我们曾收到很多赞
- 中华酷宝新车多少钱_中华酷跑_世界观点
- 全球短讯!良辰美景奈何天 匪我思存_良辰美景奈
- 小米13Ultra 1TB白色16GB+1TB版本今天开售:首发
- 燃烧精华怎么刷_燃烧精华怎么获得|环球时快讯
油气
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
经济
-
中新网通辽10月18日电 (记者 张林虎)18日,记者从内蒙古自治区通辽市奈曼旗公安局获悉,国家一级保护动物--梅花鹿误入当地村民羊群,
-
中新网杭州10月18日电 (王题题 胡燕婕)云天收夏色,浅秋正渐浓。10月18日,浙江杭州市西湖游船有限公司推出的惠民多站点“西湖环湖游
-
中新网福州10月18日电 (记者 龙敏 王东明)福州市晋安区官方18日晚间通报,18日14时47分,晋安区岳峰镇化工路爱摩轮商业广场项目摩天
-
中新网兰州10月18日电 (闫姣 艾庆龙 吉翔)“红山白土头,黄河向西流。”不少人疑问,天下黄河向东流,为何甘肃永靖县这段黄河却向西
-
中新网北京10月18日电 《清华城市健康设施指数》18日在北京发布。报告成果显示,城市健康设施指数领先城市以中心城市和东部沿海城市