首页资料中心网络教程正文

【python】采集每日必看黄色软件数据~

银河教育网络教程

2023-06-08 0 2,380

前言

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

环境使用:

Python 3.8
Pycharm

模块使用:

requests >>> pip install requests
re
csv

安装模块：win + R 输入cmd 输入安装命令 pip install 模块名

如果出现爆红可能是因为网络连接超时切换国内镜像源

基本思路:

明确需求:

采集网站以及数据是什么?

店铺数据

PS: 一定要清楚, 数据是请求那个链接可以获取

通过开发者工具进行抓包分析
- 打开开发者工具: F12 / fn+F12 / 鼠标右键点击检查选择network
- 点击第二页, 第一个数据包就是我们要的链接地址

代码怎么实现?

发送请求, 模拟浏览器对url地址发送请求
获取数据, 获取服务器返回响应数据 –> response
解析数据, 提取我们想要的数据内容
保存数据, 保存表格文件

代码展示

导入模块

# 导入数据请求模块 --> 第三方模块, 需要安装 pip install requests
import requests
# 导入格式化输出模块
from pprint import pprint
# 导入csv模块
import csv

创建文件

f = open('烤肉.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=[
    '店名',
    '评分',
    '评论',
    '店铺类型',
    '商圈',
    '人均',
    '最低消费',
    '经度',
    '纬度',
    '详情页',
])
csv_writer.writeheader()

“””
1. 发送请求

模拟浏览器对url地址发送请求

403 状态码没有访问权限一定要加防盗链

模拟浏览器为了防止被反爬

cookies host referer UA

“””
请求链接

url = 'https://*****/group/v4/poi/pcsearch/70?uuid=1191c166b23545adaef7.1679637144.1.0.0&userid=266252179&limit=32&offset=32&cateId=-1&q=%E7%83%A4%E8%82%89&token=AgEcI8MGJ-mKhr9oT4VY_zjPV_oFYDXfbo9sEAaWhz5Ud0ZxeKhBNbm--AOvOEMZfMX1X8atA5u22QAAAABsFwAA631DsS1KNwy05foi_83hOjAmFHyzNkrbtWhFRpR9MOAObuDNmNMpKOe8SdRaRJ_n'

伪装模拟 –> 请求头

headers = {
    # Referer 防盗链, 告诉服务器请求链接, 是从哪里跳转过来
    'Referer': 'https://*****/',
    # User-Agent 用户代理 表示浏览器基本身份信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}

发送请求

response = requests.get(url=url, headers=headers)
# 
print(response)

“””

2. 获取数据

获取服务器返回响应数据 –> response

response.json() 获取响应json字典数据

3. 解析数据

提取我们想要的数据内容

字典取值 get

键值对取值 –> 根据冒号左边的内容[键], 提取冒号右边的内容[值]

Json字典数据, 一层一层提取

print(index) –> json数据, 呈现一行

pprint(index) –> json数据, 呈现多行展开效果

“””

for循环遍历, 把列表里面元素一个一个提取出来

for index in response.json()['data']['searchResult']:

详情页链接:

    link = f'https://*****/meishi/{index["id"]}/'

创建字典 –> 方便后续保存数据

    dit = {
        '店名': index['title'],
        '评分': index['avgscore'],
        '评论': index['comments'],
        '店铺类型': index['backCateName'],
        '商圈': index['areaname'],
        '人均': index['avgprice'],
        '最低消费': index['lowestprice'],
        '经度': index['longitude'],
        '纬度': index['latitude'],
        '详情页': link,
    }
    csv_writer.writerow(dit)
    print(dit)

尾语 💝

好了，今天的分享就差不多到这里了！

完整代码、更多资源、疑惑解答直接点击下方名片自取即可。

对下一篇大家想看什么，可在评论区留言哦！看到我会更新哒(ง •_•)ง

喜欢就关注一下博主，或点赞收藏评论一下我的文章叭！！！

最后，宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇👇

文章来源于互联网:【python】采集每日必看黄色软件数据~

收藏 (0) 点赞 (0)

银河教育网络教程【python】采集每日必看黄色软件数据~ https://www.edufly.cn/data/tutorial/1031.html

银河教育

彻底解决 conda环境下pip install 无法安装包到指定conda虚拟环境

matplotlib教程二

常见问题

相关文章

如何监控PolarDB-X集群的节点健康状态和性能信息？

如何监控PolarDB-X集群的节点健康状态和性能信息？

网络教程

银河教育

3年前 3,658

PolarDB-X 如何实现高性能和高可靠性？

PolarDB-X 如何实现高性能和高可靠性？

网络教程

银河教育

3年前 3,901

PolarDB-X的部署方法

网络教程

银河教育

3年前 4,106

浅谈对象存储分布式缓存

网络教程

银河教育

3年前 3,811

猜你喜欢

发表评论

暂无评论

官方客服团队

为您解决烦忧 - 24小时在线专业服务

联系官方团队在线提交工单

如遇问题，请联系客服咨询在线客服
联系客服请注明来意银河教育
微信公众号

银河教育
返回顶部