双十一到了，当我用Python采集了电商平台所有商品后发现....

Python采集电商平台

写在前面
环境及模块
案例实现思路
代码展示
效果展示
最后

写在前面

这不是双十一快到了，为了以最优惠的价格买到自己想买的商品，我不惜用Python把ya ma xun 所有商品撸了一遍。

环境及模块

使用环境
python 3.8
pycharm 2021

模块及安装

requests  # 数据请求模块 pip install requests
parsel   # 解析数据  pip install parsel  xpath  css
1
2

案例实现思路

分析数据来源

静态数据：我们能够通过右键点击查看网页源代码找到的内容

动态数据：找不到的内容

当你不知道怎么区分的时候直接用network

代码实现步骤

发送请求通过代码的方式去访问一下上方的网址
获取数据
解析数据从获取出来的数据当中提取我们需要的
保存数据

代码展示

# 网址我都屏蔽了，以免审核不过..
f = open('yamaxun.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.writer(f)
csv_writer.writerow(['title', 'score', 'price', 'link', 'img_url'])
# 伪装
headers = {
     # 用户身份信息
    'Cookie': 'session-id=461-5432315-2651056; i18n-prefs=CNY; ubid-acbcn=460-4142230-3903418; csm-hit=tb:Y5HFFE1BM9655HPJMQX0+s-A96X9VP6NWER0K4SRXNF|1667650218841&t:1667650218841&adb:adblk_no; session-token="R+xUs8v/1RH9U8xjkIb6UNUS8yc/OinE8juA0eJPnO/+cTnMIPD81zAO3IRfcAEURcQkEbGFXpGLZKjqI0wLpOtgXzqiRwM/e7nxtYSlUxMdLnFkslL1xyWGjL+bvt3pCW3QlUub6KER8qGBe74quFjTvFoxAMKSP5zaM5G4oFCqYppJ1JLFWi7LQv/kN//k/pvPpKreZ4rIRU+A9L+83TO3ukoW6z3YkvIkDnaX4E0="; session-id-time=2082787201l',
    # 防盗链
    'Referer': 'https:///b?node=665002051',
    # 浏览器的基本信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64;x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}

for page in range(1, 400):
    print(f"---正在采集第{page}页---")
    url = f'https:///s?i=communications&rh=n%3A665002051&fs=true&page={page}&qid=1667650286&ref=sr_pg_{page}'
    # 1. 发送请求
    response = requests.get(url=url, headers=headers)
    # 2. 获取数据
    html_data = response.text
    # 3. 解析数据
    select = parsel.Selector(html_data)
    divs = select.css('div.s-main-slot.s-result-list.s-search-results.sg-row>div')
    # 每个商品的信息
    # 二次提取每个商品信息里面的 字段
    for div in divs[1: -3]:
        # 提取标签属性内容
        # ::attr(属性名称)
        img_url = div.css('img.s-image::attr(src)').get()
        # 提取标签文本内容
        # fhuiweaihfwjw ::text
        title = div.css('span.a-size-base-plus.a-color-base.a-text-normal::text').get()
        score = div.css('span.a-icon-alt::text').get()
        price = div.css('span.a-offscreen::text').get()
        link = div.css('a.a-link-normal.s-no-outline::attr(href)').get()
        print(title, score, price, link, img_url)
        # 4. 保存数据
        csv_writer.writerow([title, score, price, link, img_url])
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39