下面是学习的网址:
目录
IndexError | 索引错误 | ZeroDivisionError | 除零错误 |
FileNotFindError | 找不到文件错误 | TypeError | 类型错误 |
KeyError | 键错误 | ValueError | 值错误 |
IndentationError | 缩进错误 | ImportError | 导入模型错误 |
ArithmeticError | 计算错误 | SyntaxError | 语法错误 |
AttributeError | 属性错误 | ...... | ...... |
对于我这个初学者,出现最多的应该是SyntaxError语法错误了,不是忘记冒号,就是忘记语法应该怎么用了。
我也贴上我自己有注释的代码:
- try: # 下面缩进写可能会出现错误的地方
- user_weight = float(input("请输入您的体重(单位:斤):"))
- user_height = float(input("请输入您的身高(单位:厘米):"))
- user_BMI = (user_weight / 2) / ((user_height / 100) ** 2)
- except ValueError: # except后面直接加可能出现的错误类型,这个错误类型必须显示为一个独特的颜色,这里为值错误类型
- print("输入不为合理数值,请重新运行程序,并输入正确的数字。")
- except ZeroDivisionError: # 此处为除零错误类型
- print("身高不能为零,请重新运行程序,并输入正确的数字。")
- except:
- print("发生了未知错误,请重新运行程序。")
- else:
- print("您的BMI值为" + str(user_BMI)) # 都没有错误的话输出BMI值
- finally:
- print("程序运行结束")
- # 无论是否有错误,最终输出都会打印这一句话
对于第三个except后面没有跟错误类型,PyCharm是会有警告的,但是没有影响,因为它默认后面是需要填一个错误类型的。
"assert + 布尔值表达式",用这种方法来测试用例,但是缺点是一行报错就会中止(AssertionError断言错误),后面的用例也就不能测试了。
下图是unittest。TestCase类的常见测试方法:
!!!这一部分实在是太难了,建议多看看原视频,我贴上UP主的代码。
- # 这是实现代码
- class ShoppingList:
- """初始化购物清单,shopping_list是字典类型,包含商品名和对应价格
- 例子:{"牙刷": 5, "沐浴露": 15, "电池": 7}"""
- def __init__(self, shopping_list):
- self.shopping_list = shopping_list
-
- """返回购物清单上有多少项商品"""
- def get_item_count(self):
- return len(self.shopping_list)
-
- """返回购物清单商品价格总额数字"""
- def get_total_price(self):
- total_price = 0
- for price in self.shopping_list.values():
- total_price += price
- return total_price
- # 这是测试代码
- '''
- 注意:此文件是针对以下类的测试文件。
- 你可以在此文件同一文件夹下新建shopping_list.py,并复制以下内容到该文件:
- class ShoppingList:
- """初始化购物清单,shopping_list是字典类型,包含商品名和对应价格
- 例子:{"牙刷": 5, "沐浴露": 15, "电池": 7}"""
- def __init__(self, shopping_list):
- self.shopping_list = shopping_list
- """返回购物清单上有多少项商品"""
- def get_item_count(self):
- return len(self.shopping_list)
- """返回购物清单商品价格总额数字"""
- def get_total_price(self):
- total_price = 0
- for price in self.shopping_list.values():
- total_price += price
- return total_price
- '''
-
- import unittest
- from shopping_list import ShoppingList
-
- class TestShoppingList(unittest.TestCase):
- def setUp(self):
- self.shopping_list = ShoppingList({"纸巾": 8, "帽子": 30, "拖鞋": 15})
-
- def test_get_item_count(self):
- self.assertEqual(self.shopping_list.get_item_count(), 3)
-
- def test_get_total_price(self):
- self.assertEqual(self.shopping_list.get_total_price(), 55)
要测试的时候需要在终端输入: python -m unittest 回车。
此处的shopping_list是实现代码的文件名,Shoppinglist是需要测试的对象,如定义的函数等。
为了避免后面重复编写相同的开头测试语句,在定义类的第一个函数运用了setUp(self)。
第一步、获取网页内容(python的Requests请求优雅地发送HTTP请求);
第二步、解析网页内容(python的Beautiful Soup库解析获得的HTML内容);
第三步、存储(数据库)或是分析(可视化)数据。
我不生产知识,我只是 知识的搬运工!哈哈哈
下面我贴出三张图,分别代表User_Agent的类型及表示意思、HTTP请求能够接受的格式、HTTP响应的状态码及对应信息。
HTTP请求操作涉及requests.get , requests.status_code , requests.ok ,requests.text 操作,UP主演示代码如下:
- import requests
- head = {"User_Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0"} # 浏览器类型及版本和操作系统信息等等
- response = requests.get("http://books.toscrape.com/", headers=head)
- print(response)
- print(response.status_code)
- if response.ok:
- print(response.text)
- else:
- print("请求错误")
需要注意的是requests不需要首字母大写, 这个单词是复数。
有些网址限制代码请求,只允许浏览器请求,伪装的操作只需要在requests第一行添加一个开头header,此开头head为字典,里面的键值对可以输入你想要输入的User_Agent的相关信息及其他信息。如:
head = {"User_Agent": "Mozilla/5.0(Windows NT 10.0; Win 64; X64)"} # 浏览器类型及版本和操作系统信息等等
User_Agent的信息如何获取:打开浏览器搜索任意网站--鼠标右击打开检查--网络--刷新一下--打开任意一个请求--展开Request_Headers--复制User_Agent后面冒号的内容即可。like this:
手动解析HTML内容效率低,使用Beautiful Soup库来像树状结构分类来解析自己想要的部分。
UP主给出的安装bs4库(pip install bs4)安装成功信息是:
Successfully installed beautifulsoup4-4.12.3 bs4-0.0.2 soupsieve-2.5
网友说的安装方式(pip install beautifulsoup4)我也试过,应该是同一个东西,只不过PyChram版本不一样,所以安装指令不一样。我再允许这个指令终端提示我已经安装成功了:
- (.venv) PS F:\pycharm\project_for_begginer\pythonProject> pip install beautifulsoup4
- Requirement already satisfied: beautifulsoup4 in f:\pycharm\project_for_begginer\pythonproject\.venv\lib\site-packages (4.12.3)
- Requirement already satisfied: soupsieve>1.2 in f:\pycharm\project_for_begginer\pythonproject\.venv\lib\site-packages (from beautifulsoup4) (2.5)
findAll()函数:根据标签、属性等找出所有符合要求的元素。第一个元素为找到HTML的标签如p为文本段落标签,第二个元素如class属性的值是price_color。
all_prices = soup.findAll("p", attrs={"class", "price_color"})
由于此课程是解析HTML的内容,所以Beautiful Soup的第二个可选参数解析器要选择“ html.parser ”。
下面是分别爬取书单价格和书单名称的代码:
- # 爬取当前网址页面(http://books.toscrape.com/)的书单价格
- from bs4 import BeautifulSoup
- import requests
- head = {"User_Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0"} # 浏览器类型及版本和操作系统信息等等
- content = requests.get("http://books.toscrape.com/", headers=head).text
- soup = BeautifulSoup(content, "html.parser")
- # all_prices = soup.findAll("p", attrs={"class", "price_color"})
- all_prices = soup.find_all("p", attrs={"class", "price_color"}) # findAll和find_all在这里运行的结果都一样,返回一个可迭代对象
- for price in all_prices:
- print(price.string[2:])
- # 爬取当前网址页面(http://books.toscrape.com/)的书单名称
- from bs4 import BeautifulSoup
- import requests
- head = {"User_Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0"} # 浏览器类型及版本和操作系统信息等等
- content = requests.get("http://books.toscrape.com/", headers=head).text
- soup = BeautifulSoup(content, "html.parser")
- all_titles = soup.findAll("h3")
- for title in all_titles:
- all_links = title.findAll("a")
- for link in all_links:
- print(link.string)
需要注意的是content为 .text的格式文件。
直接给出UP主代码:
- import requests
- from bs4 import BeautifulSoup
-
- headers = {
- "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36"
- }
- for start_num in range(0, 250, 25):
- response = requests.get(f"https://movie.douban.com/top250?start={start_num}", headers=headers)
- html = response.text
- soup = BeautifulSoup(html, "html.parser")
- all_titles = soup.findAll("span", attrs={"class": "title"})
- for title in all_titles:
- title_string = title.string
- if "/" not in title_string:
- print(title_string)
哈哈哈,我现在爬取出来的250名不是我爱你而是燃情岁月了。
需要注意的是for和range结合的更新网址索引开头的代码,不然只会给你爬取特定网页页面的内容,而有许多内容是分很多页的。
这里需要把豆瓣250电影排名的地址stat=0修改成?start={start_num}
鼠标右键检查,点击左上角那个鼠标可以查看当前页面任意部位的HTML源代码,太厉害了。
网页包括三要素,这些都是属于前端的内容了:
最简单的HTML代码:
- HTML> #文件类型为html
- <html> #开始标识
- html> #结束标识
中间还能添加许多其他标签在里面,用CSS进行美化,用JavaScript进行交互。师傅领进门,修行靠个人!
CSDN有很多人整理出来了,不知道要用什么的可以直接去他们的博文看看(推荐一个传送门🚪:HTML常用标签--整理篇),至于具体怎么用可以看看B站UP主的视频,或者直接搜它的用法什么的。
Alt + Insert 快速生成一个新的.py文件
Ctrl + / 多行注释
Tab键 整体缩进; Shift + Tab 取消整体缩进
Ctrl + s 后移到预定缩进位置; Ctrl + ] 进行缩进
至此此课程已经结束,后面内容比较高深我也没有精力再去深思,感觉自己还是没有什么热情来更进一步学习爬虫爬取一些什么其他内容(主要是用不到)。希望之后想要用的时候看看这些笔记能帮我回忆起一些课程中需要注意的事项吧,不要重蹈覆辙了。