Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。它能够实现惯用的文档导航,查找,修改文档的方式。Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,这些第三方的解析器包括“lxml”和“html5lib”等。
在IDLE和PyCharm中使用Beautiful Soup时,需要安装相应的库及第三方解析器。
在IDLE中使用如下代码导入BeautifulSoup时会报错,如图1所示。
图1 导入BeautifulSoup时的报错信息
以上报错信息是“没有找到相关模块错误信息:没有找到名为bs4的模块”。
点击“Win”+“R”键,在弹出的“运行”界面中输入“cmd”,如图2所示。
图2 “运行”界面中输入“cmd”
点击“确定”后,进入cmd界面。在cmd中输入“pip list”并点击回车按键,查看当前安装的模块,如图3所示。
图3 查看当前安装的模块
从图3中可以看出,当前并没有安装BeautifulSoup模块。
在cmd中输入“pip install beautifulsoup4”,开始安装BeautifulSoup模块,如图4所示。
图4 安装BeautifulSoup模块
从图4中可以看出,BeautifulSoup模块安装成功。此时再次输入“pip list”查看安装的模块,如图5所示。
图5 查看安装的模块
从图5中可以看到,BeautifulSoup模块已经安装成功。在IDLE中再次导入BeautifulSoup模块,此时代码能够成功运行,如图6所示。
图6 代码能够成功运行
在cmd中输入“pip install lxml”,开始安装lxml解析器,如图6所示。
图7 安装lxml解析器
在cmd中输入“pip install html5lib”,开始安装html5lib解析器,如图8所示。
图8 安装html5lib解析器
在cmd中输入“pip list”,可以看到,lxml解析器和html5lib解析器已经安装成功,如图9所示。
图9 lxml和html5lib安装成功