网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
互联网上充斥着大量可用于不同目的的数据。要收集这些数据,我们需要知道如何从网站上抓取数据。
Web 抓取是从网站提取和收集数据并将其存储在本地计算机或数据库中的过程。
在本节中,我们将使用 beautifulsoup 和 requests 库来抓取数据。我们使用的库版本是beautifulsoup 4。
要开始抓取网站,您需要requests、beautifoulSoup4和website。
安装库:
pip install requests
pip install beautifulsoup4
要从网站上抓取数据,需要对 HTML 标签和 CSS 选择器有基本的了解。我们使用 HTML 标记、类或/和 ID 定位来自网站的内容。
让我们导入 req