生活在当今世界,我们被周围不同的数据所包围。在我们的项目中收集和使用这些数据的能力是每个数据科学家必备的技能。
网上有很多关于如何使用特定的 Python 库来收集在线数据的教程。但是,您很少能找到有关为您的特定应用程序选择最佳库的教程。
Python 提供了多种可用于抓取网络的库,例如 Scrapy、Beautiful Soup、Requests、Urllib 和 Selenium。我很确定存在更多的库,考虑到 Python 的流行程度,很快就会发布更多库。
在本文中,我将介绍我刚刚提到的 5 个库,并对它们进行概述,例如,代码以及它们各自的最佳应用和案例。
Scrapy是目前最流行的 Python Web 抓取库之一。它是一个开源框架。这意味着它甚至不是图书馆。它是一个相当完整的工具,您可以使用它来系统地抓取和抓取网络。
Scrapy 最初旨在构建可以自行爬网的网络蜘蛛。它可用于监控和挖掘数据,以及自动化和系统化的测试。
与其他爬网的 Python 方法相比,它的 CPU 和内存效率也很高。使用 Scrapy 的缺点是安装它并在您的设备上正常工作可能有点麻烦。
要开始使用 Scrapy,您需要确保您运行的是 Python 3 或更高版本。要安装 Scrapy,您只需在终端中编写以下命令即可。
pip install scrapy
成功安装 Scrapy 后,您可以通过键入以下命令运行 Scrapy shell:
scrapy shell
运行此命令时,您将看到如下内容: