当我发现如何在 Python 中执行文本到语音转换时,我想知道如何将其应用到一个有用的研究案例中。然后,我记得我经常访问 Wikipedia 页面,这些页面涉及我感兴趣的主题,但其中包含很多我不想完全阅读的文本。我宁愿在做其他事情的同时听那些页面的内容。
因此,我决定使用 Python 将 Wikipedia 页面转换为音频文件。
让我们首先为此任务导入有用的包。我将使用的库是用于抓取部分的bs4和requests ,用于正则表达式的re ,以及用于文本转语音部分的pyttsx3 。
from bs4 import BeautifulSoup
import requests
import re
import pyttsx3 as tts
对于抓取部分,我们只需要定义一个 URL 并从相应的网页中检索文本。
url = "https://en.wikipedia.org/wiki/Wikipedia" #the web page you want to scrape
# Collecting data from the web page
r = requests.get(url)
data = r.text
soup = BeautifulSoup(data, "lxml")
我们希望仅保留文本。因此,我们只寻找段落元素。
paragraphs = soup.findAll("p")
如果您打印可变段落,您将看到一个列表,其中包含使用可变URL访问的网页中的所有段落元素。
当我们将文本转换为语音