python代码小tips-从HTML字符串中提取文本内容并去掉标签 - 码农知识堂

python代码小tips-从HTML字符串中提取文本内容并去掉标签
从类似HTML格式的字符串中提取文本内容并去掉标签，可以使用Python的 BeautifulSoup 库，这是一个用于解析HTML和XML的强大工具。首先，确保已经安装了 BeautifulSoup，可以使用以下命令来安装它：
```
pip install beautifulsoup4
1
```
然后，可以使用以下示例代码来提取文本内容：
```
from bs4 import BeautifulSoup

# 假设这是你的HTML字符串
html_string = "11"

# 使用BeautifulSoup解析HTML字符串
soup = BeautifulSoup(html_string, 'html.parser')

# 使用soup.get_text()方法提取文本内容并去掉标签
text_content = soup.get_text()

# 打印提取的文本内容
print(text_content)
1
2
3
4
5
6
7
8
9
10
11
12
13
```
在上述示例中，我们首先使用 BeautifulSoup 解析HTML字符串，并使用 soup.get_text() 方法提取文本内容，该方法会自动去除HTML标签。最后，text_content 变量中包含了提取的纯文本内容。

当然，我们也可以直接将 get_text() 返回的内容按照某种方式分割，然后将分割后的文本放在列表中。soup.get_text()返回的内容是多行的字符串，每行字符串之间用’\n’分割，可以使用split(‘\n’)来做到分隔。
```
# 使用某种方式分割文本，例如按换行符分割
    split_text = text.split('\n')
    
    # 去除空白项并添加到列表中
    cleaned_text = [item.strip() for item in split_text if item.strip()]
1
2
3
4
5
```
链接
相关阅读:
RACH Procedure Log Analysis
5.docker可视化工具(Portainer)
长沙驾考之路
 生命在于学习——Stable Diffution（Mac端）
二叉树刷题(五)
音视频技术-电脑连接调音台时交流声的产生与消除
 CUDA 高性能计算面试问题总结
 《机器学习by周志华》学习笔记-线性模型-02
血液代谢组学炎症相关的线粒体功能失调慢加急性肝衰竭的潜在机制
 （Transfer Learning）迁移学习在IMDB上训练情感分析模型
原文地址：https://blog.csdn.net/YangTinTin/article/details/133364109