python 提取红楼梦第一章得到五言律诗和七言律诗（正则表达式）

import requests
from re import findall

#1.正则表达式：年月日
# (1|2)[0-9][0-9][0-9]-(0[1-9]|1[012]|[1-12])-(0[1-9]|1[0-9]|2[0-9]|3[01]|[1-31])

# 2.《红楼梦》五言和七言诗
# 《红楼梦》第一回的网页
#get()里面是第一回的网址
string = requests.get('https://www.xyyuedu.com/gdmz/sidamingzhu/hlmeng/21651.html') \
    .text.encode("ISO-8859-1").decode('gbk').encode('utf8').decode('utf8')
strings = findall(r'((?:.|\n)*?)', string)
str1 = str(strings)
str1 = findall(r'(?<=\S)*[\u4e00-\u9fa5]+[?。,:\-;]*(?=\S)*', str1)
str2 = "".join(str1)
str2 = "".join(str2.split())
print(str2) #string是网页内容字符串
# 五言诗
five = r'[\u4e00-\u9fa5]{5}[,?][\u4e00-\u9fa5]{5}[,?。][\u4e00-\u9fa5]{5}[,?。][\u4e00-\u9fa5]{5}[?。]'
fiveCharacter = findall(five, str2)
print(fiveCharacter)
# 七言诗
seven = r'[\u4e00-\u9fa5]{7}[,?][\u4e00-\u9fa5]{7}[,?。][\u4e00-\u9fa5]{7}[,?。][\u4e00-\u9fa5]{7}[?。]'
sevenCharacter = findall(seven, str2)
print(sevenCharacter)

相关阅读:
七夕，你来人间一趟，总要谈一场轰轰烈烈的恋爱
询盘内耗没转化？业务员表示不接这个锅——B2B外贸营销特辑
C++ 编译器中对 use after free 的检查示例
基于springboot,vue学生宿舍管理系统
linux篇【5】：环境变量，程序地址空间
【微信小程序-初级实战】用户登录
秋招突击——6/10——复习{（树形DP）树的最长路径、}——新作{电话号码的字母组合}
【机器学习】贝叶斯分类器【下】
多目标水循环优化算法附Matlab代码
SpringIOC之support模块SimpleThreadScope

原文地址：https://blog.csdn.net/m0_62788719/article/details/127641945