领导:把这份里面的所有文献下载后,查看每篇有多少字
一、PDF转docx
- '''
- pdf转docx
- 作者:AI对话大师、阿夏
- 时间:2024年3月11日
- '''
-
- import os
- from pdf2docx import Converter
-
- def convert_to_docx(folder_path, extensions):
- for root, dirs, files in os.walk(folder_path):
- for file in files:
- file_extension = os.path.splitext(file)[1]
-
- if file_extension.lower() in extensions:
- file_path = os.path.join(root, file)
- output_path = os.path.splitext(file_path)[0] + '.docx'
-
- if file_extension.lower() == '.pdf':
- cv = Converter(file_path)
- cv.convert(output_path)
- cv.close()
-
-
- folder_path = r'C:\Users\jg2yXRZ\OneDrive\桌面\下载文献'
- extensions = ['.pdf', '.caj']
- convert_to_docx(folder_path, extensions)
- '''
- pdf转docx docx有多少字
- 作者:AI对话大师、阿夏
- 时间:2024年3月11日
- '''
- # 检测docx有多少字
- from docx import Document
- import os
-
- folder_path = r'C:\Users\jg2yXRZ\OneDrive\桌面\下载文献'
-
- for file_name in os.listdir(folder_path):
- if file_name.endswith(".docx"):
- docx_path = os.path.join(folder_path, file_name)
- doc = Document(docx_path)
- total_characters = 0
- for paragraph in doc.paragraphs:
- total_characters += len(paragraph.text)
- print(f"File: {file_name}, Total Characters: {total_characters}")
- '''
- pdf转成txt后查看每篇文字数量
- 作者:AI对话大师、阿夏
- 作者:2024年3月11日
- '''
-
- print('------1、pdf转 txt------------')
- import os
- import fitz
-
- # 定义输入和输出文件夹路径
- input_folder = r'C:\Users\jg2yXRZ\OneDrive\桌面\下载文献'
- output_folder = input_folder
-
- # 获取输入文件夹中的所有PDF文件
- pdf_files = [f for f in os.listdir(input_folder) if f.endswith(".pdf")]
-
- # 遍历文件列表
- for pdf_file in pdf_files:
- # 打开PDF文件
- pdf_path = os.path.join(input_folder, pdf_file)
- pdf_document = fitz.open(pdf_path)
-
- # 逐页读取文本内容
- text = ""
- for page_num in range(pdf_document.page_count):
- page = pdf_document[page_num]
- text += page.get_text()
-
- # 构建输出文件路径
- output_file = os.path.join(output_folder, pdf_file.replace(".pdf", ".txt"))
-
- # 将文本内容写入输出文件
- with open(output_file, 'w', encoding='utf-8') as f:
- f.write(text)
-
- pdf_document.close()
-
- print("PDF文件已成功转换为TXT文件。")
- '''
- # pdf转成txt后查看每篇文字数量2
- # 作者:AI对话大师、阿夏
- # 作者:2024年3月11日
- '''
- print('-----2、txt的字数------------')
- import os
-
- def count_text_characters(file_path, encoding):
- with open(file_path, 'r', encoding=encoding, errors='ignore') as file:
- text = file.read()
- return len(text)
-
- # 遍历文件夹下的所有txt文件
- folder_path = r'C:\Users\jg2yXRZ\OneDrive\桌面\下载文献'
- for file_name in os.listdir(folder_path):
- file_path = os.path.join(folder_path, file_name)
- if os.path.isfile(file_path) and file_path.endswith('.txt'):
- try:
- characters = count_text_characters(file_path, 'utf-8')
- except UnicodeDecodeError:
- characters = count_text_characters(file_path, 'utf-16')
- print(f"文件: {file_name},文字数量: {characters}")