【大模型】自动化问答生成：使用GPT-3.5将文档转化为问答对

自动化问答生成：使用GPT-3.5将文档转化为问答对

当我们需要将大段文档转化为问答对时，OpenAI的GPT-3.5模型提供了一个强大的工具。这个教程将向您展示如何编写一个Python脚本，利用GPT-3.5的能力，将文档转化为一问一答的问答对。这个流程几乎无需人工介入，能够自动获取问题并生成答案。我们将使用GPT-3.5-16k，以便处理大量文本。

本文参考卡神文章：https://mp.weixin.qq.com/s/1hcufhPJ7P1cXEsAZ7MdRA
同时也参考fastGPT的知识库问答对生成方式。

正文

直接开始流程

步骤1：准备工作

首先，您需要安装 Python 和 requests 库（确保已经安装），并在 OpenAI 官网上获取 apiKey 密钥，用来请求 gpt 接口（还需要科学上网工具）。

步骤2：编写Python脚本

下面是我已经验证过的 Python 示例，用于将文档转化为问答对。我们假设您的文档保存在一个名为 input_file.txt 的文本文件中。
注：只需修改 api_key 即可，让 input_file.txt 和 python 处在同一文件夹内。

"""
    目标：将大段文档通过gpt3.5识别变成一问一答的问答对。
    流程：1.gpt自动获取合适的问题；2.gpt自动根据问题和文档生成问答对。
    优点：几乎无需人工介入，自动获取问题，自动根据问题生成问答对。
    缺点：受限于大模型输入长度限制，可能无法一次性输入全部文档。
    建议：使用gpt3.5-16k可以一次输入大量文本，文档最好不超过5000字。

    FAQ：
    1.Q：gpt两个步骤是否可以合并成一个请求让gpt返回，可以节省约一半的时间和tokens？
      A：拆成两次主要是因为问题可能需要人工微调修改后再去生成答案，这样可以提高知识库质量，当然也可以全部自动处理。
    2.Q：大模型有字数限制无法大文档一次输入？
      A：目前这个没有好的解决办法，只能通过预先拆分大文档为多个文档片段后分批执行。
"""
import datetime
import time
import requests


url = 'https://api.openai.com/v1/chat/completions'

# 替换为您自己的API密钥
api_key = 'sk-xxxxxxxxx'

model = "gpt-3.5-turbo-16k"

prompt1 = '''
#01 你是一个问答对数据集处理专家。

#02 你的任务是根据我给出的内容，生成适合作为问答对数据集的问题。

#03 问题要尽量短，不要太长。

#04 一句话中只能有一个问题。

#05 生成的问题必须宏观、价值，不要生成特别细节的问题。

#06 生成问题示例：

"""

权益型基金的特点有哪些方面？

介绍一下产品经理。

"""

#07 以下是我给出的内容：

"""

{{此处替换成你的内容}}

"""
'''

prompt2 = '''
#01 你是一个问答对数据集处理专家。

#02 你的任务是根据我的问题和我给出的内容，生成对应的问答对。

#03 答案要全面，多使用我的信息，内容要更丰富。

#04 你必须根据我的问答对示例格式来生成：

"""

{"content": "基金分类有哪些", "summary": "根据不同标准，可以将证券投资基金划分为不同的种类：（1）根据基金单位是否可增加或赎回，可分为开放式基金和封闭式基金。开放式基金不上市交易（这要看情况），通过银行、券商、基金公司申购和赎回，基金规模不固定；封闭式基金有固定的存续期，一般在证券交易场所上市交易，投资者通过二级市场买卖基金单位。（2）根据组织形态的不同，可分为公司型基金和契约型基金。基金通过发行基金股份成立投资基金公司的形式设立，通常称为公司型基金；由基金管理人、基金托管人和投资人三方通过基金契约设立，通常称为契约型基金。我国的证券投资基金均为契约型基金。（3）根据投资风险与收益的不同，可分为成长型、收入型和平衡型基金。（4）根据投资对象的不同，可分为股票基金、债券基金、货币基金和混合型基金四大类。"}

{"content": "基金是什么", "summary": "基金，英文是fund，广义是指为了某种目的而设立的具有一定数量的资金。主要包括公积金、信托投资基金、保险基金、退休基金，各种基金会的基金。从会计角度透析，基金是一个狭义的概念，意指具有特定目的和用途的资金。我们提到的基金主要是指证券投资基金。"}

#05 我的问题如下：

"""

{{此处替换成你上一步生成的问题}}

"""

#06 我的内容如下：

"""

{{此处替换成你的内容}}

"""
'''


def generate_question(text_content, more=False):
    headers = {
        "Authorization": f"Bearer {api_key}",
        "Content-Type": "application/json",
    }
    content = "生成适合作为问答对的问题"
    if more:
        content = "尽可能多生成适合作为问答对的问题"
    prompt = prompt1.replace("{{此处替换成你的内容}}", text_content)
    data = {
        "model": model,
        "messages": [
            {"role": "system", "content": prompt},
            {"role": "user", "content": content}
        ]
    }
    start_time = time.time()
    response = requests.post(url, headers=headers, json=data, verify=False)
    print("耗时", time.time() - start_time)
    if response.status_code == 200:
        return response.json()["choices"][0]["message"]['content']
    else:
        print(f"Error: {response.status_code}")
        print(response.content)
        return None


def generate_qa(text_content, question_text=None):
    headers = {
        "Authorization": f"Bearer {api_key}",
        "Content-Type": "application/json",
    }
    prompt = prompt2.replace("{{此处替换成你上一步生成的问题}}", question_text).replace("{{此处替换成你的内容}}", text_content)
    data = {
        "model": model,
        "messages": [
            {"role": "system", "content": prompt},
            {"role": "user", "content": "拼成问答对"}
        ]
    }
    start_time = time.time()
    response = requests.post(url, headers=headers, json=data, verify=False)
    print("耗时", time.time() - start_time)
    if response.status_code == 200:
        return response.json()["choices"][0]["message"]['content']
    else:
        print(f"Error: {response.status_code}")
        print(response.content)
        return None


def write_to_file(content):
    timestamp = datetime.datetime.now().strftime("%Y%m%d%H%M%S")
    file_name = f"new_file_{timestamp}.txt"
    with open(file_name, "w") as file:
        file.write(content)
    print("File 'new_file.txt' has been created and written.")


def read_file(file_name):
    try:
        with open(file_name, "r") as file:
            content = file.read()
        return content
    except FileNotFoundError:
        print(f"File '{file_name}' not found.")


def main():
    text_content = read_file("input_file.txt")
    print('text_content\n', text_content)
    question_text = generate_question(text_content=text_content, more=True)
    print('question_text\n', question_text)
    qa_text = generate_qa(text_content=text_content, question_text=question_text)
    print('qa_text\n', qa_text)
    write_to_file(qa_text)


main()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168

步骤3：运行脚本

运行上述Python脚本，它将自动从文档中提取问题，并生成与之对应的答案（输出到 new_file_{timestamp}.txt 文件）。这个脚本也会在控制台上显示提取的问题和生成的答案。

总结

通过这个教程，你可以自动将大段文档转化为一问一答的问答对，无需人工干预。你可以对脚本文件再进行调试和改进，以适应你自己的项目。这个方法可以在处理大量文本时非常有用，特别是使用 GPT-3.5-16k 模型，它具有更大的输入长度限制，但是大文档仍然需要先做一些分段处理。后面我还会提供更多 AI 产品教程，欢迎点赞收藏！

相关阅读:
【JVM】第三篇 JVM对象创建与内存分配机制深度剖析
 javavue健身食谱系统计算机毕业设计MyBatis+系统+LW文档+源码+调试部署
 车载导航进阶「不输」手机，哪些供应商在领跑导航引擎赛道
 华为数据管理——《华为数据之道》
【iOS】折叠cell
Linux权限
 10 月更新 | Visual Studio Code Python
2022蓝队HW初级面试题总结
 Java版本spring cloud + spring boot企业电子招投标系统源代码
 基于ArcGIS的Python数据处理、空间分析和可视化
原文地址：https://blog.csdn.net/u012960155/article/details/132658756