论文:https://arxiv.org/ftp/arxiv/papers/2402/2402.16810.pdf
代码:https://github.com/OncoGPT1
为建立一个专门针对肿瘤学领域的患者-医生对话数据集,我们采取了:
收集在线医疗咨询网站的对话数据
通过关键词过滤筛选与癌症相关的对话
对话数据的清洗和隐私保护
对话数据的分类和专家审核
来源名称 语言 对话数量 链接
秒手 中文 93 https://www.miaoshou.net/
优来 中文 120 https://www.youlai.cn/
名方康 中文 550 https://www.mfk.com/
博禾 中文 327 https://www.bohe.cn/
寻医问药 中文 1854 https://www.xywy.com/
医脉传媒 中文 2343 https://www.yilianmeiti.com/
家庭医生 中文 3141 https://wwys.familydoctor.com.cn/
爱加医疗 中文 149799 https://www.iplusmed.com/
eHealth Forum 英文 1159 https://www.iehealthf.com/
iCliniq 英文 735 https://www.icliniq.com/
Question Doctors 英文 1271 https://questiondoctors.com/
WebMD 英文 4253 https://www.webmd.com/
HealthCareMagic 英文 14539 https://www.healthcaremagic.com/
下图是一个数据处理流程,目的是为了创建一个专注于肿瘤学的患者-医生对话数据集并应用于一个名为OncoGPT的语言模型。

数据源:列出了包括MiaoShou、YouLai、MFK、BoHe、XYWY、YiLianMeiTi、FamilyDoctor、iPlusMed、eHealth Forum、iCliniq、Question Doctors、HealthCareMagic和WebMD的中英文医疗咨询网站,作为对话数据收集来源。
翻译:将中文网站的数据通过Google Translate翻译成英文,保证数据处理在同一语言(英文)下进行。
数据清洗:对收集的数据进行了多个清洗步骤,包括隐私过滤、脏字符过滤、低质量问题过滤等,以提高数据集的质量和可用性。
医生审核:经过数据清洗的对话被提交给医生进行复查,以确保信息的准确性和专业性。
预处理和微调:使用Meta公司的LLaMa模型作为基础,结合Alpaca项目的52K条指令数据、ChatDoctor的100K条对话数据以及特定于本项目的180K条肿瘤相关对话数据进行预处理和微调。
OncoGPT模型:经过上述流程处理和训练后,最终得到了OncoGPT模型,专门用于回答肿瘤学相关的问题。
右下角的文本框展示的是OncoGPT模型回答有关癌症问题的一个示例,具体内容如下:
问(病人):“Thymic squamous cell carcinoma, is the cure rate high? How effective is chemotherapy and radiotherapy?”
答(OncoGPT):“Hi, welcome to OncoGPT. Unfortunately, thymus squamous cell carcinomas have a low cure rate due to its aggressive nature and late presentation. Chemotherapy and radiotherapy are the mainstays of treatment for thymus squamous cell carcinoma. They are effective in controlling the symptoms and slowing down the growth of the tumors. However, long term survival remains a challenge. Hope this answers your query. Wish you good health. Regards.”
这个对话示例显示了OncoGPT在提供具体医疗信息方面的能力,以及它是如何以友好和专业的方式与提问者互动。
使用LLaMA-7B模型作为基础
初步微调获得基本对话能力
使用疾病相关对话进行进一步微调
构建医疗问答模型的进一步微调
使用真实的肿瘤学对话数据集进行最终微调
高效的计算资源和时间管理