虽然西弗吉尼亚大学的研究人员看到了最新的官方ChatGPT插件——名为“代码解释器”( Code Interpreter)的教育应用潜力,但他们也发现,对于使用计算方法处理针对癌症和遗传疾病的定向治疗的生物数据的科学家来说,这款插件的使用存在限制。
“代码解释器是一项很有潜力的工具,特别是在教育领域,因为它使学生更易于接触STEM领域的编程。”西弗吉尼亚大学医学院微生物学、免疫学和细胞生物学系的助理教授,也是生物信息学核心的主任 Gangqing "Michael" Hu说:“然而,它并没有提供生物信息学领域所需的所有功能。这些是可以通过技术改进来解决的问题。代码解释器在未来可能会扩展其应用领域,包括生物信息学、金融和经济学等领域。”
自2022年12月发布以来,备受欢迎的人工智能聊天机器人ChatGPT引起了商业、教育和公众的关注。然而,它并没有完全满足从事生物医学研究,包括生物信息学这一交叉领域的需求,这些科学家迫切期待着OpenAI的代码解释器插件,希望它能填补这些空白。
Hu和他的团队对代码解释器在各种任务中的表现进行了测试,以评估其特性。他们的研究结果发表在《Annals of Biomedical Engineering》上,结果显示,这款插件在某些方面表现出色,但仍然存在一些限制。
例如,没有科学背景的人可以通过代码解释器轻松接触编程或计算机编程。Hu说,它还具有成本效益,并激发了学生探索数据分析的好奇心,提高了他们的学习兴趣。他指出,用户需要理解如何解读数据,并识别结果是否准确,以及知道如何与聊天机器人互动。
生物信息学家依赖精确的编程、计算机软件程序和互联网访问来存储、分析和解释用于现代医学进步的生物数据,如DNA和人类基因组。
尽管需要对生物信息学进行特定的改进,Hu说,代码解释器有助于用户确定答案的准确性,以及是否存在一种所谓的"幻觉",即虚构的答案,这在一些情况下可能会误导。。
“人们知道ChatGPT可以做许多令人印象深刻的事情,但它并不擅长提供引文或参考来支持其答案。如果被问及支持响应的来源,它可能会开始编造参考文献。”Hu解释说。“代码解释器提供了一个解决方案来最小化幻觉。对于可以通过编程解决的问题,代码本身就可以作为源或引文。这是一个重要的进步。”
Hu的合作者包括来自西弗吉尼亚大学微生物学、免疫学和细胞生物学系的博士后Lei Wang;来自南达科他州立大学的Xijin Ge;以及来自亚利桑那州立大学的Li Liu。
该团队发现代码解释器能够将数据转化为图表和图形的能力方面具备良好的效果。
对代码解释器的升级建议包括,提供互联网访问以下载基因组数据,安装特定于生物信息学的软件,扩大存储能力,并支持更多的编程语言。此外,研究人员发现需要遵守HIPAA等隐私和安全应用法规。
在测试数据分析时,他们发现了一些限制。该插件仅支持一种计算机程序,Python (生信分析Python实战练习 3 | 视频21),且只支持一些专门用于生物信息学的软件包。此外,它无法访问互联网上的数据,也无法处理大文件。这个绘图功能是真的强大,生信麻瓜的 ChatGPT 4.0 初体验
利用代码解释器作图的三个例子
"它只允许处理大约100兆字节左右的文件,但我们处理的文件达到了千兆字节级别,"Hu说。"此外,它不支持大型数据集所需的并行处理,导致性能较慢。" Hu表示,尽管他预计代码解释器将会有更多的升级,但他计划在明年的课程中使用该插件,以帮助学生了解数据可视化。"人工智能是一个快速发展的领域。我希望到那个时候,OpenAI可以克服一些限制,以便它可以用于广泛的生物信息学编程。" 最后,Hu表示,他将继续监测和测试新的人工智能编程和功能,因为在这个领域仍然存在许多等待被发现的创新用途。
生信宝典:ChatGPT 给出提示和代码后 (偷个懒,用ChatGPT 帮我写段生物信息代码),大数据还是需要在本地跑,不然上传下载的速度和分析占用的资源就太多了。