本文是LLM系列文章,针对《Can Language Models Make Fun? A Case Study in Chinese Comical Crosstalk》的翻译。
语言是人类交流的主要工具,幽默是其中最具吸引力的部分之一。像人类一样使用计算机生成自然语言,也就是自然语言生成(NLG),已被广泛用于对话系统、聊天机器人、文本摘要以及人工智能生成内容(AIGC),例如创意生成和脚本编写。然而,自然语言的幽默方面的研究相对较少,特别是在预训练语言模型的时代。在这项工作中,我们的目的是初步测试NLG是否能像人类一样产生幽默。我们建立了由大量中国滑稽相声剧本(简称c3)组成的最大数据集,这是自19世纪以来中国流行的表演艺术“相声”或“相声”。我们对各种生成方法进行基准测试,包括从头开始训练Seq2seq,微调的中等规模plm,以及带和不带微调的大规模plm