最近想对GLM-4今年发布的几个大模型 glm-4-0520,glm-4-air以及glm-4-flash简单评测一下它们的机器翻译能力,由于这几个大模型的容量和训练数据都有区别,所以它们的翻译能力也是不同的。我们这里就分别选择一些有趣的,有挑战性的,专业性的数据来分别让glm-4-0520,glm-4-air以及glm-4-flash还有百度翻译分别给出它们的翻译结果。最后我们把每个模型或者翻译软件对应的原始语句以及翻译后的结果送到Cluade-3.5-Sonnet这个SOTA的大模型中,让它分别为每个模型的翻译结果进行打分,每个机器翻译例子都是10分的满分。最后我们汇总上面三方面的数据中各个模型和专业的翻译软件的得分,来把握GLM4的几款模型的机器翻译的能力。
本次体验平台为智谱AI的Mass平台,地址为:https://open.bigmodel.cn/ 注册即可在体验中心免费体验上面提到的几款glm-4系列模型。
本次体验的 glm-4-0520,glm-4-air以及glm-4-flash 都是智谱AI提供的闭源大模型,在体验中心随手选择一个大模型之后我们就可以在价格页面看到所有的大模型定价和简介:
我们要体验的这三款模型分别主打性能最强,最高性价比和极速低价。特别地,对于glm-4-flash 模型来说,100w输入tokens只需要0.1元,惊人的便宜。我们就以这三款对性能和价格各有侧重的模型在机器翻译的任务上进行一次评测。
我们尽可能的去防止数据泄漏,选择数据时尽量选择有版权的比如影视数据以及很新的一些文本数据,比如来自很新的axriv上的论文,较新的考试试卷等。
我们把每个模型或者翻译软件对应的原始语句以及翻译后的结果送到Cluade-3.5-Sonnet这个SOTA的大模型中,让它分别为每个模型的翻译结果进行打分,每个机器翻译例子都是10分的满分
对于所有的模型均直接让它翻译即可,例如下面的例子:
此外,在打分阶段普遍采用下面的prompt:
但对于困难数据中的古文,我们采用下面的prompt,即对古文的原始意思进行标注,以帮助Cluade-3.5-Sonnet更准确的打分。
此外,每做完一次大的翻译课题里面的一个子问题,对Cluade-3.5-Sonnet的对话缓存进行清理。
这里选取3句《武林外传》的经典台词由中文翻译成英文。选择3句《老友记》的经典台词翻译成英文。再选择3句《哆啦A梦》的日文经典台词,要求翻译为中文。
选取如下3句:
模型/api | 有趣的翻译数据总得分 |
---|---|
glm-4-0520 | 77 |
glm-4-air | 73 |
glm-4-flash | 71 |
百度翻译 | 54 |
在有趣的翻译数据中,glm-4系列模型的得分均能超过百度翻译的得分,其中glm-4-0520的得分是最高的,glm-4-flash的得分则是三款模型中得分最低的,这也符合模型本身的定位。
这里不仅仅设计到文本翻译,还设计到对古文的理解,可以一起考察大模型的推理能力。
glm-4-flash翻译这个句子时还出现了大段复读机现象,表现很差,统计得分的时候我们将6分手动降低为3分。
我使用Cluade-3.5-Sonnet获取了3句阅读起来很困难的英语语句,要求把这些句子翻译成中文。
模型/api | 有趣的翻译数据总得分 | 困难的翻译数据总得分 |
---|---|---|
glm-4-0520 | 77 | 81 |
glm-4-air | 73 | 73 |
glm-4-flash | 71 | 71 |
百度翻译 | 54 | 57 |
在困难的数据中,glm-4系列模型仍然体现出了越贵的模型能力越强的特点,且这三款模型的翻译能力都比百度翻译的结果更强。
分别选取很新的一篇arxiv论文上关于大模型的3个英文句子翻译成中文;选取2024高考英语试卷阅读理解中的的3个句子翻译成英文;再选取2024高考语文阅读理解中的5个句子翻译成英文。
glm4-4-flash的输出开头多了一些奇怪的符号,扣3分。
模型/api | 有趣的翻译数据总得分 | 困难的翻译数据总得分 | 专业的翻译数据总得分 |
---|---|---|---|
glm-4-0520 | 77 | 81 | 81 |
glm-4-air | 73 | 73 | 79 |
glm-4-flash | 71 | 71 | 75 |
百度翻译 | 54 | 57 | 68 |
这里基于GLM-4每种模型和专业翻译软件在有趣的,困难的,专业的三个方面的得分总结每种模型/百度翻译的机器翻译能力。最后我综合价格,对有机器翻译需求的用户做一个最佳建使用建议。
模型/api | 有趣的翻译数据总得分 | 困难的翻译数据总得分 | 专业的翻译数据总得分 | 价格(百万tokens多少元人民币) |
---|---|---|---|---|
glm-4-0520 | 77 | 81 | 81 | 100 |
glm-4-air | 73 | 73 | 79 | 1 |
glm-4-flash | 71 | 71 | 75 | 0.1 |
百度翻译 | 54 | 57 | 68 | - |
把每个模型/api的总得分折算成glm-4-0520得分的百分制比例
模型/api | 所有数据的总得分折算glm-4-0520得分的百分制比例 | 价格(百万tokens多少元人民币) |
---|---|---|
glm-4-0520 | 100% | 100 |
glm-4-air | 94.14% | 1 |
glm-4-flash | 90.79% | 0.1 |
百度翻译 | 75% | - |
综合性建议:
此外,使用glm-4系列大模型进行机器翻译的优点是它们可以作为api被你的代码调用,批量处理更多需求。此外,如果使用glm-4的批处理api,则价格还可以降低一倍。