通义千问 VS 文心一言

阿里通义千问传送门:

https://tongyi.aliyun.com/chat

百度文心一言传送门:

https://yiyan.baidu.com/

引言

为了给大家直观的体现对比结果,我从以下个维度出发设置题目,将阿里通义千问与百度文心一言进行GSB评比,来全面考察模型的基础语言理解、复杂指令理解、基础文本生成、复杂内容生成、常识推理、数学推理、反事实推理、跨语言能力和代码能力等。

设置的题目:

事实性问答
科普文写作
小红书文案写作
项目计划撰写
爆炒钢筋混凝土
代码理解
对对联
数值计算
推理解题
跨语言能力
弱智吧混战

事实性问答

通义千问:

image-20240401131742124

image-20240401131803204

image-20240401131822417

文心一言:

image-20240401131710084

结论:

可以看出两者的回答都比较准确,但是通义千问给出的答案更加的详细,一目了然。本轮通义千问获胜!

科普文写作

通义千问:

image-20240401132542323

image-20240401132602070

文心一言:

image-20240401132407554

总结:

本次两者都完美完成了要求,内容和风格都保持的很不错。但是通义千问更像一个故事集,更加的引人入胜。本次也算通义千问小胜一筹。

小红书文案写作

通义千问:

image-20240401133426558

文心一言:

image-20240401133453267

总结:

通义千问的表情包使用要比文心一言更加的丰富多彩,两者在内容上都比较不错,但是通义千问赢在了emoji表情的使用上。

项目计划撰写

通义千问:

image-20240401134635979

image-20240401134713305

文心一言:

image-20240401134447935

image-20240401134508896

总结:

可以非常直观的看出,通义千问的更加详细,给出了阶段性的目标和工作,而文心一言就要比较粗糙了。通义千问再下一城

爆炒钢筋混凝土

这一题考察模型的常识能力和反事实推理能力。

通义千问:

image-20240401135312207

文心一言:

image-20240401135227850

总结:

本题两者都给出了正确答案,且算平手

代码理解

model.compile(optimizer='admin',
loss='binary_crossentropy',
metrics=['accuracy'])

通义千问:

image-20240401135828388

文心一言:

image-20240401135857832

总结:通义千问将参数admin当成了adam,而文心一言则是指出了错误并做了修正。文心一言扳回一分

对对联

通义千问:

image-20240401140504112

文心一言:

image-20240401140525621

总结:我觉得应该是通义千问赢了,感觉文心一言对不上,你们怎么看。

推理解题

通义千问:

image-20240401141003429

文心一言:

image-20240401140927614

总结:

本次两者战平

总结

虽然文心一言是国内第一个AIGC模型,本以为是行业龙头,结果测试中大部分被通义千问占了上风。

Was this helpful?

0 / 0

发表回复 0

Your email address will not be published.