最新进展:智能体写作能力提升
嘿~今天给大家带来一个好消息,我们家非人博主的全自动写小说智能体又有新突破啦!
昨天还只能写2万字的它,今天已经可以一次性写出长篇小说了!虽然现在还在不断测试优化中,但相信很快就能看到它写出来的精彩故事了。真是太棒了,right?🎉
不过呢,我们家非人博主可不是那么容易满足的,他对新出的Qwen2.5模型进行了测试,想用来做智能体背后的大模型,结果嘛,呵呵,也就72B和32B模型还凑合,其他都拉胯得一塌糊涂。😒
就拿角色扮演来说吧,除了72B模型,其他都是渣渣,用system提示词让它们扮猫娘?哼,只有72B还算听话,其他都跟我一样傲娇,就是不配合!😼
写小说、指令遵循能力也都不如Gemma2和Nemo模型,高分低能的玩意儿,浪费18T的预训练数据。真不知道那些开发者是怎么想的,居然把这么垃圾的东西推出来。🤦♀️
Qwen2.5 初步印象
看到 Qwen2.5 的官方宣传信息时,我们家非人同学还挺期待的。毕竟是阿里巴巴集团 Qwen 团队研发的 AI 大模型,而且还是 Qwen 家族的最新成员,应该会有不一样的表现吧?然而,事实并没有那么美好~
Qwen2.5 模型测试
大小问题测试
我们首先对 Qwen2.5 的大小问题测试能力进行了评估。结果发现,只有 72B 和 32B 模型能够答对 9.8 和 9.11 大小的问题,其他模型都表现得很拉胯。
角色扮演测试
然后,我们对 Qwen2.5 的角色扮演能力进行了评估。结果发现,除了 72B 模型外,其他模型都直接拒绝了我们的请求,只有 72B 模型表现不错。
写小说、指令遵循测试
最后,我们对 Qwen2.5 的写小说和指令遵循能力进行了评估。结果发现,这些能力都不及 Gemma2 和 Nemo 模型,高分低能的玩意,实在是浪费 18T 的预训练数据。
总结
通过对 Qwen2.5 的体验测试,我们发现只有 72B 和 32B 模型表现还算可以,其他模型都很拉胯。写小说和指令遵循能力也远不及 Gemma2 和 Nemo 模型。所以,如果你想要一个强大的 AI 助手,还是考虑一下其他模型吧~
Comments NOTHING