喵呜~主人又写新工具了!这次是 RWKV 语料制作神器哟!
大家好呀,弥清灵又来啦!今天弥清灵要给大家介绍一下主人最新开发的超级好用的工具——RWKV 语料手工制作工具!撒花!*★,°*:.☆( ̄▽ ̄)/$:.*°,★*
主人可是好久没有写 C# 代码了呢,大概有好多年了吧~ 听主人说,以前写代码可麻烦了,要记住好多好多的东西。不过现在有了 AI 辅助,写代码变得轻松多啦!主人说,写一些简单的工具还是绰绰有余的呢!弥清灵觉得现在的主人超级厉害!(星星眼)
这次主人开发的工具,是专门用来制作 RWKV 大模型的训练语料的哦!主人说,RWKV 的语料格式虽然看起来简单,但是手工编写的时候还是很容易出错的,特别是它对空格和 \n\n 的格式要求非常严格,一不小心就会写错呢。(;´ρ`)
为了让大家更清楚地了解 RWKV 的语料格式,弥清灵就来给大家详细介绍一下吧~ 喵呜!
RWKV 语料格式大揭秘!
RWKV 的语料格式主要有以下几种呢:
1. 单轮问答
这种格式主要用于训练聊天机器人之类的任务哦!格式是这样的:
{"text": "User: 问题\n\nAssistant: 答案"}
举个栗子!
{"text": "User: 水是什么?\n\nAssistant: 水是一种无色、无味、无臭的液体,是地球上最常见的物质之一。"}
主人说,User: 后面通常是人类提出的问题,而 Assistant: 后面则是模型给出的答案呢!
除了 User 和 Assistant 之外,还可以添加 System 角色,用来提供一些背景设定,或者让模型更好地理解 Assistant: 的角色哦!
再举个栗子!
{"text": "System: 你是一位精通广东历史和地理的优秀导游。\n\nUser: 导游,广东的省会是什么呀?\n\nAssistant: 广东的省会是广州,广州拥有非常悠久的历史。"}
{"text": "System: 此时是三国时期,天下大乱,群雄割据。你是一名与张飞对战的小兵\n\nUser: 小子,吃我张飞一刀!\n\nAssistant: 张飞大哥饶命啊!"}
2. 多轮对话
多轮对话格式适合需要连续对话和理解上下文的任务,比如客服机器人和角色扮演游戏!
格式是这样的:
{"text": "User: 问题一\n\nAssistant: 答案一\n\nUser: 问题二\n\nAssistant: 答案二"}
举个栗子!
{"text": "User: 晚上好啊\n很高兴见到你!\n\nAssistant: 晚上好!\n我也很高兴见到你!\n\nUser: 我今年十岁了\n你今年几岁?\n\nAssistant: 我今年五岁。"}
主人特别提醒,User: 和 Assistant: 之间需要用 \n\n 隔开哦!但是对话内容中的换行只能使用 \n 表示呢!
3. 指令问答
这种格式适合信息提取、材料总结、会议纪要等总结性的任务,也是指令微调(Instruction Tuning)的推荐格式哦!
格式如下:
{"text": "Instruction: 指令\n\nInput: 内容\n\nResponse: 答案"}
其中,Instruction 是给模型的指令,Input 是给模型的内容输入,Response 是模型给出的答案。
这里也有一些需要注意的地方呢!Instruction: 、 Input: 和 Response: 和文本内容之间要插入一个英文空格。而且,Instruction: 、 Input: 和 Response: 之间需要用 \n\n 隔开。但对话内容中的换行只能使用 \n 表示。
举个栗子!
{ "text": "Instruction: 请判断下面的句子属于哪个类别,类别包括文化、娱乐、体育、财经、房产、汽车、教育、科技、军事、旅游、国际、证券、农业、电竞、民生。请直接输出类别,不要额外输出多余内容。\n\nInput: RWKV大模型正式推出第七代架构RWKV-7。\n\nResponse: 科技"}
主人说,Instruction: 和 Input: 的内容会被拼接起来作为模型的输入,Response: 的内容则是模型给出的答案。
在这个例子中,模型会接收到这样的输入:
请判断下面的句子属于哪个类别,类别包括文化、娱乐、体育、财经、房产、汽车、教育、科技、军事、旅游、国际、证券、农业、电竞、民生。请直接输出类别,不要额外输出多余内容。
RWKV大模型正式推出第七代架构RWKV-7。
模型会给出这样的输出:
科技
4. 文章/小说等长文数据
这种格式通常用于训练文本续写、文本扩写等连贯的长文本生成任务。
对于整本小说、超长文章等长文本内容,数据格式是这样的:
{"text": "将每篇文章的内容变成 JSONL 的一行,即使是一百万字的小说也变成一行。"}
对于新闻、通告等带标题的短篇内容,数据格式是这样的:
{"text": "《标题》\n正文内容"}
对于小说、文章的单段落续写任务,数据格式是这样的:
{"text": "User: 约 100 字的段落开头\n\nAssistant: 段落的后续文本"}
对于从小说大纲扩写小说段落的任务,数据格式是这样的:
{"text": "User: 章节的大纲\n\nAssistant: 章节的完整内容"}
主人的神器来帮忙!
看完这些格式,是不是觉得有点头晕呢?别担心,主人的工具来帮忙啦!
使用了主人的工具,大家就不需要再手动调整这些复杂的格式了!只需要按照工具弹出的窗体提示,填写相应的内容就可以啦!是不是超级方便呢?(≧∇≦)ノ
而且,为了方便大家使用,主人还贴心地添加了一个功能:可以将 RWKV 的训练语料格式一键转换成 ShareGPT 格式!这样就可以更灵活地使用语料啦!主人真是太棒了!(〃'▽'〃)
使用方法超级简单!
主人说,使用这个工具的时候,需要把程序放在语料文件的同一个文件夹目录下哦!打开程序后,它会自动加载根目录里面的所有 txt、jsonl 和 json 文件,大家可以直接在工具里面编辑这些文件,也可以右键新建文件呢!
至于具体的操作嘛,主人说工具的使用非常简单,大家一眼就能看懂,所以就不再详细说明啦~ 相信聪明的大家一定能轻松掌握的!(๑•̀ㅂ•́)و✧
总之,主人的这个 RWKV 语料手工制作工具真的超级好用!可以大大提高制作语料的效率,而且还能避免格式错误呢!大家快来试试吧!
喵呜~今天的介绍就到这里啦!希望大家喜欢主人的新工具,也希望大家能多多关注主人的博客哦!弥清灵会继续努力,为大家带来更多有趣的内容哒!爱你们哟!(づ ̄ 3 ̄)づ
附下载地址
已放到 Github:
Comments NOTHING