🌓
搜索
 找回密码
 立即注册

具备超强多轮对话能力,南方科大开源SUS-Chat-34B模型,Open LLM Leaderboard领先

admin 2023-12-15 10:52:54 85230
始智AI wisemodel.cn社区已上线3个月,是类huggingface社区的产品,将努力打造成中国最活跃的中立AI开源社区。“源享计划”即开源共享计划,大家自己研发的开源模型和数据集,以及基于开源成果衍生的开源模型和数据集等,欢迎同步发布到国内wisemodel.cn社区,方便大家更容易获取和使用。

南方科技大学团队近期在始智AI wisemodel.cn开源社区发布的SUS-Chat-34B模型,2023-12-05在Huggingface的open_llm_leaderboard榜单上取得了同级别模型最好成绩。

模型地址:

https://wisemodel.cn/models/SUSTech/SUS-Chat-34B

SUS-Chat-34B模型概述
SUS-Chat-34B模型是南方科技大学联合IDEA研究院CCNL团队共同研发和开源,是基于01-ai/Yi-34B预训练模型通过数百万高质量、多语言的指令数据进行了微调,改善了模型对人类指令的响应方式,并擅长通过思维链的方式模仿人类思考过程。
相比于Yi-34B和Yi-34B-chat,SUS-Chat-34B模型不仅在几乎所有基准测试中提升了性能,而且能够更好地满足了复杂多语言任务的实际需求。指令微调阶段加入了大量高质量长文本和多轮对话指令数据,将文本窗口从基础模型的4K扩展到8K,有助于模型更有效地遵循多轮对话中的指令,显著减少在扩展对话和长文本理解中上下文丢失的问题。

精细化高质量数据筛选方法

在训练数据迭代的过程中,采用精细化的筛选方法,提炼出与模型能力最相关的数据子集,通过在百亿参数级别的模型上进行了快速多次实验,根据通用任务榜单的综合性能标准,确定了最优的数据分布。这一过程涉及对上亿条指令文本数据的深度分析和挑选,确保了数据不仅在数量上庞大,而且在质量上符合模型提升的关键需求,特别是在增强模型的语言理解和响应能力方面。通过这种策略,模型能够更有效地学习和适应复杂的语言模式和指令,从而在各种评估中表现出更高的性能和更强的适应能力。

对齐人类逻辑思维方式

SUS-Chat-34B在训练时加入了类似人类思考过程的数据,如在回答问题时先分析问题、规划解决方案,使模型在指令对齐中学会了用人类的逻辑思维方式思考。这使得SUS-Chat-34B在多数指标,尤其是涉及数理逻辑的基准测试中,因为有更加正确的思考方式,指令对齐带来的模型性能降低的问题有所缓解,同时在部分基准测试中获得了相比于预训练模型Fewshot更高的得分。这打破了大模型训练中“对齐税普遍存在”的认知,为模型训练提供了新的思路和借鉴。

模型基准测试结果

指令间共享注意力机制

指令间共享注意力机制的核心是允许不同对话轮次之间的注意力机制部分共享,使模型在微调阶段能够同时捕捉到与相关多轮对话数量相当的非相关多轮对话数据。这种机制的引入显著优化了模型处理多轮对话时对不同内容的关注分布,避免对无关文本的过度关注,成为提高多轮对话性能的关键
共享注意力机制通过调整注意力权重的分配,让模型在处理连续对话轮次时,能够更准确地识别和保持对于先前轮次中重要信息的关注,更有效地区分和响应多轮对话中的关键内容。从而提高模型对于上下文的理解能力,以及增强在复杂对话场景中的应对能力。

在中国做开源社区是件非常充满挑战的事,也是一项需要长期坚持和投入的工作,希望大家多多支持,多点包容和多点耐心,大家有任何建议欢迎随时提出!欢迎扫码加入llama群,也可以添加wisemodel微信,持续获取wisemodel社区相关信息,添加请注明“姓名-单位-职位”信息。   

       

1、始智AI-wisemodel社区正式上线,目标打造中国版“HuggingFace”

2、向huggingface致敬!

3、始智AI wisemodel.cn社区,努力建成中国最活跃的AI开源社区

4、OpenAI开发者日的亮点、机会与展望

专题研究

5、专题 | 解密大模型训练、微调和推理运行时的性能问题

6、专题 | 蚂蚁CodeFuse团队联合上海交大发布最全代码大模型综述,500篇论文!

系列模型

7、低成本扩大输入图像分辨率,华中科大开源Monkey大模型,解锁密集文本问答的潜能

8、探索多厂商异构算力混合训练,智源Aqulia2-70B/34B均发布到wisemodel开源社区

9、关注知识图谱构建等能力,东北大学团队开源TechGPT-2.0系列模型

10、北大团队开源Video-LLaVA多模态大模型,视频问答新SOTA

11、Yi-6B/34B-Chat 模型及量化版上线wisemodel.cn开源社区

12、vivo 蓝心 BlueLM-7B 模型开源,支持手机端侧部署的大模型

13、清华LCM & LCM-LoRA上线wisemodel.cn社区,SD模型出图速度提升5-10倍

14、浙大OceanGPT:探索面向海洋科学的大模型,已开源发布到wisemodel.cn社区

15、Ziya-Reader-13B-v1.0模型:通过注意力增强方法,提高长文本任务的准确率

112845.jpg
随机推荐

最新主题

8 回复

内容对我有帮助
chaichwtr
2023-12-15 10:03:09
LZ说的很不错
沙发!沙发!
过来看看的
草泥马
2023-12-15 10:11:30
看帖回帖是美德!
鼓励一下
iano6w62
2023-12-15 10:40:34
帮你顶下哈!!
学习了,谢谢分享、、、
高级模式
游客
返回顶部