🌓
搜索
 找回密码
 立即注册

Yi-6B/34B-Chat 模型及量化版上线wisemodel.cn开源社区

admin 2023-12-1 20:02:02 42211
始智AI wisemodel.cn社区已上线2个月,是类huggingface社区的产品,将努力打造成中国最活跃的中立AI开源社区。“源享计划”即开源共享计划,大家自己研发的开源模型和数据集,以及基于开源成果衍生的开源模型和数据集等,欢迎同步发布到国内wisemodel.cn社区,方便大家更容易获取和使用。

2023年11月24日Yi-34B-Chat模型及4bits和8bits量化版零一万物团队已经发布在始智AI wisemodel.cn开源社区。2023年11月30日Yi-6B-Chat模型及4bits和8bits量化版零一万物团队也已经正式发布了出来。Yi-34B-Chat 4bit 量化版模型可以直接在消费级显卡(如RTX3090)上使用。

模型地址

https://wisemodel.cn/organization/01.AI

评测效果

在 MMLU 英文知识水平评测集,C-Eval、CMMLU 中文综合考试评测集,以及 GSM8K、BBH 两个常用的评估大模型数学及推理能力的评测集中,Yi-34B-Chat 在开源模型中取得多项优异成绩(评测结果均采用 zero-shot 的方式,结果会受到 prompt 设计的影响,通过使用相同的 prompt 和生成策略来评测表中所有模型以获得一个较为公正的结果)。

下面看看Yi-34B-Chat几个实际示例:

除了 Yi 系列基座模型能力之外,Yi-34B-Chat 模型的效果也得益于人工智能对齐(AI Alignment)方面采用了一系列创新对齐策略。通过精心设计的指令微调流程,不仅强化了模型在理解和适应人类需求方面的能力,还使得模型与人类价值观对齐,包括帮助性(Helpful),可靠性(Honest), 无害性(Harmless) 等。
指令微调经验总结
基于Yi系列基座模型,采用一种轻量化指令微调方案,该方案涵盖了单项能力提升和多项能力融合两个阶段。其中,单项能力包括通用指令跟随、创意内容生成、数学、推理、编程、泛COT、对话交互等。通过大量的消融实验,针对模型单能力构建和多能力融合总结了以下认知和经验:
1、数据量:
- 在基座模型能力基础上,特定单项能力的激发仅需要少量数据(几条到几百条)。
- 单项能力达到性能拐点后,相同类别数据的大幅增加仅带来较小的能力提升,且会影响其他单项能力。
- 少量SFT数据是大量精细化消融实验和数据质量优化的重要前提条件。
2、数据质量:
- 质量比数量重要,少量高质量数据比大量低质量数据更好。
- 需重点关注超出模型能力的“低质量”数据,避免加剧幻觉。
3、指令多样性与难度:
- 通过在各能力项下构建任务体系,来均衡训练数据中的指令分布,从而提升模型泛化性。
- 复合指令构造和指令难度进化对提升效果和降低数据量的作用明显。
4、风格一致性:
- 统一回复风格很重要,比如在轻量SFT情况下,需避免风格不一致加剧模型的“记忆”现象。
- 训练数据的风格会影响模型收敛速度和能力上限的逼近程度,比如CoT的回复风格需重点设计。
5、多能力融合:
- 在多能力融合阶段,采用网格搜索的方法来决定数据配比和超参数的设置,并通过基准测试和自建评测集的结果来指导搜索过程。
在中国做开源社区是件非常充满挑战的事,也是一项需要长期坚持和投入的工作,希望大家多多支持,多点包容和多点耐心,有任何建议欢迎大家随时提出!欢迎扫码添加wisemodel微信,加入始智AI-wisemodel社区用户群,添加请注明“姓名-单位-职位”信息。  
 

1、始智AI-wisemodel社区正式上线,目标打造中国版“HuggingFace”

2、向huggingface致敬!

3、始智AI wisemodel.cn社区,努力建成中国最活跃的AI开源社区

4、OpenAI开发者日的亮点、机会与展望

专题研究

5、专题 | 解密大模型训练、微调和推理运行时的性能问题

6、专题 | 蚂蚁CodeFuse团队联合上海交大发布最全代码大模型综述,500篇论文!

系列模型:

7、vivo 蓝心 BlueLM-7B 模型开源,支持手机端侧部署的大模型

8、清华LCM & LCM-LoRA上线wisemodel.cn社区,SD模型出图速度提升5-10倍

9、大OceanGPT:探索面向海洋科学的大模型,已开源发布到wisemodel.cn社区

10、Ziya-Reader-13B-v1.0模型:通过注意力增强方法,提高长文本任务的准确率

11、Wonder3D模型:2D图片直接转成3D模型,3D建模飞入寻常百姓家

12、北大开源CodeShell-7B代码大模型,配套IDE插件全开源

13、零一万物开源「Yi」系列双语大模型,已发布在wisemodel.cn社区,大模型又卷出新高度

14、大连理工团队开源“太一”中英双语生物医学大模型

15、深言科技联合清华NLP实验室开源LingoWhale-8B模型,已在wisemodel.cn社区


112671.jpg
随机推荐

最新主题

0 回复

高级模式
游客
返回顶部