SketchUpBIM网

admin

始智AI wisemodel.cn社区已上线2个月，是类huggingface社区的产品，将努力打造成中国最活跃的中立AI开源社区。“源享计划”即开源共享计划，大家自己研发的开源模型和数据集，以及基于开源成果衍生的开源模型和数据集等，欢迎同步发布到国内wisemodel.cn社区，方便大家更容易获取和使用。

2023年11月24日Yi-34B-Chat模型及4bits和8bits量化版零一万物团队已经发布在始智AI wisemodel.cn开源社区。2023年11月30日Yi-6B-Chat模型及4bits和8bits量化版零一万物团队也已经正式发布了出来。Yi-34B-Chat 4bit 量化版模型可以直接在消费级显卡（如RTX3090）上使用。

模型地址：

https://wisemodel.cn/organization/01.AI

评测效果

在 MMLU 英文知识水平评测集，C-Eval、CMMLU 中文综合考试评测集，以及 GSM8K、BBH 两个常用的评估大模型数学及推理能力的评测集中，Yi-34B-Chat 在开源模型中取得多项优异成绩（评测结果均采用 zero-shot 的方式，结果会受到 prompt 设计的影响，通过使用相同的 prompt 和生成策略来评测表中所有模型以获得一个较为公正的结果）。

下面看看Yi-34B-Chat几个实际示例：

除了 Yi 系列基座模型能力之外，Yi-34B-Chat 模型的效果也得益于人工智能对齐（AI Alignment）方面采用了一系列创新对齐策略。通过精心设计的指令微调流程，不仅强化了模型在理解和适应人类需求方面的能力，还使得模型与人类价值观对齐，包括帮助性（Helpful），可靠性（Honest），无害性（Harmless）等。

指令微调经验总结

基于Yi系列基座模型，采用一种轻量化指令微调方案，该方案涵盖了单项能力提升和多项能力融合两个阶段。其中，单项能力包括通用指令跟随、创意内容生成、数学、推理、编程、泛COT、对话交互等。通过大量的消融实验，针对模型单能力构建和多能力融合总结了以下认知和经验：

1、数据量：

- 在基座模型能力基础上，特定单项能力的激发仅需要少量数据（几条到几百条）。

- 单项能力达到性能拐点后，相同类别数据的大幅增加仅带来较小的能力提升，且会影响其他单项能力。

- 少量SFT数据是大量精细化消融实验和数据质量优化的重要前提条件。

2、数据质量：

- 质量比数量重要，少量高质量数据比大量低质量数据更好。

- 需重点关注超出模型能力的“低质量”数据，避免加剧幻觉。

3、指令多样性与难度：

- 通过在各能力项下构建任务体系，来均衡训练数据中的指令分布，从而提升模型泛化性。

- 复合指令构造和指令难度进化对提升效果和降低数据量的作用明显。

4、风格一致性：

- 统一回复风格很重要，比如在轻量SFT情况下，需避免风格不一致加剧模型的“记忆”现象。

- 训练数据的风格会影响模型收敛速度和能力上限的逼近程度，比如CoT的回复风格需重点设计。

5、多能力融合：

- 在多能力融合阶段，采用网格搜索的方法来决定数据配比和超参数的设置，并通过基准测试和自建评测集的结果来指导搜索过程。

在中国做开源社区是件非常充满挑战的事，也是一项需要长期坚持和投入的工作，希望大家多多支持，多点包容和多点耐心，有任何建议欢迎大家随时提出！欢迎扫码添加wisemodel微信，加入始智AI-wisemodel社区用户群，添加请注明“姓名-单位-职位”信息。

1、始智AI-wisemodel社区正式上线，目标打造中国版“HuggingFace”

2、向huggingface致敬！

3、始智AI wisemodel.cn社区，努力建成中国最活跃的AI开源社区

4、OpenAI开发者日的亮点、机会与展望

专题研究

5、专题 | 解密大模型训练、微调和推理运行时的性能问题

6、专题 | 蚂蚁CodeFuse团队联合上海交大发布最全代码大模型综述，500篇论文！

系列模型：

7、vivo 蓝心 BlueLM-7B 模型开源，支持手机端侧部署的大模型

8、清华LCM & LCM-LoRA上线wisemodel.cn社区，SD模型出图速度提升5-10倍

9、浙大OceanGPT：探索面向海洋科学的大模型，已开源发布到wisemodel.cn社区

10、Ziya-Reader-13B-v1.0模型：通过注意力增强方法，提高长文本任务的准确率

11、Wonder3D模型：2D图片直接转成3D模型，3D建模飞入寻常百姓家

12、北大开源CodeShell-7B代码大模型，配套IDE插件全开源

13、零一万物开源「Yi」系列双语大模型，已发布在wisemodel.cn社区，大模型又卷出新高度

14、大连理工团队开源“太一”中英双语生物医学大模型

15、深言科技联合清华NLP实验室开源LingoWhale-8B模型，已在wisemodel.cn社区

		自动登录	找回密码
密码			立即注册

Yi-6B/34B-Chat 模型及量化版上线wisemodel.cn开源社区

最新主题

0 回复

admin