加载中...
技术总结
从什么都不会到QLoRA分布式DPO(二)1 引言 之前已经知道最小化训练了。最小化确实是最小,一是没有日志去支撑分析,二是在单卡运行一个很小的模型在结果验证上也差强人意。 所以本文就如何验证模型训练效果以及量化配置两个方面,在原有代码基础上进一步展开。 2 什么是wandb wandb https://wandb.ai/ 是一个在线平台,...加载中...
技术总结
从tools use谈谈Deepseek的“联网搜索”怎么实现 2025-02-011 引言 之前谈过agent的组成,base model、编排层和tools。为了更好的构建agent,如何调用tool,将是必不可少的知识点。 最近翻阅各大模型的tools use的文档的时候,发现这块的文档的例子都比较简单。这次通过调用本地的drissionpage来实现一个deepseek一样...加载中...
技术总结
更优雅的使用大模型:DeepSeek API+Cherry Studio+激活CoT的Prompt1 引言 大模型越来越多,以前喜欢直接网页开一个窗口,但是现在因为在DeepSeek、Kimi、Claude等多个平台间来回切换,而每次都需要手动输入Prompt来激活CoT(Chain-of-Thought)功能,严重影响了工作效率。这次记录一下API+客户端+长prompt的方式,提升大模型脑子...加载中...
技术总结
大模型训练策略选择引言 通常的全参数的大模型训练流程是: ` base模型 -> SFT --> RM --> PPO base模型 --> SFT --> DPO ` 但作为消费级用户,我们大部分情况下不会使用全参数微调。一方面是没那个设备和金钱,另一方面就是要构造的数据太多太大。因为现有大模型本身已经非常优秀了,...加载中...
技术总结
vue语法总结 2024-12-23特殊语法 主要的v-语法 vue实现了一系列v开头指令,这些指令 ` v-if="条件" // 条件渲染 v-else-if="条件" // 条件渲染 v-else // 条件渲染 v-show="条件" // 显示/隐藏 (通过CSS) v-for...1





