mirror of
https://github.com/deepseek-ai/awesome-deepseek-integration.git
synced 2025-02-23 14:19:01 -05:00
1.2 KiB
1.2 KiB
Curator
Curator 是一个用于后训练大型语言模型 (LLMs) 和结构化数据提取的制作与管理可扩展的数据集的开源工具。
Curator 被用来制作 Bespoke-Stratos-17k,这是一个用于训练完全开源的推理模型 Bespoke-Stratos 的推理数据集。
Curator 支持:
- 调用 Deepseek API 进行可扩展的合成数据管理
- 简便的结构化数据提取
- 缓存和自动恢复
- 数据集可视化
- 使用批处理模式节省费用