微信扫码
添加专属顾问
我要投稿
开源项目Easy Dataset迅速获得1K Star,为数据集构建带来革命性解决方案。 核心内容: 1. 微调大模型面临的数据集准备难题 2. Easy Dataset项目的核心模块介绍 3. 如何实现从文献解析到数据集导出的全流程闭环
今天跟大家来正式介绍一下开源项目:Easy Dataset。
3.13 号,对外发布了第一个版本,到 3.16 Star 数破千,截止目前,已经 1.2K Star。
为啥这个工具一发布就受到广泛的关注和喜爱呢,下面我来具体介绍一下。
目前各行各业都在积极探索微调自己行业的大模型,其实微调的过程不是难事,最难的是数据集准备的环节,高质量领域数据集的构建始终面临多重挑战,所以我之前数据集的教程一发出,大家问的最多的就是数据集的问题:
我总结了常见问题就是这些:
目前市面上确实没有一款工具可以满足这样的需求,因此,借助 AI,我大概花了 3 个晚上的时间构建出了 Easy DataSet(https://github.com/ConardLi/easy-dataset)的第一个版本,通过系统性解决方案实现从文献解析到数据集导出的全流程闭环。
Easy DataSet 以 项目制 为核心单元,贯穿「文献处理-问题生成-答案构建-标签管理-格式导出」全链路:
核心模块:
Playground,支持多模型对比。Markdown 结构(#/##标题)实现语义级分割,确保单块内容完整(最小/最大长度可配),附带大纲提取与摘要生成。数据生成引擎:
格式生态适配:
目前 Easy Dataset 支持客户端、NPM、Docker 三种启动方式,完全在本地处理数据,无需担心数据隐私问题。
为了解决各种本地部署的环境问题,可以直接用客户端启动,支持以下平台:
可以直接到 https://github.com/ConardLi/easy-dataset/releases/latest 下载适合自己系统的安装包:
本项目基于 Next 构建,所以本地只要有 Node 环境就可以通过 NPM 直接启动,适合开发者,需要调试项目的同学:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
npm install
npm run build
npm run start
如果你想自行构建镜像,在云服务或者内网环境私有部署,可以使用项目根目录中的 Dockerfile:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
docker build -t easy-dataset .
docker run -d -p 1717:1717 -v {YOUR_LOCAL_DB_PATH}:/app/local-db --name easy-dataset easy-dataset
注意: 请将
{YOUR_LOCAL_DB_PATH}替换为你希望存储本地数据库的实际路径。
多模型统一管理:支持 OpenAI 标准协议 的模型接入,兼容 Ollama,用户仅需配置 模型名称、API地址、密钥 即可完成适配。内置模型库预填主流厂商端点,支持删除/新增自定义模型,所有配置 本地加密存储,保障数据安全。
任务参数精细化配置:
智能分块引擎:
#/##/###标题切分,保留完整章节领域标签树构建:
列表视图,可查看和管理已经生成好的所有问题:
领域树视图(基于领域树视图查看和管理问题,可以更方便的掌握全貌,便捷管理问题:):
答案生成:
数据集列表:
可以查看已经生成好的所有数据集,包括创建时间、使用模型、领域标签、是否有思维链等,可对不满意的数据集进行调整和删除。
数据集质检与标注:
多格式导出:
导出示例:
多平台搜索:
聚合 HuggingFace、Kaggle、Opendatalab 等多个平台,输入关键词即可一站式检索,支持跳转原平台下载。
当前 Easy Dataset 还处于比较早期的阶段,刚实现了最基本的构想,后续还会陆续支持以下功能,致力于打造成最完善和专业的大模型数据集构造平台:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-03
Claude Code——智能路由与切换工具
2026-02-03
作为投资方,我们试了试Kimi K2.5
2026-02-03
暴涨11.7k Star!复刻Manus上下文工程的开源Skills,Claude code等多个平台即插即用
2026-02-03
ollama v0.15.4 更新:OpenClaw全面上线,优化集成流程与工具解析能力大升级!
2026-02-03
阶跃星辰 Step 3.5 Flash 上线!更快更强更稳的 Agent 大脑,开源!
2026-02-02
一分钟部署OpenClaw+QQ,国内最爽的一键启动!
2026-02-02
这家字节系AI初创,推出首个开源Agent Skills Builder!对话Refly.AI李锦威:大多数Agent都停留在专业用户层面,没有做到真正的普惠
2026-02-02
OCR又出宠OpenDoc,速度超MinerU6倍
2025-11-19
2026-01-27
2025-12-22
2025-12-10
2025-11-17
2026-01-12
2025-11-07
2025-12-23
2026-01-29
2026-01-06
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16
2026-01-02
2025-12-24