标准号:T/SDTS 006-2025
标准名称:茶树数据集建设规范
团体名称:山东省茶叶学会
发布日期:2025年06月05日
实施日期:2025年07月05日
1范围
本文件规定了茶树数据集建设的术语和定义、数据采集规范、数据存储与管理、数据质量控制、数据标准化、数据共享与安全及档案管理。
本文件适用于茶树数据集建设。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB/T2260中华人民共和国行政区划代码
GB/T7408数据元和交换格式信息交换日期和时间表示法
DB37/T3553茶树物联网平台数据采集规范
3术语和定义
下列术语和定义适用于本文件。
3.1
茶树数据集
指通过感知设备、实验测量、遥感监测等方式采集的,涵盖茶树表型、基因组、环境、管理及经济数据的集合。
3.2
表型数据
指茶树的形态、生长特征、抗逆性、产量、品质等外部可观测性状数据。
3.3
遥感数据
利用无人机、卫星或地面传感器获取的茶树生长环境及状态的影像和光谱数据。
3.4
数据标准化
指通过统一的数据格式、存储方式和编码规则,提高数据的兼容性和可复用性。
3.5
多组学数据
指基因组、转录组、蛋白组、代谢组等多层次的生物数据。
4数据采集规范
4.1数据分类
茶树数据集应涵盖以下类别:
a)表型数据:叶面积指数、叶绿素含量、冠层结构、生长速率等。
b)基因组数据:基因组测序、转录组、蛋白组、代谢组数据等。
c)环境数据:气温、降水、光照、土壤湿度、土壤养分等。按照DB37/T3553的规定执行。
d)遥感数据:无人机高光谱、RGB影像、热成像、雷达数据等。
e)管理数据:施肥、病虫害防控、采摘时间、茶叶产量等。
4.2采集方法
4.2.1自动化采集:使用物联网传感器、无人机遥感、智能监测设备实时采集。
4.2.2实验测定:利用实验室仪器测定茶叶化学成分、基因表达等。
4.2.3人工记录:田间观察、手动记录生长性状。
4.3采集频率
数据类型 采集频率
环境数据 实时或小时级
表型数据 每周或按生长关键期
基因组数据 季度或年度
遥感数据 每月或关键生长期
5数据存储与管理
5.1数据存储格式
5.1.1结构化数据采用CSV、JSON、SQL数据库存储。
5.1.2非结构化数据(影像、基因数据)采用HDF5、GeoTIFF、FASTQ格式存储。
5.1.3元数据应符合DublinCore标准,包括采集时间、地点、设备型号等信息。
5.2数据存储平台
5.2.1采用分布式存储架构(Hadoop、Spark)处理大规模数据。
5.2.2重要数据采用云存储,支持阿里云、AWS、HDFS等平台。
5.2.3建立数据备份机制,采用本地+远程双备份,确保数据安全。
6数据质量控制
6.1质量控制原则
6.1.1一致性:确保不同来源的数据格式、单位、编码统一。
6.1.2完整性:数据采集避免缺失,关键字段不能为空。
6.1.3准确性:使用传感器校准、人工复核、数据比对等方式确保数据精准。
6.1.4去噪处理:使用异常值检测算法(如IQR、Z-score)排除异常数据。
6.2数据清洗
6.2.1缺失值处理:采用均值插补、最近邻插值等方法填补缺失数据。
6.2.2重复值处理:采用哈希校验去除重复记录。
6.2.3异常值检测:使用统计分析或机器学习方法识别和修正异常数据。
7数据标准化
7.1统一数据格式
7.1.1环境数据:温度(℃)、湿度(%)、光照(μmol/m2/s)。
7.1.2表型数据:叶绿素含量(SPAD值)、冠层结构(LAI值)。
7.1.3基因组数据:FASTA、GFF3格式存储。
7.2编码标准
7.2.1使用GB/T7408标准记录时间。
7.2.2采用GB/T2260标准表示行政区划编码。
7.2.3统一茶树品种编号(如“TEA-2025-鲁茶6号”)。
8数据共享与安全
8.1共享机制
8.1.1开放数据集:基础性数据向学术机构和政府开放。
8.1.2API接口:提供RESTfulAPI,支持数据调用和分析。
8.1.3数据共享协议:遵循CCBY4.0协议,确保合理使用。
8.2数据安全
8.2.1访问控制:采用基于角色的访问控制(RBAC)。
8.2.2数据加密:采用AES-256加密存储敏感数据。
8.2.3备份机制:重要数据设定自动备份,每天/每周定期存档。
9档案管理
建立茶树数据集建设记录档案,记录档案至少保存3年。
起草人:丁兆堂、孙立涛、范凯、钱文俊、李玉胜、王 玉、王林军、杨海滨、蒋双丰、申加枝