标准号:T/SDTS 002-2025
标准名称:茶树基因型与表型关联建模技术规范
团体名称:山东省茶叶学会
发布日期:2025年06月05日
实施日期:2026年07月05日
1范围
本文件规定了茶树基因型与表型关联建模的技术要求,包括数据预处理、群体遗传结构分析、关联分析方法、环境因素校正及结果解读等内容。
本文件适用于茶树品种选育、抗逆性研究及品质改良等领域。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
无相关引用文件。
3术语和定义
3.1
基因型
指茶树个体或群体在基因水平上的遗传构成。
3.2
表型
指茶树在特定环境条件下表现出的形态、生理、生化及产量相关特征。
3.3
关联分析
研究基因型与表型性状之间的统计关系,主要方法包括全基因组关联分析(GWAS)和数量性状位点(QTL)分析。
4数据预处理
4.1基因型数据
采用高通量测序(如WGS、GBS)获取SNP数据。
4.1.1质量控制:使用FastQC检查数据质量,Trimmomatic去除低质量序列。
4.1.2比对参考基因组:使用BWA或HISAT2对序列比对至茶树参考基因组。
4.1.3变异检测:采用GATK、SAMtools进行SNP/INDEL检测,筛选质量值≥30、覆盖深度≥10的高质量变异位点。
4.1.4缺失数据填补:使用BEAGLE或Impute2处理缺失基因型数据。
4.2表型数据
4.2.1采用标准化方法(Z-score或Min-Max归一化)处理连续变量。
4.2.2计算最佳线性无偏预测值(BLUP)降低环境误差。
4.2.3采用PCA或MDS去除异常值,确保数据质量。
5群体遗传结构分析
5.1采用PCA(主成分分析)、MDS(多维尺度分析)评估群体结构。
5.2计算LD衰减(连锁不平衡衰减),优化标记选择策略。
5.3使用STRUCTURE、ADMIXTURE软件推测茶树种质的遗传背景。
6关联建模分析
6.1全基因组关联分析(GWAS)
6.1.1单标记分析(SMA):采用广义线性模型(GLM),适用于简单性状。
6.1.2混合线性模型(MLM):结合PCA和亲缘关系矩阵,适用于复杂性状。
6.1.3FarmCPU:结合固定效应和随机效应,提高检测效能。
6.1.4MLMM:适用于多基因控制性状,提高检测效率。
6.2QTL作图分析
6.2.1采用连锁分析或全基因组关联分析进行QTL作图。
6.2.2结合GWAS与QTL作图进行联合分析,提高候选基因识别精度。
7环境因素校正与多变量分析
7.1采用LMM(线性混合模型)或BLUP方法剔除非遗传变异。
7.2多环境关联分析(ME-GWAS)提高基因鉴定的稳定性。
7.3结合机器学习方法(XGBoost、随机森林)优化基因-表型预测模型。
8结果解读与育种应用
8.1结合GWAS和QTL分析筛选候选基因,并进行功能注释。
8.2采用基因共表达网络分析(WGCNA)挖掘功能相关基因模块。
8.3结合标记辅助选择(MAS),优化茶树品种选育策略。
8.4通过CRISPR/Cas9基因编辑进行功能验证。
9附录
附录内容包括实验方法、数据格式示例、统计分析参数等。
9.1实验方法
9.1.1高通量测序实验方法
DNA提取:采用CTAB法或商业化DNA提取试剂盒,从茶树叶片或嫩梢中提取高质量的基因组DNA。提取的DNA应经过浓度测定和质量评估,确保其纯度和完整性满足高通量测序的要求。
文库构建:根据所选用的高通量测序技术,对提取的DNA进行片段化、末端修复、连接测序接头等操作。构建的文库应通过QPCR或生物分析仪等方法进行大小和浓度的验证,以确保其符合测序平台的要求。
测序:将构建好的文库加载到合适的高通量测序仪上进行测序。根据研究目的和基因组大小,选择合适的测序深度和读长。在测序过程中,应严格按照仪器的操作手册进行操作,并记录相关的测序参数和质量控制信息。
9.1.2表型数据采集方法
形态特征测量:对于茶树的形态特征,如株高、冠幅、叶面积、叶片厚度等,采用标准的测量工具和方法进行测量。测量时应注意选择具有代表性的测量部位和测量时间,以减少测量误差。
生理指标测定:对于茶树的生理指标,如光合速率、蒸腾速率、叶绿素含量等,采用相应的仪器和方法进行测定。测定过程中应按照仪器的操作说明进行操作,并记录相关的环境参数,以便对测定结果进行校正和分析。
生化成分分析:对于茶树的生化成分,如茶多酚、儿茶素、氨基酸、咖啡碱等,采用高效液相色谱(HPLC)、气相色谱-质谱联用(GC-MS)等分析方法进行测定。在分析过程中,应严格按照标准操作流程进行样品的提取、分离和检测,并使用标准品对仪器进行校准,以确保分析结果的准确性和可靠性。
9.2数据格式示例
9.2.1基因型数据格式示例
样品编号 染色体位置(chr1) 参考等位基因 替代等位基因 基因型
TEA001 1000 A G AG
TEA002 1000 A G AA
TEA003 1000 A G GG
TEA001 2000 C T CT
TEA002 2000 C T CC
TEA003 2000 C T TC
9.2.2表型数据格式示例
样品编号 叶面积(cm2) 茶多酚含量(%) 儿茶素含量(mg/g) 氨基酸含量(%)
TEA001 15.2 12.5 18.7 3.8
TEA002 13.8 13.1 16.9 4.1
TEA003 14.5 12.8 17.5 3.9
TEA004 14.1 12.6 17.1 4.0
9.2.3环境数据格式示例
测量时间 温度(℃) 湿度(%) 光照强度(μmol/m2·s) 土壤含水量(%)
2023-05-0109:00 22 65 850 28
2023-05-0112:00 28 50 1200 25
2023-05-0115:00 25 55 950 26
2023-05-0118:00 20 70 500 27
9.3统计分析参数示例
9.3.1全基因组关联分析(GWAS)参数示例
模型选择:广义线性模型(GLM)或混合线性模型(MLM)。
显著性阈值:p值<1e-5或经过Bonferroni校正后的p值<0.05。
连锁不平衡(LD)窗口大小:100kb。
群体结构参数:主成分分析(PCA)的前3个主成分。
9.3.2数量性状位点(QTL)分析参数示例
作图方法:连锁分析或全基因组关联分析。
显著性阈值:lod值>3.0。
置信区间:1.5Mb。
环境因子校正:采用线性混合模型(LMM)或最佳线性无偏预测值(BLUP)方法。
9.3.3多变量分析参数示例
机器学习方法:XGBoost或随机森林。
训练集和测试集比例:70%和30%。
交叉验证次数:5折或10折。
评价指标:准确率、召回率、F1值、均方误差(MSE)等。
起草人:丁兆堂、王玉、孙立涛、申加枝、范凯、钱文俊