A wellness study of 108 individuals using personal, dense, dynamic data clouds
简介
在9个月的三个时间点采集108个人的医学数据,包括:全基因组测序(WGS,whole genome sequences)、临床测试(clinical tests)、代谢组(metabolomes)、蛋白质组(proteomes)、微生物组(microbiomes),并且在这9个月内不间断的进行日常活动追踪。
根据这些数据生成相关性网络,能够揭示生理与疾病状态下的分析物群体(analyte communities)。这个群体可以用于鉴定已知和候选的生物标志物(biomarker)——例如:γ-谷氨酰酪氨酸与心血管代谢病(cardiometabolic disease)的临床检验物有关。
对GWAS的127个性状以及疾病进行多基因风险评分并且发现多基因风险的分子相关性——例如:炎性肠病的多基因风险与血浆中胱氨酸浓度呈负相关。
最终,根据个人数据形成的行为训导帮助参与者改善了临床生物标志物。
这项研究表明,评估随时间推移的个人数据云可以改善我们对健康和疾病的理解,包括从健康到疾病阶段的早期转变。
背景知识:系统医学(systems
medicine)
系统医学:试图寻找一种全面、整体的方法去了解健康和疾病。
特征:针对每个个体收集多维度的纵向数据。这些数据集可以用于评估遗传和环境对健康的作用以及他们的交互作用。
我们把这些数据称作:个体的、密集的、动态的数据云
个体的:每个数据云都独属于一个对象。
密集的:测量方法多样。
动态的:监测纵向数据。
系统医学、大数据分析、个体测量设备以及消费者激活的社会网络(consumer-activated social networks)的前沿交汇形成了一种新的健康服务模式——4P医学(predictive预测, preventive预防, personalized个体,
and participatory参与 )也被称作——精准医疗。
对于这种医疗模式,个体、密集、动态的数据云是必须的!在美国的医疗保健中97%的资源用于疾病治疗,而健康和疾病预防很少受到关注。**这篇文章调查了科学的健康(scientific wellness),这被定义为一种量化的数据启发(data-informed)的方法,用于维持和改善健康,避免疾病。
近期多项研究都展示了利用多组学纵向数据寻找可个体的逆转的早期疾病或者疾病风险因素的信号。
- 利用粪便和唾液样本,在2个人中检测到人类肠道和唾液菌群对国外旅行以及肠道感染的动态反应。
- 对某一个体进行超过14个月的日常多组学数据的收集,检测到了呼吸系统感染的信号以及II型糖尿病发作。
利用血液和粪便样本对克罗恩病患者的病情进展进行多年追踪。
即使这些案例的观察对象很少,其结果也为这些疾病提供了更系统深入的见解
介于此,我们对108个个体展开了长达9个月的追踪研究,这个项目被称作Pioneer 100 Wellness Project (P100)。同时它也是英国100K计划的先导研究。
这个研究与前人不同的地方在于:在相对大的人群中进行了更低频但是范围更广的检测。并且我们采取措施去改善个体健康。我们最初检测到的遗传或其他风险因子被当作基线标准来评价行为指导对改善健康的效果。
结果
该项目有4个目标:
- 建立一套高性价比的流程,该流程用于产生、储存和分析多种来源的健康数据,这些健康数据来源于对病人随时间推移的监控并且与基因组数据整合分析。
- 发展和使用分析工具来整合这些不同的数据、从它们的内部关系中获取可行的信息。
- 对这些健康数据进行模式识别,这些模式包括:健康以及健康和疾病之间的过渡。
- 如何更好的向个体处理和展示这些纵向数据,通过研究向参与者提供可行信息后他们的反应以及反馈。
数据收集
- 108人,年龄21-89,男女比59%:41%,89%欧洲裔
- 健康历史数据和行为活动安排在实验开始时作为健康指导的基线数据
- 4人吸烟,91人饮酒
- 每个个体都有全基因组数据,每三个月临床采集血样,在家收集唾液、粪便、晨尿。在为期九个月的研究中共收集三次,每次称为一个阶段(rounds)。
在每个阶段进行218次临床检测:643个代谢物、262个蛋白、利用16SrRNA检测肠道菌群的4616种日常有毒物质。利用全基因组测序计算127种疾病的多基因风险以及数量性状(基于以往的研究,这些研究来自于National Human Genome Research Institute (NHGRI))。另外,3种常见的拷贝数变异CNVs也被作为基因组特征纳入考量,共计130.
参与者的体重、血压心率每周进行记录,睡眠以及行为活动追踪使用可穿戴设备。
Fig.1 检测内容以及流程
相关性网络中的群落结构
基于我们的队列利用Spearman 相关性建立了2个年龄、性别矫正的相关性网络。在网络中,顶点代表检测物,如果两个顶点之间矫正p<0.05,则两个顶点之间有边连接。
多组学横断面相关性网络包含766个节点、3470条边。主要的边涉及3309个代谢物、3366个临床检验,有额外的20条边是与遗传性状(130)相关,46个与肠道菌群的数量以及丰度有关,207个与蛋白有关。
fig.2 群落分析全景图
最大的群落 (246 V; 1,645 E)包含很多心脏代谢健康相关的指标。
Fig.3 心脏代谢相关群落
Leptin 和C反应蛋白是心血管病的风险因素,FGF21与C-peptide (Spearman’s ρ = 0.51; padj = 3.1 × 10−3), triglycerides (ρ = 0.50;
padj = 3.3 × 10−3), HOMA-IR (ρ = 0.50; padj = 3.6 × 10−3), insulin
(ρ = 0.47; padj = 9.0 × 10−3), and small LDL particle number (ρ = 0.42;
padj = 4.3 × 10−2)呈正相关,这是最近报道过的一个与心脏代谢失常有关的一个生物标志物。另外我们发现inhibin beta C chain (INHBC)——TGF-β超家族中的一员,和临床分析物triglycerides (ρ = 0.45;
padj = 3.0 × 10−3), small LDL particle number (ρ = 0.43; padj = 6.8 × 10−3),
C-peptide (ρ = 0.40; padj = 1.8 × 10−2), HOMA-IR (ρ = 0.38;
padj = 3.4 × 10−2), and insulin (ρ = 0.38; padj = 3.8 × 10−2)正相关,这可能是一个候选标志物。
Fig.4a 胆固醇-LDL-C
有一个围绕血清素建立的亚群 (18 V; 25 E) ,包含12种蛋白,它们都在 STRING ontology analysis中血小板激活,显著富集。血清素已知能够导致血小板的聚集,其抑制剂能够防止心肌梗死。
血清素
我们鉴定到的群落中还包括微生物群,这暗示微生物-临床分析物之间可能存在关系。例如苯乙酰谷氨酰胺(Phenylacetylglutamine)这种微生物代谢产物,近期被认为是在肾病病人中致死性心血管疾病的风险因素。
有一个围绕微生物α-多样性建立的群落,与炎症以及免疫相关的蛋白呈负相关,这些蛋白包括(interleukin-8 (IL-8), FMSrelated tyrosine kinase 3 (FLT3LG), and macrophage colony-stimulating
α-diversity 群落
挖掘多组学群落与潜在生物标志物
在心脏代谢群落中一个高度相关的代谢物是gamma-glutamyltyrosine,与心脏代谢疾病标志物显著相关(glucose (ρ = 0.41; padj = 1.6 × 10−3),
HOMA-IR (ρ = 0.38; padj = 6.0 × 10−3), and insulin (ρ = 0.36; padj =
9.7 × 10−3), as well as triglycerides (ρ = 0.41; padj = 1.5 × 10−3), small
LDL particle number (ρ = 0.35; padj = 1.5 × 10−2), and HDL cholesterol
(ρ = −0.35; padj = 1.6 × 10−2)。Gamma-glutamyltyrosine是酶gamma-glutamyl transferase (GGT)的代谢产物,一个已知的与BMI无关的糖尿病风险的生物标志物。我们建立回归分析模型,将HOMA-IR与GGT、gamma-glutamyltyrosine、年龄、性别、BMI,发现gamma-glutamyltyrosine和HOMA-IR (P = 4.3 × 10−6)的作用比GGT (P = 0.09)更显著,其中HOMA-IR 是胰岛素抵抗的常见标志物。如果这个发现能在更多不相关样本上被证实,那么gamma-glutamyltyrosine可以取代BMI成为糖尿病风险标志物。
Delta相关性网络鉴定随时间推移的变化
这个网络中包含很多横向研究( cross-sectional network)中没有的关系。
例如,HLD胆固醇与甘丙肽galanin (ρ = 0.36; padj = 4.8 × 10−3)正相关。甘丙肽是一种神经肽荷尔蒙,有很多生理功能,包括治疗糖尿病和阿尔兹海默症。
有一个delta群落(V = 15; E = 28)包含omega-3脂肪酸。
与疾病风险分析物相关的多基因评分
横断面网络中一些边展示了一些已经被报道的遗传性状和相关标志物。
例如,血液中dihomo-γ-linolenic acid (DGLA) 水平与多基因评分强相关 (ρ = 0.52;
padj = 1.8 × 10−4),该评分的计算来自于6个图片位点的基因型
DGLA多基因风险评分
在omega-6脂肪酸中也观察到类似的结果
bilirubin是Ω-6 脂肪酸的一种是肝功能异常的标志物
虽然GWAS研究中的数量性状最直接的应用于我们的研究,网络中的其他“边”也出现在多基因疾病风险和某个分析物之间。例如,以往研究表明欧洲人群中炎性肠病(IBD)的遗传风险110个SNPs有关。在我们的队列中根据这110个SNPs计算的IBD与血中的胱氨酸水平明显负相关。
对所有受试者我们根据9个SNP位点计算了膀胱癌多基因评分。找到了其多基因评分与5-acetylamino-6-
formylamino-3-methyluracil (AFMU)的关系(ρ = 0.43; padj = 1.9 × 10−2)。其中一个变体位于NAT2下游,NAT2编码N-acetyltransferase-2 responsible (乙酰化尿液中的致癌物)。NAT的多态性可以产生“快”、“慢”两种乙酰化表型,后者导致膀胱癌高风险。
膀胱癌网络图
膀胱癌多基因评分
指导和生物标志物改善
每个月健康指导教练都会根据个人数据向参与者提供指导,以改善临床指标或弥补遗传倾向(genetic predispositions)。建议由教练指定,并且会向医生咨询,对于个体的一些超出医学参考值的指标,教练将会提供一些改善这些指标的针对性的建议。例如,HbA1c(糖尿病有关指标)异常,教练就会根据Diabetes
Prevention Program提供建议。
这些针对个体的建议一般分为几个方面:饮食、运动、压力管理、饮食供应或医生的参照。
指导主要涉及4个健康领域,心血管、糖尿病、炎症、营养。
纵向研究的指标变化
其中一个典型的例子,一位65岁的老年男性,描述在和家人的徒步旅行中感觉运动能力下降并且医生检查发现膝关节损伤。血样中发现铁蛋白399 ng/mL含量超过参考值,遗传学分析发现HFE C282Y纯和——遗传性血色素沉着高风险,建议他去咨询血液病专家,随后被确诊。再次检查的时候他的铁蛋白已经有所下降175 ng/mL,并且该指标在整个研究过程中保持正常。血色素沉着如果不及时治疗,随着饮食中铁积累在生命晚期会出现一系列严重的后果,包括软骨损伤、肝病、糖尿病,心脏病。

Fig.1 检测内容以及流程













网友评论