您当前的位置 : 热点关注  >> 正文

从信号到结论,MRD检测的数据分析能力决定了最后一步的准确性

  做MRD检测,很多人以为最关键的环节是测序仪跑得深不深、探针设计得好不好。这些当然重要,但还有一个环节,可能比大多数人想象的更关键,那就是数据分析。

  测序仪跑出来的数据,是海量的原始信号。这些信号里,哪些是肿瘤来源的,哪些是背景噪音,哪些是克隆性造血导致的干扰,哪些是测序过程本身产生的误差——要把这些区分清楚,靠的不是硬件,而是算法、数据库和背后的分析逻辑。说到底,MRD检测的最后一公里,其实是数据分析能力。

  数据分析里还有一个细节,是对突变数量的处理方式。有些机构的算法是盯着一个突变看,这个突变信号强就是阳性,信号弱就是阴性。但问题是,肿瘤存在异质性,一个突变可能在治疗过程中丢失,或者因为其他原因测不出来,只盯一个风险太大。吉因加在数据分析时,看的是一组突变的综合信号。他们在定制Panel时就会纳入5个以上的患者专属突变,分析的时候,综合这些突变的变化趋势来判断MRD状态。就算某个突变因为各种原因没测出来,还有其他突变可以兜底。这种多突变的联合分析,在统计上叫“复合终点”,比单突变分析的可靠性高出一截。

  除了突变本身,ctDNA在血液里的存在形式也藏着信息。肿瘤来源的DNA片段和正常细胞来源的DNA片段,在长度分布、末端序列这些特征上其实有差异。这些差异肉眼看不见,但算法可以捕捉。吉因加的ER-Seq技术,除了常规的突变检测,还整合了片段组学的特征分析。相当于给数据分析加了一个维度——不光看“有没有突变”,还看“这些片段像不像肿瘤来的”。两个维度交叉验证,结果自然更可靠。

  吉因加这些年累计检测样本量超过120万份,覆盖了20多种实体瘤。这个体量的数据,对算法团队来说是宝贵的“燃料”。哪些情况下容易误判,哪些突变类型容易漏检,哪些患者群体的信号特征比较特殊——这些经验最终都会沉淀到算法里,让下一次检测变得更准。

  测序仪给出的原始数据,经过一系列算法、数据库、统计模型的加工,最后浓缩成报告上的“阴性”或“阳性”。这个转化过程,就是数据分析能力最直接的体现。一套好的分析体系,不是简单地设个阈值就完了,而是要考虑背景噪音、克隆性造血、肿瘤异质性、片段特征这些复杂的因素,最后给出一个经得起推敲的判断。对于患者来说,拿到报告看到结果的时候,背后其实是一整套数据分析系统在支撑。这套系统靠不靠谱,决定了那个结果是让人放心,还是让人焦虑。

       (本文为企业宣传资讯,仅供用户参考。)

(责编:张凯)