手把手教你用ichorCNA分析超低深度cfDNA测序数据（含参数优化指南）

最新推荐文章于 2026-03-11 00:13:57 发布

原创

最新推荐文章于 2026-03-11 00:13:57 发布 · 435 阅读

标签

#cfDNA #ichorCNA #生信分析 #参数优化

从BAM到洞察：实战解析ichorCNA在超低深度cfDNA分析中的参数调优艺术

面对早期癌症筛查或微小残留病灶监测的临床需求，循环游离DNA（cfDNA）的超低深度全基因组测序（ULP-WGS）已成为一种极具前景的无创检测手段。然而，当测序深度低至0.1x，肿瘤来源的DNA信号微弱到不足5%时，如何从海量的背景噪音中精准地“打捞”出肿瘤的拷贝数变异信号，并估算出可靠的肿瘤分数，这不仅是技术挑战，更是决定临床决策有效性的关键。对于刚踏入液体活检生物信息分析领域的同仁，或是希望将研究成果稳健落地的临床研究者，掌握一套可靠、可复现且能应对低丰度样本的分析流程，其重要性不言而喻。

本文旨在超越简单的软件功能罗列，聚焦于从原始BAM文件开始，到最终获得可信肿瘤分数报告的完整实操路径。我们将深入探讨在超低深度、低肿瘤分数这一“困难模式”下，如何理解ichorCNA的核心模型，并系统性地调整参数以优化分析性能。文中将穿插大量基于真实项目经验的技巧、常见报错的排查思路，以及结果可视化的深度解读方法，力求让你不仅能“跑通”流程，更能“读懂”数据背后的生物学故事。

1. 理解ichorCNA：模型核心与数据预处理基石

在动手敲下任何命令之前，花些时间理解ichorCNA背后的逻辑，能让你在后续参数调整和结果解读时更加游刃有余。ichorCNA本质上是一个基于隐马尔可夫模型（HMM）的概率框架，它试图解决一个混合信号解卷积的问题：我们测序得到的cfDNA数据，是来自正常细胞的二倍体DNA与可能携带各种拷贝数变异的肿瘤DNA的混合物。

其核心任务可以拆解为两个层面：

信号校正与标准化：超低深度测序数据中，GC含量偏好和基因组可及性（mappability）偏差会被急剧放大。这一步旨在剥离这些技术噪音，还原出反映真实拷贝数状态的相对覆盖深度。
状态推断与分数估计：在校正后的信号上，HMM模型遍历基因组上的每一个窗口（bin），推断其最可能的拷贝数状态（如拷贝数中性、缺失、扩增等），同时通过期望最大化（EM）算法，迭代估算出样本中肿瘤DNA的比例（肿瘤分数）和肿瘤基因组的平均倍性。

1.1 从BAM到WIG：数据准备的魔鬼细节

一切分析的起点是BAM文件。ichorCNA并不直接处理BAM，而是需要一个经过初步计数的窗口覆盖深度文件（WIG格式）。这里我们使用其依赖的HMMcopy套件中的readCounter工具。

# 步骤1：确保BAM文件已建立索引
samtools index your_sample.bam

# 步骤2：使用readCounter生成WIG文件
/path/to/HMMcopy/bin/readCounter \
  --window 1000000 \          # 设置窗口大小为1Mb
  --quality 20 \              # 仅使用比对质量≥20的reads
  --chromosome "1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,X,Y" \ # 指定分析的染色体
  your_sample.bam > your_sample.wig