CRISPR-Dataview V2.4.19

1) 输入

序列输入与位点定位

先输入完整扩增子参考序列和一条或多条 guide。程序会自动定位最佳命中位点，并根据核酸酶类型自动推断 PAM 区域，再按 guide / PAM 是否发生 indel 进行分类。

扩增子参考序列 / Reference amplicon

建议输入完整 amplicon，而不是只输入 guide 周围十几 bp。完整参考更利于双端拼接后的稳定定位。

crRNA / guide 序列

只输入 spacer / protospacer，不要带 PAM。支持多条兼并序列，例如：guide1,guide2。

核酸酶类型

Cas12a 默认按 5' 侧 4 bp PAM 处理；Cas9 默认按 3' 侧 3 bp PAM 处理。

crRNA 相对参考链

只控制 crRNA 相对参考链的解释方式；程序会据此重新计算 PAM、guide+PAM 区和编辑窗口，并按真实参考坐标标注。

guide 定位允许错配数

guide 在 amplicon 中应尽量是唯一命中。

FLASH 拼接

用于双端 reads 质控和 overlap 拼接。Low-confidence 即 FLASH merge fail，会单独展示在最上方图里。

末端质控阈值 Q

最小 overlap

FLASH 最大 mismatch density

BLAST-style 预筛

先剔除与目标扩增子明显不相符的异常序列，再对通过预筛的序列做后续分类。对 deletion-rich 序列，如果 seed-and-extend 的局部 HSP 只是在 ref coverage 上吃亏，程序会自动追加一次全局比对 rescue，避免真实大缺失在正式分类前被误挡掉。

参考两端锚定长度

最小比对覆盖率

BLAST word size

最低 identity

最低 query coverage

最低 ref coverage

默认不需要下调 `blastMinRefCov`；真实大缺失现在会优先尝试全局 rescue。只有当样品特别杂、误配很多时，才考虑把 `blastMinIdentity` 适当调高到 `0.70-0.80`。

聚类

先对 BLAST-pass 的序列做 abundance-sorted 聚类，再以 centroid 进入 WT / Mutant / Mutant-like 分类。100% identity 即 exact / ASV 聚类；适当降低阈值可合并仅由零散 SNP 引起的近似序列，可减少仅由零散 SNP 导致的序列碎片化。默认 1.000，即 exact/ASV 聚类。

启用聚类

建议保留开启。关闭后会直接按 Unique sequences 分类。

ASV 聚类 identity 阈值

默认 1.000；常用 0.997、0.995、0.990。值越低，合并越激进，也越容易过并。

聚类后最小 reads 数

默认 2；表示聚类后 reads 数 2 的 centroid 会被过滤，不进入后续类型判断。很多 size=1 的序列可能只是噪音。

分类与输出

当前规则：guide / PAM 的定位仍按真实参考坐标；正式分类时使用“分类窗口”判定 Mutant，该窗口 = guide+PAM 区域再按 PAM-proximal / PAM-distal flank 向两侧扩展。分类窗口内只要出现 indel 直接判 Mutant；若分类窗口内没有 indel，则统计 guide+PAM 核心区 SNP 数，当该核心区 SNP 数达到阈值时改判 Mutant-like；若未达到阈值且全序列无其它 indel，则判 WT；其它情况判为 Mutant-like。

展示最小支持 reads

Top variants 条数

PAM+crRNA 区 SNP ≥ 该值判 Mutant-like

默认 3；用于处理靶区本身存在较多 SNP、Cas12a 可能无法结合切割的情况。

Mutant 判定口径

默认宽口径。严格口径更保守，只认 cut-site 窗口内 indel。

高级参数（一般无需改动）

PAM-proximal flank

PAM-distal flank

这些参数现在会直接影响正式分类窗口：大片段缺失只要与该窗口重叠，就会进入 Mutant，而不再因为超出原始 guide+PAM 核心区而被漏判到 Mutant-like。

修复类型判定（MMEJ / NHEJ / others）

在现有 WT / Mutant / Mutant-like 分类之后，再只对 Mutant 序列做一层保守型 repair typing。只有能被靶区附近单一缺失事件清楚解释的序列，才会分到 MMEJ 或 NHEJ；解释不干净、或更像复杂重排 / 插入 / 多事件的序列，统一归到 others。WT 和 Mutant-like 都不参与 repair-type 百分比统计。若同一个缺失存在多个等价起点，程序会自动选取微同源最高的代表位点参与 MMEJ/NHEJ 判定。多数样品只需要看下面 4 个核心参数；其余高级参数一般保持默认即可。

junction context 长度（核心）

MMEJ 阈值（核心，bp）

最小缺失长度（核心）

最大缺失长度（核心）

默认 14。想更灵敏可试 12；想更保守可升到 16。

默认 2。设为 3 会更保守，只保留更强微同源。

默认 1。通常保持不变，仅在你明确只关心较大缺失时再提高。

默认 80。通常保持不变；只有预期缺失特别大时再上调。

修复类型高级参数（一般无需改动）

左侧搜索窗口

右侧搜索窗口

核心重叠左扩展

核心重叠右扩展

fallback 核心 junction（每侧 bp）

fallback 扩展错配上限

fallback 只用于补漏检，不会在已有精确候选时强行放宽标准。

repair typing 默认只看缺失型连接，不把复杂插入、多事件或解释不唯一的序列硬判成 MMEJ/NHEJ。

并行设置

多样品分析时可启用样品级并行。线程数只应影响速度，不应改变统计结果。

并行任务数

浏览器报告总线程数：-；默认建议值：-。

测序文件

上传文件（支持多对 R1 / R2 FASTQ，也支持已拼接 FASTQ / FASTA 及其 .gz）

未选择文件

文件名若为双端测序，建议包含 _R1 / _R2，例如 sample-1_R1.fastq.gz 与 sample-1_R2.fastq.gz；若已拼接，也可直接上传单个样品的 FASTQ / FASTA 文件。单文件 FASTA 输入时，程序会自动解析 header 中的 size=、count=、reads= 和 abundance= 等计数字段。

等待开始…0%

等待开始…

默认判定思路：序列会先经过 BLAST-style 预筛，并可在正式分类前进行聚类；guide / PAM / guide+PAM 区域内只要出现 indel 就直接判为 Mutant。若该区域没有 indel，则只统计 PAM+crRNA 区 SNP 数；达到阈值时改判 Mutant-like，未达到阈值且全序列无其它 indel 时判为 WT。

分析流程： 双端质控 → FLASH 规则拼接 → BLAST-style 预筛 → 可选聚类 → 全局比对 → 靶区规则分类 → 数据分析和作图。

2) 总览

样品数

Raw pairs

Reads used for classification

WT %

Mutant %

Mutant-like %

Low-conf % (merge fail)

这里会显示 guide 定位信息与总体说明。

WT = 靶区无 indel，且 PAM+crRNA 区 SNP 未达到改判阈值 Mutant = 靶区/guide 邻域 indel、大片段缺失，或明显连续错配 Mutant-like = 靶区无明确 indel 但更接近编辑相关复杂变体 Low-confidence = 双端按 FLASH 规则拼接失败；单独统计，不与 WT / Mutant / Mutant-like 合并为同一分母聚类后最小 reads 数 = 过滤掉聚类后 count 过低的 centroid；默认去除 singleton，再进入正式分类 BLAST-style 预筛 = 先剔除与目标扩增子局部相似度明显不足的序列，再做后续分类

guide 定位信息会显示在这里。

导出 JSON 会保留 guide 命中信息、编辑窗口坐标、每个样品统计和全部 unique haplotypes；上方“导出 Summary”会输出整份结果表；“序列 / Excel 导出”则支持按样品自定义导出分类结果、修复类型和 FLASH 拼接序列。

CRISPR-Dataview V2.4.19

1) 输入

2) 总览

3) 柱状图