图表
暂无图表
样品
暂无样品

CRISPR-Dataview V2.4.19

本工具用于 CRISPR 扩增子测序数据分析。用户上传双端 FASTQ / FASTQ.GZ 数据,或已拼接的单文件 FASTA 输入,并输入扩增子参考序列与 crRNA / guide 序列后,程序将自动在扩增子中定位 guide,并围绕导向区及其邻近编辑窗口完成 WT / Mutant / Mutant-like 分类统计,同时对 DSB 修复类型进行判定,从而更准确地识别编辑结果并尽量减少误判。

1) 输入

序列输入与位点定位
先输入完整扩增子参考序列和一条或多条 guide。程序会自动定位最佳命中位点,并根据核酸酶类型自动推断 PAM 区域,再按 guide / PAM 是否发生 indel 进行分类。
建议输入完整 amplicon,而不是只输入 guide 周围十几 bp。完整参考更利于双端拼接后的稳定定位。
只输入 spacer / protospacer,不要带 PAM。支持多条兼并序列,例如:guide1,guide2。
Cas12a 默认按 5' 侧 4 bp PAM 处理;Cas9 默认按 3' 侧 3 bp PAM 处理。
只控制 crRNA 相对参考链的解释方式;程序会据此重新计算 PAM、guide+PAM 区和编辑窗口,并按真实参考坐标标注。
guide 在 amplicon 中应尽量是唯一命中。
FLASH 拼接
用于双端 reads 质控和 overlap 拼接。Low-confidence 即 FLASH merge fail,会单独展示在最上方图里。
BLAST-style 预筛
先剔除与目标扩增子明显不相符的异常序列,再对通过预筛的序列做后续分类。对 deletion-rich 序列,如果 seed-and-extend 的局部 HSP 只是在 ref coverage 上吃亏,程序会自动追加一次全局比对 rescue,避免真实大缺失在正式分类前被误挡掉。
默认不需要下调 `blastMinRefCov`;真实大缺失现在会优先尝试全局 rescue。只有当样品特别杂、误配很多时,才考虑把 `blastMinIdentity` 适当调高到 `0.70-0.80`。
聚类
先对 BLAST-pass 的序列做 abundance-sorted 聚类,再以 centroid 进入 WT / Mutant / Mutant-like 分类。100% identity 即 exact / ASV 聚类;适当降低阈值可合并仅由零散 SNP 引起的近似序列,可减少仅由零散 SNP 导致的序列碎片化。默认 1.000,即 exact/ASV 聚类。
建议保留开启。关闭后会直接按 Unique sequences 分类。
默认 1.000;常用 0.997、0.995、0.990。值越低,合并越激进,也越容易过并。
默认 2;表示聚类后 reads 数 2 的 centroid 会被过滤,不进入后续类型判断。很多 size=1 的序列可能只是噪音。
分类与输出
当前规则:guide / PAM 的定位仍按真实参考坐标;正式分类时使用“分类窗口”判定 Mutant,该窗口 = guide+PAM 区域再按 PAM-proximal / PAM-distal flank 向两侧扩展。分类窗口内只要出现 indel 直接判 Mutant;若分类窗口内没有 indel,则统计 guide+PAM 核心区 SNP 数,当该核心区 SNP 数达到阈值时改判 Mutant-like;若未达到阈值且全序列无其它 indel,则判 WT;其它情况判为 Mutant-like。
默认 3;用于处理靶区本身存在较多 SNP、Cas12a 可能无法结合切割的情况。
默认宽口径。严格口径更保守,只认 cut-site 窗口内 indel。
高级参数(一般无需改动)
这些参数现在会直接影响正式分类窗口:大片段缺失只要与该窗口重叠,就会进入 Mutant,而不再因为超出原始 guide+PAM 核心区而被漏判到 Mutant-like。
修复类型判定(MMEJ / NHEJ / others)
在现有 WT / Mutant / Mutant-like 分类之后,再只对 Mutant 序列做一层保守型 repair typing。只有能被靶区附近单一缺失事件清楚解释的序列,才会分到 MMEJ 或 NHEJ;解释不干净、或更像复杂重排 / 插入 / 多事件的序列,统一归到 others。WT 和 Mutant-like 都不参与 repair-type 百分比统计。若同一个缺失存在多个等价起点,程序会自动选取微同源最高的代表位点参与 MMEJ/NHEJ 判定。多数样品只需要看下面 4 个核心参数;其余高级参数一般保持默认即可。
默认 14。想更灵敏可试 12;想更保守可升到 16。
默认 2。设为 3 会更保守,只保留更强微同源。
默认 1。通常保持不变,仅在你明确只关心较大缺失时再提高。
默认 80。通常保持不变;只有预期缺失特别大时再上调。
修复类型高级参数(一般无需改动)
fallback 只用于补漏检,不会在已有精确候选时强行放宽标准。
repair typing 默认只看缺失型连接,不把复杂插入、多事件或解释不唯一的序列硬判成 MMEJ/NHEJ。
并行设置
多样品分析时可启用样品级并行。线程数只应影响速度,不应改变统计结果。
浏览器报告总线程数:-;默认建议值:-。
测序文件
未选择文件
文件名若为双端测序,建议包含 _R1 / _R2,例如 sample-1_R1.fastq.gzsample-1_R2.fastq.gz;若已拼接,也可直接上传单个样品的 FASTQ / FASTA 文件。单文件 FASTA 输入时,程序会自动解析 header 中的 size=count=reads=abundance= 等计数字段。
等待开始…0%
等待开始…
默认判定思路:序列会先经过 BLAST-style 预筛,并可在正式分类前进行聚类;guide / PAM / guide+PAM 区域内只要出现 indel 就直接判为 Mutant。若该区域没有 indel,则只统计 PAM+crRNA 区 SNP 数;达到阈值时改判 Mutant-like,未达到阈值且全序列无其它 indel 时判为 WT
分析流程: 双端质控 → FLASH 规则拼接 → BLAST-style 预筛 → 可选聚类 → 全局比对 → 靶区规则分类 → 数据分析和作图。

2) 总览

样品数
0
Raw pairs
0
Reads used for classification
0
WT %
0
Mutant %
0
Mutant-like %
0
Low-conf % (merge fail)
0
这里会显示 guide 定位信息与总体说明。
WT = 靶区无 indel,且 PAM+crRNA 区 SNP 未达到改判阈值 Mutant = 靶区/guide 邻域 indel、大片段缺失,或明显连续错配 Mutant-like = 靶区无明确 indel 但更接近编辑相关复杂变体 Low-confidence = 双端按 FLASH 规则拼接失败;单独统计,不与 WT / Mutant / Mutant-like 合并为同一分母 聚类后最小 reads 数 = 过滤掉聚类后 count 过低的 centroid;默认去除 singleton,再进入正式分类 BLAST-style 预筛 = 先剔除与目标扩增子局部相似度明显不足的序列,再做后续分类
guide 定位信息会显示在这里。
导出 JSON 会保留 guide 命中信息、编辑窗口坐标、每个样品统计和全部 unique haplotypes;上方“导出 Summary”会输出整份结果表;“序列 / Excel 导出”则支持按样品自定义导出分类结果、修复类型和 FLASH 拼接序列。