语言
中文
English
夜间模式
关
⇡
图表
暂无图表
样品
暂无样品
⇣
CRISPR-Dataview V2.4.19
本工具用于 CRISPR 扩增子测序数据分析。用户上传双端 FASTQ / FASTQ.GZ 数据,或已拼接的单文件 FASTA 输入,并输入扩增子参考序列与 crRNA / guide 序列后,程序将自动在扩增子中定位 guide,并围绕导向区及其邻近编辑窗口完成 WT / Mutant / Mutant-like 分类统计,同时对 DSB 修复类型进行判定,从而更准确地识别编辑结果并尽量减少误判。
1) 输入
序列输入与位点定位
先输入完整扩增子参考序列和一条或多条 guide。程序会自动定位最佳命中位点,并根据核酸酶类型自动推断 PAM 区域,再按
guide / PAM 是否发生 indel
进行分类。
扩增子参考序列 / Reference amplicon
建议输入完整 amplicon,而不是只输入 guide 周围十几 bp。完整参考更利于双端拼接后的稳定定位。
crRNA / guide 序列
只输入 spacer / protospacer,不要带 PAM。支持多条兼并序列,例如:guide1,guide2。
核酸酶类型
Cas12a / Cpf1
Cas9
Custom(仅 guide,不判 PAM)
Cas12a 默认按 5' 侧 4 bp PAM 处理;Cas9 默认按 3' 侧 3 bp PAM 处理。
crRNA 相对参考链
自动判断
按正链解释
按负链解释
只控制 crRNA 相对参考链的解释方式;程序会据此重新计算 PAM、guide+PAM 区和编辑窗口,并按真实参考坐标标注。
guide 定位允许错配数
guide 在 amplicon 中应尽量是唯一命中。
FLASH 拼接
用于双端 reads 质控和 overlap 拼接。Low-confidence 即 FLASH merge fail,会单独展示在最上方图里。
末端质控阈值 Q
最小 overlap
FLASH 最大 mismatch density
BLAST-style 预筛
先剔除与目标扩增子明显不相符的异常序列,再对通过预筛的序列做后续分类。对 deletion-rich 序列,如果 seed-and-extend 的局部 HSP 只是在 ref coverage 上吃亏,程序会自动追加一次全局比对 rescue,避免真实大缺失在正式分类前被误挡掉。
参考两端锚定长度
最小比对覆盖率
BLAST word size
最低 identity
最低 query coverage
最低 ref coverage
默认不需要下调 `blastMinRefCov`;真实大缺失现在会优先尝试全局 rescue。只有当样品特别杂、误配很多时,才考虑把 `blastMinIdentity` 适当调高到 `0.70-0.80`。
聚类
先对
BLAST-pass
的序列做 abundance-sorted 聚类,再以
centroid
进入 WT / Mutant / Mutant-like 分类。
100% identity
即 exact / ASV 聚类;适当降低阈值可合并仅由零散 SNP 引起的近似序列,可减少仅由零散 SNP 导致的序列碎片化。默认 1.000,即 exact/ASV 聚类。
启用聚类
Yes
No
建议保留开启。关闭后会直接按 Unique sequences 分类。
ASV 聚类 identity 阈值
默认 1.000;常用 0.997、0.995、0.990。值越低,合并越激进,也越容易过并。
聚类后最小 reads 数
默认 2;表示聚类后 reads 数
2
的 centroid 会被过滤,不进入后续类型判断。很多
size=1
的序列可能只是噪音。
分类与输出
当前规则:
guide / PAM 的定位仍按真实参考坐标;正式分类时使用“分类窗口”判定 Mutant,该窗口 = guide+PAM 区域再按 PAM-proximal / PAM-distal flank 向两侧扩展。分类窗口内只要出现 indel 直接判 Mutant;若分类窗口内没有 indel,则统计 guide+PAM 核心区 SNP 数,当该核心区 SNP 数达到阈值时改判 Mutant-like;若未达到阈值且全序列无其它 indel,则判 WT;其它情况判为 Mutant-like。
展示最小支持 reads
Top variants 条数
PAM+crRNA 区 SNP ≥ 该值判 Mutant-like
默认 3;用于处理靶区本身存在较多 SNP、Cas12a 可能无法结合切割的情况。
Mutant 判定口径
宽口径:guide/PAM 窗口内 indel
严格口径:cut-site 窗口内 indel
默认宽口径。严格口径更保守,只认 cut-site 窗口内 indel。
高级参数(一般无需改动)
PAM-proximal flank
PAM-distal flank
这些参数现在会直接影响正式分类窗口:大片段缺失只要与该窗口重叠,就会进入 Mutant,而不再因为超出原始 guide+PAM 核心区而被漏判到 Mutant-like。
修复类型判定(MMEJ / NHEJ / others)
在现有 WT / Mutant / Mutant-like 分类之后,再只对
Mutant
序列做一层保守型 repair typing。只有能被靶区附近
单一缺失事件
清楚解释的序列,才会分到 MMEJ 或 NHEJ;解释不干净、或更像复杂重排 / 插入 / 多事件的序列,统一归到 others。
WT 和 Mutant-like 都不参与 repair-type 百分比统计。
若同一个缺失存在多个等价起点,程序会自动选取
微同源最高
的代表位点参与 MMEJ/NHEJ 判定。多数样品只需要看下面 4 个核心参数;其余高级参数一般保持默认即可。
junction context 长度(核心)
MMEJ 阈值(核心,bp)
最小缺失长度(核心)
最大缺失长度(核心)
默认 14。想更灵敏可试 12;想更保守可升到 16。
默认 2。设为 3 会更保守,只保留更强微同源。
默认 1。通常保持不变,仅在你明确只关心较大缺失时再提高。
默认 80。通常保持不变;只有预期缺失特别大时再上调。
修复类型高级参数(一般无需改动)
左侧搜索窗口
右侧搜索窗口
核心重叠左扩展
核心重叠右扩展
fallback 核心 junction(每侧 bp)
fallback 扩展错配上限
fallback 只用于补漏检,不会在已有精确候选时强行放宽标准。
repair typing 默认只看缺失型连接,不把复杂插入、多事件或解释不唯一的序列硬判成 MMEJ/NHEJ。
并行设置
多样品分析时可启用样品级并行。线程数只应影响速度,不应改变统计结果。
并行任务数
浏览器报告总线程数:-;默认建议值:-。
测序文件
上传文件(支持多对 R1 / R2 FASTQ,也支持已拼接 FASTQ / FASTA 及其 .gz)
选择文件
未选择文件
文件名若为双端测序,建议包含
_R1
/
_R2
,例如
sample-1_R1.fastq.gz
与
sample-1_R2.fastq.gz
;若已拼接,也可直接上传单个样品的 FASTQ / FASTA 文件。单文件 FASTA 输入时,程序会自动解析 header 中的
size=
、
count=
、
reads=
和
abundance=
等计数字段。
开始分析
导出 JSON
导出 Summary
序列 / Excel 导出
SeqLogo 导出
清空结果
等待开始…
0%
序列 / Excel 导出
先勾选要导出的样品,再选择导出大类、具体类型和文件格式。支持分类结果、修复类型,以及 FLASH 拼接成功 / 已拼接单文件输入的序列导出;可按
样品 × 类型 × 文件格式
分别导出,也可按所选类型合并导出。若一次会生成多个合并文件,将自动打包为 ZIP。
导出样品
导出大类
分类结果
修复类型
FLASH 拼接 / 已拼接输入
分类结果类型(仅拼接成功并完成分类的序列)
WT
Mutant
Mutant-like
WT + Mutant + Mutant-like 合并
修复类型(仅 Mutant usable)
MMEJ
NHEJ
others
MMEJ + NHEJ + others 合并
FLASH / 已拼接类型
FLASH merged / 已拼接输入序列
文件类型
FASTA
Excel
导出逻辑
单独每一个文件导出
按所选类型分别合并导出
单独导出时打包为 ZIP 压缩包
全选样品
清空样品
全选导出项
清空导出项
按当前设置导出文件
SeqLogo 导出设置
SeqLogo 只按样品导出。可分别导出每个样品的 SVG,或把所选样品合并到一个 SVG 文件里;分别导出时可选择打包为 ZIP。
导出样品
分别导出时打包为 ZIP 压缩包
全选样品
清空样品
分别导出所选 SeqLogo
合并导出所选 SeqLogo
等待开始…
默认判定思路
:序列会先经过 BLAST-style 预筛,并可在正式分类前进行聚类;guide / PAM / guide+PAM 区域内只要出现 indel 就直接判为
Mutant
。若该区域没有 indel,则只统计 PAM+crRNA 区 SNP 数;达到阈值时改判
Mutant-like
,未达到阈值且全序列无其它 indel 时判为
WT
。
分析流程:
双端质控 → FLASH 规则拼接 → BLAST-style 预筛 → 可选聚类 → 全局比对 → 靶区规则分类 → 数据分析和作图。
2) 总览
样品数
0
Raw pairs
0
Reads used for classification
0
WT %
0
Mutant %
0
Mutant-like %
0
Low-conf % (merge fail)
0
这里会显示 guide 定位信息与总体说明。
WT = 靶区无 indel,且 PAM+crRNA 区 SNP 未达到改判阈值
Mutant = 靶区/guide 邻域 indel、大片段缺失,或明显连续错配
Mutant-like = 靶区无明确 indel 但更接近编辑相关复杂变体
Low-confidence = 双端按 FLASH 规则拼接失败;单独统计,不与 WT / Mutant / Mutant-like 合并为同一分母
聚类后最小 reads 数 = 过滤掉聚类后 count 过低的 centroid;默认去除 singleton,再进入正式分类
BLAST-style 预筛 = 先剔除与目标扩增子局部相似度明显不足的序列,再做后续分类
guide 定位信息会显示在这里。
导出 JSON 会保留 guide 命中信息、编辑窗口坐标、每个样品统计和全部 unique haplotypes;上方“导出 Summary”会输出整份结果表;“序列 / Excel 导出”则支持按样品自定义导出分类结果、修复类型和 FLASH 拼接序列。
3) 柱状图
最上方先展示
FLASH 拼接成功 / Low-confidence(merge fail)
,仅显示各个样品;随后展示
WT / Mutant / Mutant-like
在 BLAST-pass usable 中的百分比;再展示先按每个平行样各自归一化、再按样品自动求均值后的
WT / Mutant / Mutant-like
百分比分布;最后展示
MMEJ 微同源长度
与
NHEJ 缺失长度
的分布图。
导出拼接情况 SVG
导出分类百分比 SVG
导出样品均值 SVG
导出修复类型 SVG
导出修复类型均值 SVG
拼接情况百分比柱状图
每个样品的 FLASH 拼接成功 / Low-confidence(merge fail)百分比,分母为 raw pairs,不显示 All samples。
WT / Mutant / Mutant-like 百分比柱状图
每个样品及 All samples 的 WT / Mutant / Mutant-like 百分比,分母为 BLAST-pass usable,三者相加为 100%。
WT / Mutant / Mutant-like 归一化百分比柱状图
每个平行样单独归一化后的 WT / Mutant / Mutant-like 百分比,不再显示 Low-confidence。
MMEJ / NHEJ / others 修复类型百分比柱状图
分母 = Mutant usable reads;WT 和 Mutant-like 不参与该图。该图只使用保守型单缺失 repair typing 的结果。
MMEJ / NHEJ / others 归一化百分比柱状图
每个平行样先在 Mutant usable 内各自归一化到 100%,再按样品名自动汇总为均值。