使用ShortRead::readFastq读取压缩与未压缩Fastq文件结果差异咨询

阿华AIGC实验室

2026-5-13

分析ShortRead::readFastq读取压缩与未压缩fastq文件结果不一致的问题

这大概率是和文件格式解析、旧版本包的bug或者文件处理异常相关的问题，我给你梳理几个可能的原因和排查验证方向：

一、可能的原因

1. 文件换行符格式差异导致解析错误

Windows系统的换行符是CRLF（\r\n），而Unix/Linux是LF（\n）。如果你的未压缩fastq文件是Windows换行格式，而ShortRead 1.40.0版本的解析逻辑在处理这种换行时出现了误判，可能会把单条序列的行拆分成多条，或者错误识别重复的序列条目。

2. 压缩/解压过程中的文件内容异常

虽然你说两份文件实际都是5条序列，但有可能在压缩或解压时，工具（比如某些Windows下的压缩软件）对文本内容做了自动换行转换，导致未压缩文件的内容被重复或者行结构被破坏。比如有些工具会在解压时额外添加换行，让原本的4行序列变成8行，最终被解析成两条序列。

3. ShortRead旧版本的已知bug

你使用的ShortRead 1.40.0是对应R 3.5.0的版本（发布于2018年左右），这个版本比较老旧，可能存在处理压缩与未压缩文件时的解析不一致bug。后续的版本大概率已经修复了这类问题。

二、排查与验证步骤

1. 手动对比文件内容和行数

首先用命令行工具确认两份文件的实际内容是否一致：

查看未压缩文件的前20行（5条序列应该是20行）：
```
head -20 tmp.fastq
```
查看压缩文件的前20行：
```
zcat tmp.fastq.gz | head -20
```

同时统计总行数：

未压缩文件：wc -l tmp.fastq
压缩文件：zcat tmp.fastq.gz | wc -l
如果未压缩文件的行数是压缩文件的两倍，说明文件本身确实有重复内容；如果行数一致，那就是readFastq的解析问题。

2. 用其他工具交叉验证

尝试用其他R包或命令行工具读取文件，对比结果：

用Biostrings包读取：

library(Biostrings)
dat_bio <- readDNAStringSet("tmp.fastq", format = "fastq")
dat.gz_bio <- readDNAStringSet("tmp.fastq.gz", format = "fastq")
length(dat_bio)
length(dat.gz_bio)

用命令行工具seqtk统计序列数：

seqtk seq -A tmp.fastq | grep "^@" | wc -l
zcat tmp.fastq.gz | seqtk seq -A - | grep "^@" | wc -l

如果这些工具读取的结果一致，说明是ShortRead旧版本的问题；如果结果和ShortRead一样，那可能是文件本身的问题。

3. 用自制测试文件复现问题

你可以自己创建一个简单的测试fastq文件（避免保密问题），验证是否能复现这个现象：

创建test.fastq文件，内容如下：

@seq1
AGCT
+
ABCD
@seq2
TCGA
+
DCBA
@seq3
AAAA
+
EEEE
@seq4
TTTT
+
FFFF
@seq5
GGGG
+
GGGG

用系统自带的gzip压缩：gzip test.fastq

用你的R代码读取两个文件：

dat <- ShortRead::readFastq(dirPath = "./", pattern = "test.fastq")
dat.gz <- ShortRead::readFastq(dirPath = "./", pattern = "test.fastq.gz")
length(dat)
length(dat.gz)

如果能复现相同的问题，基本可以确定是ShortRead旧版本的bug；如果不能，那可能是你原始文件的特殊格式导致的。