如何使用GridDB Java API高效分页处理大规模查询结果？

阿华AIGC实验室

2026-3-27

刚好我在GridDB的IoT传感器数据项目里遇到过一模一样的问题，百万级数据一次性拉取直接把内存干爆过，后来踩坑踩出来两种最实用的方案，给你唠唠：

方案一：用Cursor+setFetchSize实现内存友好的流式处理

这是最省心的方案，完全不需要改你的核心SQL，GridDB会自动帮你分批拉取数据，内存里永远只存你指定的那一批数据，不会一次性加载全量结果。

原理是GridDB的ResultSet底层用Cursor实现，通过setFetchSize()指定每次从服务端拉取的行数，迭代的时候自动按需拉取下一批，根本不用你管分页逻辑。

给你贴个贴合你SensorData模型的代码示例：

// 1. 构建查询SQL，和你原来的一样
String sql = "SELECT * FROM sensor_data WHERE deviceId = 'device_1'";
Query<SensorData> query = store.query(sql, SensorData.class);
// 关键：设置每次从服务端拉取1000条数据
query.setFetchSize(1000);

// 2. 执行查询，用try-with-resources自动关闭资源
try (ResultSet<SensorData> rs = query.fetch()) {
    List<SensorData> batch = new ArrayList<>(1000);
    int batchCount = 0;

    // 3. 迭代处理，GridDB会自动分批拉取
    while (rs.hasNext()) {
        SensorData data = rs.next();
        batch.add(data);

        // 每攒够1000条就处理一批
        if (batch.size() == 1000) {
            processBatch(batch); // 替换成你的业务处理逻辑
            batch.clear();
            batchCount++;
            System.out.println("已处理第" + batchCount + "批数据");
        }
    }

    // 处理最后一批不足1000条的数据
    if (!batch.isEmpty()) {
        processBatch(batch);
        batchCount++;
        System.out.println("处理完成，共" + batchCount + "批");
    }
} catch (GSException e) {
    e.printStackTrace();
}

我当时用这个方案处理百万级传感器数据，内存稳定在200M以内，比之前一次性拉取的几百G内存占用舒服太多了。

方案二：基于行键（Timestamp）的范围分页（适合稳定分页场景）

如果你的业务需要做“上一页/下一页”这种用户可见的分页，或者数据量达到千万级以上，用OFFSET会有性能衰减（因为数据库要先跳过前面N条数据），这时候就适合用你作为行键的Timestamp来做范围分页。

原理是利用Timestamp的有序性，每次查询以上一批的最后一条Timestamp作为起始条件，结合LIMIT拉取下一批，完全避免OFFSET的性能问题。

代码示例如下：

String targetDeviceId = "device_1";
int batchSize = 1000;
Timestamp lastTimestamp = null;
int batchCount = 0;

while (true) {
    StringBuilder sqlBuilder = new StringBuilder("SELECT * FROM sensor_data WHERE deviceId = ? ");
    List<Object> params = new ArrayList<>();
    params.add(targetDeviceId);

    // 非第一批数据，加上行键范围条件
    if (lastTimestamp != null) {
        sqlBuilder.append("AND timestamp > ? ");
        params.add(lastTimestamp);
    }
    // 必须加ORDER BY保证顺序一致，不然分页会乱
    sqlBuilder.append("ORDER BY timestamp LIMIT ?");
    params.add(batchSize);

    Query<SensorData> query = store.query(sqlBuilder.toString(), SensorData.class);
    query.setParameters(params);

    try (ResultSet<SensorData> rs = query.fetch()) {
        List<SensorData> batch = new ArrayList<>(batchSize);
        int currentBatchCount = 0;

        while (rs.hasNext()) {
            SensorData data = rs.next();
            batch.add(data);
            lastTimestamp = data.timestamp; // 更新最后一条的Timestamp
            currentBatchCount++;
        }

        if (currentBatchCount == 0) {
            break; // 没有更多数据了，退出循环
        }

        // 处理当前批次
        processBatch(batch);
        batchCount++;
        System.out.println("已处理第" + batchCount + "批，共" + currentBatchCount + "条");

        // 如果当前批次不足指定大小，说明是最后一批
        if (currentBatchCount < batchSize) {
            break;
        }
    } catch (GSException e) {
        e.printStackTrace();
        break;
    }
}

这种方案的优势是性能稳定，哪怕数据量到千万级，查询速度依然很快，因为GridDB可以直接通过行键定位到起始位置，不用扫描前面的数据。