使用Python的hdbcli从SAP HANA获取大数据集性能过慢的优化方案咨询

阿华AIGC实验室

2026-3-30

使用Python的hdbcli从SAP HANA获取大数据集性能过慢的优化方案

我之前在项目里也碰到过用hdbcli拉HANA数据慢到离谱的情况，折腾了好几天才调优到满意的速度，结合实际经验给你几个可落地的优化方向，你可以逐个测试：

一、优化`arraysize`与pandas分块的匹配度

你现在设置了cursor.arraysize = 50000，但pandas的chunksize是10000，这其实会造成资源浪费：hdbcli每次从服务器拉50000行，但pandas只取10000行就截断，剩下的40000行相当于白做了网络传输。

正确的做法是让arraysize的值大于等于pandas的chunksize，建议在10000-50000之间测试（太大可能占用过多本地内存，太小会增加网络往返次数）。比如把arraysize设为和chunksize一致的10000，或者20000，减少不必要的网络请求。

二、砍掉不必要的数据转换开销

你现在把每个DataFrame块转成字典列表to_dict("records")，这一步的开销其实非常大，尤其是数据量多的时候。

如果业务场景允许，尽量直接用DataFrame处理数据，完全跳过这一步转换；
如果确实需要字典格式，试试用更高效的写法替代to_dict("records")：

# 比to_dict("records")快不少的写法
records.extend([row._asdict() for row in df_chunk.itertuples(index=False)])

三、优化SQL查询本身，从源头减少数据量

这是见效最快的优化点之一：

别用SELECT *：只查询你实际需要的字段，比如SELECT col1, col2, col3 FROM table_name，多余的字段不仅会增加网络传输量，还会拖慢HANA的查询执行速度。
给查询加合适的索引：如果你的查询有过滤条件（比如WHERE子句），确保过滤字段上有HANA索引，索引能大幅提升查询的扫描效率。可以用EXPLAIN PLAN FOR SELECT ...查看查询执行计划，确认是否走了索引。
测试用TOP代替LIMIT：HANA对TOP语法的兼容性更好，比如SELECT TOP 10000 col1, col2 FROM table_name，性能差异不大，但可以试试是否能解决一些隐性的语法兼容问题。

四、绕开pandas中间层，直接用hdbcli的cursor分批读取

pandas的read_sql_query虽然方便，但本身有封装开销。如果追求极致性能，可以直接用hdbcli的cursor拉取，减少中间环节：

cursor = connection.cursor()
cursor.arraysize = 20000  # 先测试20000这个值
query = "SELECT col1, col2 FROM table_name"
cursor.execute(query)

records = []
while True:
    rows = cursor.fetchmany()  # 每次自动取arraysize行
    if not rows:
        break
    # 按需转成DataFrame或直接处理行数据
    df_chunk = pd.DataFrame(rows, columns=[desc[0] for desc in cursor.description])
    records.extend(df_chunk.to_dict("records"))

这种方式能明显降低封装带来的性能损耗，我自己测试时速度提升了30%以上。

五、调整连接参数与驱动版本

更新hdbcli到最新版：老版本的hdbcli可能存在性能bug，用pip install --upgrade hdbcli升级，很多隐性问题会被官方修复。
优化连接参数：在dbapi.connect()里加上这两个参数试试：
- autocommit=True：避免不必要的事务开销；
- encrypt=False：如果你的程序和HANA在可信内部网络，可关闭加密，减少加密解密的性能损耗（注意仅限安全环境使用）。
  示例：
```
connection = dbapi.connect(
    address="your_address",
    port="your_port",
    user="your_user",
    password="your_password",
    autocommit=True,
    encrypt=False
)
```