如何在Mali GPU上通过TensorFlow Lite实现BERT与Transformer模型的全GPU委托执行？

阿华AIGC实验室

2026-4-29

解决TensorFlow Lite在Mali GPU部署BERT/Transformer的操作兼容问题

嘿，针对你在Mali GPU上用TensorFlow Lite部署BERT和Transformer模型时遇到的操作不支持问题，我结合你的错误日志和嵌入式GPU优化经验，整理了具体的解决思路和替代方案：

一、逐个修复不支持的操作，让更多计算跑在GPU上

从你给出的错误信息来看，每个操作的不支持都有明确原因，可以针对性调整：

1. CAST：类型转换场景受限

TFLite GPU对部分跨精度转换（比如浮点转整数、低精度浮点间转换）支持有限，你可以试试：

统一模型张量精度：导出模型时尽量用float32（如果之前用了混合精度），减少不必要的类型转换；
开启TFLite优化：导出模型时添加optimizations=[tf.lite.Optimize.DEFAULT]，让框架自动调整转换逻辑适配GPU；
预处理阶段完成转换：把需要类型转换的张量在模型外部预处理好，避免在模型内执行CAST操作。

2. GATHER & UNPACK：操作未被原生GPU委托支持

这两个操作在TFLite OpenCL委托里支持度不高，有几个方向可以尝试：

启用Select TF Ops委托：加载模型时同时启用GPU委托和Select TF Ops，把不支持的操作委托给TensorFlow的CPU实现，但如果想让它们跑GPU，就得：
自定义OpenCL内核：针对这两个操作编写适配Mali GPU的OpenCL内核，通过TFLite自定义委托集成进去（需要一定OpenCL开发基础）；
重构模型结构：用GPU支持的操作替代，比如用SLICE结合RESHAPE来模拟GATHER的功能，或者用SPLIT替代UNPACK。

3. MUL：张量广播维度不满足要求

错误提示里说“MUL要求其中一个张量在所有维度上不小于另一个张量”，这是TFLite GPU对广播的限制。你可以：

调整张量形状：用EXPAND_DIMS或RESHAPE把小维度的张量扩展成和另一个张量匹配的形状，满足广播规则；
导出前固定形状：在模型导出阶段手动指定张量的静态形状，避免动态形状导致的广播不兼容。

4. RESHAPE：张量类型不匹配

这个问题是RESHAPE的输入/输出张量类型不在GPU支持的范围内（比如输入是整数张量，但GPU只支持浮点）。解决方法：

提前转换张量类型：在RESHAPE操作前加一个CAST（先解决CAST的兼容问题），把张量转成GPU支持的float32；
导出时强制设置类型：用TFLite的转换API指定张量的目标类型，确保和GPU兼容。

二、针对Mali GPU的替代TFLite相关工具

如果调整模型还是无法让所有操作跑GPU，这些专门适配Mali的工具值得一试：

1. ARM Compute Library (ACL) 委托

ARM官方给TFLite做的ACL委托，对Mali GPU的优化比原生OpenCL委托更好，支持的操作集也更全（包括GATHER、UNPACK这些你遇到的操作）。你可以编译TFLite时启用ACL支持，或者直接用ARM提供的预编译库，加载模型时用TfLiteAclDelegateCreate创建委托即可。