PDF字符字体详情数组中PPXSZN的含义咨询(基于PDFMiner)
关于PDFMiner中字体数组里
PPXSZN含义的解答 嘿,我来帮你搞清楚这个点!你提到用PDFMiner提取到的字体详情数组['PPXSZN', 'Arial,Bold']里的PPXSZN,其实这是PDFMiner内部生成的临时字体标识符,并不是PDF文件里原生的字体名称。
具体来说:
- 当PDF中的字体是嵌入的子集字体,或者没有携带可读的标准字体名时,PDFMiner就会自动生成这类随机字符串作为临时标识,用来避免处理过程中的命名冲突。
- 数组里后面的
Arial,Bold才是解析后还原出的真实字体信息——字体家族是Arial,样式为粗体,这部分才是对我们实际使用有价值的内容。 - 简单说,
PPXSZN就是PDFMiner给这个字体分配的“内部代号”,方便它在后台追踪管理字体,对使用者来说不需要特别关注这个代号,重点看后面的字体名称即可。
内容的提问来源于stack exchange,提问作者DooDU




