网页富文本采集存储转Word及SummerNote转RTF精度问题咨询

阿华AIGC实验室

2026-5-15

解决富文本转Word/RTF格式还原问题的方案

我之前也踩过类似的坑——从Word粘贴到SummerNote再转RTF/Word时，格式丢失的情况特别头疼，尤其是涉及复杂表格、自定义样式或者嵌入内容的时候。结合我的实践，给你几个优先级不同的解决方案：

1. 直接捕获原始Word粘贴内容（最优，零格式损失）

其实不用绕HTML转一圈，用户粘贴Word时，剪贴板里是有原始docx文件的。你可以监听页面的paste事件，直接提取这个二进制文件，后端存储后，要输出Word时直接返回原文件，完全没有格式损失。

前端代码示例：

document.addEventListener('paste', async (e) => {
  const clipboardItems = e.clipboardData?.items;
  if (!clipboardItems) return;

  for (const item of clipboardItems) {
    // 检测剪贴板中的docx文件
    if (item.type === 'application/vnd.openxmlformats-officedocument.wordprocessingml.document') {
      const wordBlob = item.getAsFile();
      if (!wordBlob) continue;

      // 把文件传给后端存储
      const formData = new FormData();
      formData.append('wordFile', wordBlob);
      
      await fetch('/api/save-word', {
        method: 'POST',
        body: formData
      });

      e.preventDefault(); // 阻止默认粘贴成HTML，避免重复内容
      // 可选：在编辑器里插入一个"已上传Word文件"的提示
      document.execCommand('insertText', false, '[已插入原始Word内容]');
    }
  }
});

这种方式完全跳过了HTML转换的环节，是还原度最高的方案。

2. 更换HTML转Word/RTF的转换工具（替代SautinSoft）

如果必须保留HTML编辑的流程，那换个更靠谱的转换工具比调整SautinSoft更有效：

Pandoc：这是文档转换界的"瑞士军刀"，对HTML到docx/rtf的转换支持非常完善，能处理表格、多级列表、自定义样式、图片等几乎所有Word常见格式。后端可以直接调用命令行：
```
# HTML转docx
pandoc -s input.html -o output.docx
# HTML转RTF
pandoc -s input.html -o output.rtf
```
也可以用对应语言的绑定库（比如Node.js的pandoc-wrap、Python的pypandoc）来集成到代码里。
LibreOffice命令行：如果需要处理特别复杂的Word兼容格式，LibreOffice的转换能力比大多数工具都强。命令行调用示例：
```
# 后台模式转换HTML到RTF
libreoffice --headless --convert-to rtf input.html
# 转docx
libreoffice --headless --convert-to docx input.html
```
Apache POI（Java后端）：如果是Java技术栈，可以用POI手动解析HTML，逐个元素映射到docx文档对象里。虽然代码量稍大，但完全可控，能处理各种边缘格式问题。

3. 优化SummerNote的粘贴配置，减少HTML格式丢失

默认SummerNote会过滤掉很多Word粘贴过来的样式，先调整配置让它保留更多原始HTML细节，再配合好的转换工具，能提升还原度：

$('#summernote').summernote({
  callbacks: {
    onPaste: function(e) {
      // 获取剪贴板里的原始HTML，绕过SummerNote的默认过滤
      const rawHtml = ((e.originalEvent || e).clipboardData || window.clipboardData).getData('text/html');
      e.preventDefault();
      // 直接插入原始HTML
      document.execCommand('insertHtml', false, rawHtml);
    }
  },
  // 关闭自动清理样式
  cleanPaste: false,
  // 用原生标签（如<h1>）而非<span>来应用样式
  styleWithSpan: false,
  // 允许更多HTML标签和属性
  codeviewFilter: false,
  codeviewIframeFilter: false
});

这样SummerNote生成的HTML会更接近Word原始格式，后续转换时丢失的细节会更少。