You need to enable JavaScript to run this app.
最新活动
大模型
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们

十万行学术出版物Excel数据集:社科类出版社Top20统计方法咨询

嘿,处理10万+行的学术书籍数据集确实得找高效的方法,我帮你整理了两种适合Excel环境的解决方案,不管是用原生功能还是Power Query都能搞定你的需求——筛选社科类出版物、清理非数值数据、统计出版社Top20,一步步来:

方案一:用Excel原生功能操作(适合不熟悉Power Query的场景)

1. 精准筛选社会科学类出版物

因为社科类可能出现在4个分类列的任意一列,直接用普通筛选会漏行,推荐用高级筛选实现“多列或条件”筛选:

  • 先在空白区域搭建条件区域:复制表头的Classification 1Classification 4,然后在每个分类列的下方行输入=*社会科学*(通配符*用来匹配包含关键词的内容,比如“社会科学总论”也会被命中),注意每个条件要放在不同行(代表“或”逻辑)
  • 选中原始数据区域(含表头),点击「数据」选项卡→「高级」,选择列表区域为原始数据,条件区域为你刚搭建的条件块,勾选「将筛选结果复制到其他位置」,指定一个空白区域作为输出,确定后就能得到所有社科类的数据集

2. 清理出版社列的非数值/异常数据

出版社列常出现空值、重复名称(比如“XX出版社”和“XX出版集团”、大小写不一致),先做清理:

  • 处理空值:选中出版社列,按Ctrl+G→「定位条件」→「空值」,可以选择删除整行,或者输入「未知出版社」后按Ctrl+Enter批量填充
  • 统一名称格式:插入辅助列,输入公式=TRIM(PROPER(A2))(假设出版社在A列),TRIM清理首尾空格,PROPER统一首字母大写,然后复制辅助列的值替换原出版社列
  • 合并重复名称:如果有同出版社的不同表述(比如“北京大学出版社”和“北大出版社”),可以用「查找和替换」批量统一,或者手动维护一个映射表匹配后替换

3. 统计出版社数量并生成Top20

用数据透视表是最快捷的方式:

  • 选中筛选后的社科数据集,点击「插入」→「数据透视表」,放在新工作表
  • 把「出版社」拖到「行」区域,把任意一个字段(比如书名)拖到「值」区域,然后点击值区域的字段→「值字段设置」→选择「计数」
  • 点击行区域的「出版社」字段,选择「排序」→「降序」,按计数结果排序
  • 选中前20行的出版社和计数结果,复制粘贴到新区域就是你的Top20列表
方案二:用Power Query(高效处理10万+行大数据)

Power Query适合大数据集,操作可复用,步骤更自动化:

1. 导入数据到Power Query

选中原始数据区域,点击「数据」→「从表格/区域」,勾选「我的表格有标题」,进入Power Query编辑器

2. 筛选社科类出版物

  • 点击「添加列」→「自定义列」,输入公式(替换成你实际的分类列名称和关键词):
    = List.AnyTrue(List.Transform({[Classification 1], [Classification 2], [Classification 3], [Classification 4]}, each Text.Contains(Text.Lower(_), "社会科学")))
    
    这个公式会检查4个分类列中是否有任意一列包含“社会科学”关键词(Text.Lower用来忽略大小写),返回TrueFalse
  • 筛选自定义列等于True的行,然后删除这个自定义列

3. 清理出版社列的异常数据

  • 处理空值:选中出版社列,点击「转换」→「替换值」,将null替换为「未知出版社」
  • 清理格式:点击「转换」→「格式」→「修剪」+「首字母大写」,统一名称格式
  • 去除重复项:选中出版社列,点击「转换」→「删除重复项」

4. 计数并生成Top20

  • 点击「开始」→「分组依据」,分组列选「出版社」,新列名设为「出版物数量」,操作选「计数行」
  • 点击「出版物数量」列的排序按钮,选择降序
  • 点击「开始」→「保持行」→「保持前几行」,输入20,确定后点击「关闭并上载」,结果就会回到Excel工作表中

内容的提问来源于stack exchange,提问作者Rebecca Randall

火山引擎 最新活动