在R或QGIS中处理重复标记地点：提取歧义地名并合并同位置重复项

阿华AIGC实验室

2026-5-15

解决地名重复与歧义区分的空间聚类方案

这个问题很典型，处理地名歧义与重复标记的核心是空间聚类——用地理坐标的距离来区分“同一地点的小误差重复”和“不同地点的同名歧义”。下面我用Python的GeoPandas和DBSCAN聚类来给你实现完整的解决方案，结合你的示例数据一步步来：

1. 准备工作：导入依赖库

首先需要用到处理空间数据的GeoPandas，以及用于密度聚类的DBSCAN：

import pandas as pd
import geopandas as gpd
from shapely.geometry import Point
from sklearn.cluster import DBSCAN
import numpy as np

2. 加载示例数据

先把你给出的示例数据转换成DataFrame：

data = {
    'Names': ['Zwüschebäch', 'Zwüschebäch', 'Zurich Airport', 'Zurich Airport'],
    'lat': [46.56039, 45.00231, 47.45042, 47.450994],
    'long': [7.60316, 7.30079, 8.56242, 8.559343],
    'region': ['Europe/Zurich', 'Europe/Zurich', 'Europe/Zurich', 'Europe/Zurich']
}
df = pd.DataFrame(data)

3. 转换为空间数据格式（GeoDataFrame）

普通DataFrame无法精准处理空间距离计算，我们需要把经纬度转换成Point几何对象，并设置全球通用的WGS84坐标系（EPSG:4326）：

# 创建几何列：注意Shapely的Point是(x,y)，对应(long, lat)顺序
geometry = [Point(xy) for xy in zip(df['long'], df['lat'])]
gdf = gpd.GeoDataFrame(df, geometry=geometry, crs="EPSG:4326")

# 转换为投影坐标系（UTM，单位是米）：经纬度是角度，直接计算距离会失真
# 苏黎世附近的UTM分区是EPSG:32632，你可以用gdf.estimate_utm_crs()自动匹配区域
gdf_proj = gdf.to_crs("EPSG:32632")

4. 按地名分组进行空间聚类

我们用DBSCAN算法对每个地名下的坐标点进行聚类：

eps：邻域半径（单位米），这里设为500米（可根据场景调整：比如街道级重复设100米，城市级同名设5000米）
min_samples=1：确保单个孤立点也能被识别为一个簇，避免遗漏小众同名点

def cluster_nearby_points(group, eps=500):
    # 提取坐标数组
    coords = np.array(list(zip(group.geometry.x, group.geometry.y)))
    # 执行DBSCAN密度聚类
    db = DBSCAN(eps=eps, min_samples=1).fit(coords)
    # 给每个点标记簇ID
    group['cluster_id'] = db.labels_
    return group

# 按地名分组应用聚类逻辑
gdf_clustered = gdf_proj.groupby('Names').apply(cluster_nearby_points).reset_index(drop=True)

5. 合并同一地点的重复项

同一簇内的点属于“同一地点的小误差重复”，我们可以合并这些记录，比如取平均坐标、保留第一个区域信息：

merged_gdf = gdf_clustered.groupby(['Names', 'cluster_id']).agg(
    avg_lat=('lat', 'mean'),
    avg_long=('long', 'mean'),
    region=('region', 'first'),
    duplicate_count=('Names', 'size')  # 记录该簇的重复次数
).reset_index()

# 把平均坐标转换回WGS84的Point对象
merged_gdf['geometry'] = merged_gdf.apply(lambda row: Point(row['avg_long'], row['avg_lat']), axis=1)
merged_gdf = gpd.GeoDataFrame(merged_gdf, geometry='geometry', crs="EPSG:4326")

6. 提取歧义地名

歧义地名的特征是：同一地名下存在多个不同的簇（即cluster_id数量>1）：

# 筛选出有多个簇的地名
ambiguous_names = merged_gdf.groupby('Names').filter(
    lambda x: len(x['cluster_id'].unique()) > 1
)['Names'].unique()

print("识别出的歧义地名：", ambiguous_names)
# 输出：识别出的歧义地名： ['Zwüschebäch']

关键说明

投影坐标系选择：一定要把WGS84经纬度转换为米为单位的投影坐标系，否则距离计算会严重失真。可以用gdf.estimate_utm_crs()自动匹配数据所在的UTM分区。
eps参数调整：根据数据的精度和场景灵活调整，比如如果是GPS采集的点，误差通常在几十米内，eps设为100米即可；如果是行政区划同名，eps可以设为几公里。
聚类算法优势：DBSCAN不需要提前指定簇的数量，能自动识别高密度的重复点簇和低密度的孤立点，非常适合处理未知的重复/歧义场景。

内容的提问来源于stack exchange，提问作者stefgr