基于汽车坐标流表的实时行驶距离计算及结果表维护问询

阿华AIGC实验室

2026-5-6

嘿，我懂你现在的难题了——要基于实时进来的汽车坐标ping，持续累计每辆车的行驶总里程，而且每个车只留一条最新的累计记录对吧？你已经搭了临时表和视图，但卡在怎么持续更新输出表这一步，我来给你拆解下具体的实现思路，不同的流处理工具写法略有不同，但核心逻辑是通的，我拿几个常用的场景给你举例说明。

核心思路拆解

首先，你需要为每个car_id维护它的上一次坐标状态——这是流处理里的关键，因为你得跨事件保留历史信息，才能计算当前ping和上一次的距离，再把这个距离累加到总里程里。最终要实现的是：每来一条新的ping，就更新对应car_id的总里程和最后坐标，而不是插入新记录。

具体实现方案

我分几种主流的流处理场景给你写示例：

1. 使用Flink SQL（最适合纯SQL流处理）

如果你的流表是在Flink中，那可以用LAG()函数获取上一次的坐标，再用窗口聚合累计总里程，最后通过Upsert模式的输出表实现实时更新：

-- 第一步：创建支持Upsert的输出表（可以是JDBC、Kafka、HBase等）
CREATE TABLE car_total_distance (
    car_id STRING PRIMARY KEY NOT ENFORCED, -- 主键确保每个car_id唯一
    total_distance DOUBLE,
    last_latitude DOUBLE,
    last_longitude DOUBLE,
    last_update TIMESTAMP
) WITH (
    'connector' = 'jdbc',
    'url' = 'jdbc:mysql://localhost:3306/your_db',
    'table-name' = 'car_total_distance',
    'username' = 'your_user',
    'password' = 'your_pwd',
    'sink.upsert-mode' = 'upsert', -- 核心：支持更新现有记录
    'sink.buffer-flush.max-rows' = '1' -- 实时刷新，不用攒批
);

-- 第二步：写流处理逻辑，计算并累加距离
INSERT INTO car_total_distance
SELECT
    car_id,
    -- 累计当前car_id的所有行驶距离
    SUM(distance) OVER (PARTITION BY car_id ORDER BY ping_time ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS total_distance,
    latitude AS last_latitude,
    longitude AS last_longitude,
    ping_time AS last_update
FROM (
    SELECT
        car_id,
        ping_time,
        latitude,
        longitude,
        -- 用Haversine公式计算当前ping和上一次的球面距离（单位：公里）
        6371 * ACOS(
            COS(RADIANS(latitude)) * COS(RADIANS(LAG(latitude) OVER (PARTITION BY car_id ORDER BY ping_time))) *
            COS(RADIANS(LAG(longitude) OVER (PARTITION BY car_id ORDER BY ping_time)) - RADIANS(longitude)) +
            SIN(RADIANS(latitude)) * SIN(RADIANS(LAG(latitude) OVER (PARTITION BY car_id ORDER BY ping_time)))
        ) AS distance
    FROM car_stream_table
) t
WHERE distance IS NOT NULL; -- 过滤掉每个car_id的第一条ping（没有上一次坐标，距离为null）

这里的LAG()函数负责拉取同car_id的上一次坐标，窗口聚合SUM(...)完成累计，Upsert模式的输出表会自动判断是插入新记录还是更新现有记录。

2. 使用Spark Structured Streaming

如果用Spark做流处理，就需要用状态管理API来维护每个car_id的累计里程和上一次坐标：

import org.apache.spark.sql.functions._
import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.Row

// 自定义样例类，用来保存每个car_id的状态
case class CarState(totalDistance: Double, lastLat: Double, lastLon: Double)

// 定义计算球面距离的UDF
val haversineUDF = udf((lat1: Double, lon1: Double, lat2: Double, lon2: Double) => {
    val earthRadius = 6371.0 // 地球半径（公里）
    val dLat = math.toRadians(lat2 - lat1)
    val dLon = math.toRadians(lon2 - lon1)
    val a = math.sin(dLat/2) * math.sin(dLat/2) +
            math.cos(math.toRadians(lat1)) * math.cos(math.toRadians(lat2)) *
            math.sin(dLon/2) * math.sin(dLon/2)
    val c = 2 * math.atan2(math.sqrt(a), math.sqrt(1-a))
    earthRadius * c
})

// 读取流表数据
val carStream = spark.readStream
    .format("kafka") // 替换成你的流数据源，比如socket、parquet等
    .option("kafka.bootstrap.servers", "localhost:9092")
    .option("subscribe", "car_ping_topic")
    .load()
    .select(from_json(col("value").cast("string"), "car_id STRING, ping_time TIMESTAMP, latitude DOUBLE, longitude DOUBLE").as("data"))
    .select("data.*")
    .withWatermark("ping_time", "10 minutes") // 处理迟到数据，可选

// 按car_id分组，维护状态并计算累计里程
val totalDistanceStream = carStream
    .groupByKey(row => row.getAs[String]("car_id"))
    .mapGroupsWithState(OutputMode.Update())(
        (carId: String, pingIter: Iterator[Row], state: GroupState[CarState]) => {
            // 初始化状态：如果是第一次处理这个car_id，就设置初始值
            var currentState = state.getOption.getOrElse(CarState(0.0, 0.0, 0.0))
            
            // 遍历当前批次的ping数据
            for (ping <- pingIter) {
                val currentLat = ping.getAs[Double]("latitude")
                val currentLon = ping.getAs[Double]("longitude")
                
                if (state.exists) {
                    // 计算当前ping和上一次的距离，累加总里程
                    val distance = haversineUDF(currentState.lastLat, currentState.lastLon, currentLat, currentLon)
                    currentState = currentState.copy(totalDistance = currentState.totalDistance + distance)
                }
                
                // 更新状态里的最后坐标
                currentState = currentState.copy(lastLat = currentLat, lastLon = currentLon)
            }
            
            // 保存更新后的状态
            state.update(currentState)
            // 返回结果：car_id、总里程、最后坐标
            (carId, currentState.totalDistance, currentState.lastLat, currentState.lastLon)
        }
    )

// 写入输出表，用Update模式更新现有记录
totalDistanceStream
    .writeStream
    .format("jdbc")
    .option("url", "jdbc:mysql://localhost:3306/your_db")
    .option("dbtable", "car_total_distance")
    .option("user", "your_user")
    .option("password", "your_pwd")
    .option("checkpointLocation", "/path/to/spark_checkpoint") // 必须：保存状态，重启后不丢失
    .outputMode(OutputMode.Update())
    .start()
    .awaitTermination()

这里的mapGroupsWithState是Spark维护自定义状态的核心API，它会为每个car_id保留状态，每次新ping进来就更新状态并累加里程。

3. 用云数据库流处理（比如BigQuery）

如果你的流表在BigQuery这类支持流处理的云数据库里，可以用MERGE语句结合触发器实现实时更新：

-- 第一步：创建输出表，主键确保car_id唯一
CREATE TABLE `your_project.your_dataset.car_total_distance` (
    car_id STRING,
    total_distance FLOAT64,
    last_latitude FLOAT64,
    last_longitude FLOAT64,
    last_update TIMESTAMP,
    PRIMARY KEY(car_id) NOT ENFORCED
);

-- 第二步：创建存储过程，处理新ping并更新总里程
CREATE OR REPLACE PROCEDURE `your_project.your_dataset.update_car_distance`()
BEGIN
    MERGE INTO `your_project.your_dataset.car_total_distance` AS target
    USING (
        SELECT
            car_id,
            latitude,
            longitude,
            ping_time,
            -- 计算和上一次的距离
            6371 * ACOS(
                COS(RADIANS(latitude)) * COS(RADIANS(LAG(latitude) OVER (PARTITION BY car_id ORDER BY ping_time))) *
                COS(RADIANS(LAG(longitude) OVER (PARTITION BY car_id ORDER BY ping_time)) - RADIANS(longitude)) +
                SIN(RADIANS(latitude)) * SIN(RADIANS(LAG(latitude) OVER (PARTITION BY car_id ORDER BY ping_time)))
            ) AS distance
        FROM `your_project.your_dataset.car_stream_table`
        -- 只处理还没更新过的ping
        WHERE ping_time > (SELECT COALESCE(MAX(last_update), TIMESTAMP('1970-01-01')) FROM `your_project.your_dataset.car_total_distance`)
    ) AS source
    ON target.car_id = source.car_id
    -- 如果car_id已存在，更新总里程和最后坐标
    WHEN MATCHED THEN
        UPDATE SET
            total_distance = target.total_distance + source.distance,
            last_latitude = source.latitude,
            last_longitude = source.longitude,
            last_update = source.ping_time
    -- 如果car_id不存在，插入第一条记录
    WHEN NOT MATCHED THEN
        INSERT (car_id, total_distance, last_latitude, last_longitude, last_update)
        VALUES (source.car_id, source.distance, source.latitude, source.longitude, source.ping_time);
END;

-- 第三步：创建触发器，每次流表有新数据就执行存储过程
CREATE OR REPLACE TRIGGER `your_project.your_dataset.update_car_distance_trigger`
AFTER INSERT ON `your_project.your_dataset.car_stream_table`
FOR EACH STATEMENT
EXECUTE FUNCTION `your_project.your_dataset.update_car_distance`();

这里的MERGE语句是核心，它会自动判断是插入新记录还是更新现有记录，触发器则保证新ping进来时自动执行更新逻辑。

关键注意点