C语言提取TXT文件单词（排除空格标点）时出现空字符串问题求助

阿华AIGC实验室

2026-5-25

解决C语言提取TXT单词时出现空字符串的问题

我之前处理文本提取时也踩过这个坑！你碰到的空字符串，大概率是连续分隔符（比如标点紧跟空格）或者文本首尾的分隔符触发了错误的单词保存逻辑导致的。咱们来一步步修复这个问题：

问题根源分析

你的原有逻辑可能是“遇到分隔符就保存当前‘单词’”，但如果连续遇到两个分隔符（比如, ），第一个分隔符会把空内容当成单词保存，第二个又触发一次，就会生成空字符串。另外，如果文本开头/结尾是空格或标点，也会直接生成空字符串。

解决方案：状态跟踪式提取

核心思路是用一个状态标记（比如in_word）来跟踪是否正在读取一个单词：只有当从“非单词字符”切换到“单词字符”时，才开始记录；从“单词字符”切换到“非单词字符”时，才保存当前单词。这样就能自动跳过连续的分隔符，不会生成空字符串。

完整可运行代码

#include <stdio.h>
#include <ctype.h>
#include <string.h>
#include <locale.h> // 用于支持意大利语带重音的字母

#define MAX_WORDS 100   // 最大单词数量
#define MAX_WORD_LEN 50 // 单个单词的最大长度

int main() {
    // 设置本地化，让isalpha能识别意大利语的重音字母（比如è、à）
    setlocale(LC_ALL, "it_IT.UTF-8");

    FILE *file = fopen("test.txt", "r");
    if (!file) {
        perror("无法打开目标文件");
        return 1;
    }

    char words[MAX_WORDS][MAX_WORD_LEN];
    int word_count = 0;
    char current_word[MAX_WORD_LEN];
    int current_pos = 0;
    int in_word = 0; // 0=不在单词中，1=正在读取单词

    int c;
    while ((c = fgetc(file)) != EOF) {
        // 判断当前字符是否属于单词（字母，包括带重音的；可按需添加连字符、撇号等）
        if (isalpha(c) || c == '\'') {
            current_word[current_pos++] = c;
            in_word = 1;

            // 防止单词过长溢出数组
            if (current_pos >= MAX_WORD_LEN - 1) {
                current_word[current_pos] = '\0';
                strcpy(words[word_count++], current_word);
                current_pos = 0;
                in_word = 0;
            }
        } else {
            // 只有之前正在读取单词时，才保存当前内容
            if (in_word) {
                current_word[current_pos] = '\0';
                strcpy(words[word_count++], current_word);
                current_pos = 0;
                in_word = 0;
            }
            // 否则直接跳过分隔符，不做任何操作
        }
    }

    // 处理文件末尾未保存的最后一个单词
    if (in_word) {
        current_word[current_pos] = '\0';
        strcpy(words[word_count++], current_word);
    }

    fclose(file);

    // 验证提取结果
    printf("提取到的单词列表：\n");
    for (int i = 0; i < word_count; i++) {
        printf("%d: %s\n", i+1, words[i]);
    }

    return 0;
}

关键细节说明

状态标记in_word：这是解决空字符串的核心，它确保只有当我们真正在读取单词时，才会执行保存操作，跳过所有连续的分隔符。
本地化支持：因为你的文本是意大利语，包含è、à这类带重音的字母，用setlocale可以让isalpha正确识别这些字符，避免误判为分隔符。
边界处理：添加了单词长度溢出的防护，以及文件末尾剩余单词的处理，避免遗漏或数组越界。
可扩展的单词定义：如果需要支持带连字符的单词（比如mother-in-law），可以把c == '-'加入字符判断条件。