Python文本数据深度清洁教程

作者：丝美游易网 / 发布时间：2025-08-03 19:30:04 / 阅读数量：0

手把手教你用Python给文本数据做「大扫除」

记得上次帮朋友处理用户评论数据时，看到满屏的"的得地"和"哈哈哈"，我忽然意识到——原来文字也会长青春痘！今天咱们就用代码当洗面奶，给文本数据来次深度清洁。

Python文本数据深度清洁教程

一、为什么文本预处理像厨房备菜？

就像做菜前要择菜洗菜，处理文本数据也得先完成三件套：

去除杂质：HTML标签、特殊符号就像菜叶上的泥巴
统一规格：大小写转换好比把食材切成均匀块状
分解处理：分词相当于给整鸡剔骨分块

1.1 基础清洁三步走

咱们先看个简单示例：


def basic_clean(text):
 去除非文字字符
text = re.sub(r'[^\\u4e00-\\u9fa5a-zA-Z0-9]', ' ', text)
 统一小写（英文场景）
text = text.lower
 去除多余空格
return ' '.join(text.split)

二、中文分词就像拆乐高

常见的中文分词工具对比：

工具	优点	缺点
jieba	简单易用	专业领域词识别弱
HanLP	精度高	配置复杂

2.1 自定义词典的妙用

处理游戏评论时，不加自定义词典的话，"吃鸡"会被拆成"吃"和"鸡"，这时候就需要：


jieba.load_userdict('custom_words.txt')

三、停用词过滤的取舍智慧

常用的停用词库就像厨房的垃圾桶，但要注意：

否定词（"不""没"）不能扔
专业场景要调整（医疗文本保留"症状""诊断"）

3.1 动态停用词表


def dynamic_stopwords(texts, threshold=0.8):
word_freq = defaultdict(int)
for text in texts:
for word in text:
word_freq[word] += 1
return {word for word, freq in word_freq.items if freq/len(texts) > threshold}

四、关键词提取的三大绝招

这里推荐三个实用方法：

TF-IDF：适合学术文献
TextRank：类似网页排名算法
词性组合：名词+动词的组合更有价值

4.1 混合提取策略


def hybrid_keywords(text):
nouns = [word for word, pos in pos_tag(text) if pos.startswith('N')]
verbs = [word for word, pos in pos_tag(text) if pos.startswith('V')]
return list(set(nouns).intersection(tfidf_top_words) | set(verbs))

五、实战：处理电商评论

近处理过的一个真实案例：


def process_reviews(reviews):
cleaned = [basic_clean(r) for r in reviews]
custom_stopwords = load_stopwords('ecommerce_stopwords.txt')
tokens = [remove_stopwords(jieba.cut(r), custom_stopwords) for r in cleaned]
return [extract_keywords(t) for t in tokens]

窗外飘来咖啡香，电脑屏幕上的文字渐渐变得清爽有序。处理完后一条评论，我忽然想起《自然语言处理实战》里说的："干净的文本数据，是成功分析的一半。"