从一段话中提取关键词 python

### 使用Python从文本中提取关键词 #### 基于TF-IDF的中文关键词提取对于中文文本，基于TF-IDF（词频-逆文档频率）算法是一种常见的关键词提取方法。这种方法通过计算词语的重要性来识别文本中的关键术语。具体来说，TF-IDF值越高，表示该词越重要。 ```python import jieba.analyse text = "这是一段用于演示如何利用jieba库进行关键词抽取的例子" keywords = jieba.analyse.extract_tags(text, topK=5, withWeight=False) print(f"Top 5 Keywords: {', '.join(keywords)}") ``` 上述代码展示了怎样借助`jieba`库执行基于TF-IDF的关键词提取操作[^1]。 #### 英文关键词提取针对英文文本，则可以直接应用诸如NLTK或者spaCy这样的自然语言处理库来进行更复杂的分析工作。这些工具提供了多种功能强大的API接口供开发者调用，其中包括但不限于分句、标记化以及命名实体识别等功能模块。 ```python from sklearn.feature_extraction.text import TfidfVectorizer import numpy as np def extract_keywords_tfidf(documents, num_keywords=5): vectorizer = TfidfVectorizer(stop_words='english') X = vectorizer.fit_transform(documents) feature_array = np.array(vectorizer.get_feature_names_out()) tfidf_sorting = np.argsort(X.toarray()).flatten()[::-1] top_n_indices = tfidf_sorting[:num_keywords] return feature_array[top_n_indices] documents = ["This is an example document.", "Here's another piece of text."] keywords = extract_keywords_tfidf(documents) print(f"Extracted Keywords: {' ,'.join(keywords)}") ``` 这段示例说明了采用Scikit-Learn框架下的TfidfVectorizer类实现对一组英语语料库实施向量化处理，并据此获取排名靠前的关键短语[^4]。 #### 结合正则表达式的特定模式匹配当面对结构化的数据源或是希望依据自定义规则筛选出某些特殊类型的词条时，可以考虑运用正则表达式配合字符串查找函数完成精准定位任务。这种方式尤其适用于像日期格式、邮箱地址之类的固定样式信息检索场景。 ```python import re pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z]{2,}\b' test_str = ("Contact us at support@example.com or sales@company.org.") emails = re.findall(pattern, test_str, flags=re.IGNORECASE) print(emails) ``` 此片段体现了通过编译预设好的正则模板去批量捕获符合E-mail标准形式的目标串实例[^3]。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 pso算法优化svrpython代码