spacy有能标注技能的预训练模型吗？

### SpaCy 预训练模型是否支持职业技能标注 SpaCy 的预训练模型确实提供了强大的命名实体识别（NER）功能，但其默认的 NER 模型并不直接包含“职业技能”这一特定类别的实体。默认模型中的实体类型涵盖了如人名（`PERSON`）、组织（`ORG`）、产品（`PRODUCT`）、语言（`LANGUAGE`）等通用类别[^1]。然而，这些类别可以间接用于职业技能的标注，例如编程语言（`LANGUAGE`）或技术工具（`PRODUCT`）。如果需要更精确地标注职业技能相关的实体，可以通过以下方式实现： #### 1. 使用 SpaCy 的扩展标签机制 SpaCy 允许用户通过自定义规则或机器学习模型扩展默认的实体类型。例如，可以通过 `spacy.tokens.Token.set_extension` 方法为单词添加自定义属性，标记其是否为技能相关词汇。以下是一个代码示例： ```python import spacy nlp = spacy.load("en_core_web_sm") # 定义一个自定义扩展属性 if not spacy.tokens.Token.has_extension("is_skill"): spacy.tokens.Token.set_extension("is_skill", default=False) # 定义职业技能词汇列表 skills = {"Python", "TensorFlow", "Docker", "AWS", "DevOps"} def is_skill(token): return token.text in skills # 添加自定义管道组件 @spacy.Language.component("skill_annotator") def skill_annotator(doc): for token in doc: token._.is_skill = is_skill(token) return doc nlp.add_pipe("skill_annotator", last=True) text = "John knows Python, TensorFlow, and Docker." doc = nlp(text) for token in doc: if token._.is_skill: print(f"Skill found: {token.text}") ``` #### 2. 训练自定义 NER 模型为了更准确地识别职业技能，可以基于现有的 SpaCy 模型进行微调。这需要准备一个包含职业技能标注的数据集，并使用 SpaCy 的 `spacy train` 命令或自定义训练脚本完成模型更新。以下是一个简单的训练流程概述： - 准备标注数据：创建一个 JSON 文件，其中包含带有职业技能标签的句子。 - 加载基础模型：从 SpaCy 的默认模型（如 `en_core_web_sm`）开始。 - 更新模型：使用标注数据对模型进行增量训练。以下是训练代码的简化版本： ```python import spacy from spacy.util import minibatch, compounding # 加载基础模型 nlp = spacy.load("en_core_web_sm") # 添加自定义实体类型 ner = nlp.get_pipe("ner") ner.add_label("SKILL") # 示例训练数据 TRAIN_DATA = [ ("John knows Python and TensorFlow.", {"entities": [(9, 15, "SKILL"), (19, 27, "SKILL")]}), ("She uses Docker and AWS.", {"entities": [(8, 14, "SKILL"), (19, 22, "SKILL")]}), ] # 禁用其他管道以加速训练 other_pipes = [pipe for pipe in nlp.pipe_names if pipe != "ner"] with nlp.disable_pipes(*other_pipes): optimizer = nlp.begin_training() for i in range(10): # 迭代次数 losses = {} batches = minibatch(TRAIN_DATA, size=compounding(4.0, 32.0, 1.001)) for batch in batches: texts, annotations = zip(*batch) nlp.update(texts, annotations, sgd=optimizer, drop=0.35, losses=losses) print(losses) ``` #### 3. 使用第三方模型除了自行训练模型外，还可以利用社区提供的预训练模型。例如，`spacy-skills` 是一个专门针对职业技能提取的 SpaCy 扩展库[^2]。它已经包含了大量常见的技能词汇，并且可以直接应用于简历解析或职位匹配场景。安装和使用方法如下： ```bash pip install spacy-skills ``` ```python import spacy from spacy_skills import add_skills_entity_ruler nlp = spacy.load("en_core_web_sm") add_skills_entity_ruler(nlp) text = "John has experience with Python, TensorFlow, and Docker." doc = nlp(text) for ent in doc.ents: if ent.label_ == "SKILL": print(ent.text) ``` --- ###

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

下一篇 spacy的en_core_web_sm是什么模型？

目录

spacy有能标注技能的预训练模型吗？

Python内容推荐

Python-为SpaCy提供的中文数据模型

Python-用于预先练训的BERT和其他变压器的spaCy管道

Python-直接在spaCy中使用最新的StanfordNLP研究模型

Python-30种语言预训练词向量模型

spacy中文工具包

spacy的预训练模型en-core-web-sm

spacy中en_core_web_sm

spacy包en models

Spair：当Spacy遇到Flair时！

Dataset-Creator-for-SpaCy:这是Spacy的手册命名实体词性标注器，您可以使用它来创建自己的训练数据集

spaCy 101_ Everything you need to know · spaCy 用户手册.rar

SpaCy101

Layers and Model Architectures · spaCy Usage Documentation.rar

自然语言处理-基于预训练模型的方法-笔记

Training Pipelines & Models · spaCy 用户手册.rar

Facts & Figures · spaCy Usage Documentation.rar

人工智能-项目实践-预训练-open visual language model 多模态预训练模型

基于NLP开源算法和模型库（jieba、spacy、paddlenlp）对文本数据进行向量化.zip

spaCy-源码.rar

Embeddings, Transformers and Transfer Learning · spaCy Usage Documentation.rar

关于jupyter打开之后不能直接跳转到浏览器的解决方式

Anaconda和ipython环境适配的实现

anaconda组件图标

Anaconda+spyder+pycharm的pytorch配置详解(GPU)

mayavi mlab简明ppt教程

学生成绩管理系统C++课程设计与实践

别再手动拖拽了！用Lumerical脚本批量创建FDTD仿真结构（附完整代码）

Java邮件解析任务中，如何安全高效地提取HTML邮件内容并避免硬编码、资源泄漏和类型转换异常？

RH公司应收账款管理优化策略研究

新手别慌！用BingPi-M2开发板带你5分钟搞懂Tina Linux SDK目录结构