当前位置:首页 > 技术杂坛 > 正文内容

python jieba分词自定义分词器及自定义词典

zhangchap3年前 (2021-06-05)技术杂坛543
import jieba
jieba.initialize()
# 自定义分词器的写法
n_c = jieba.Tokenizer(dictionary='./fc.txt')
wd = '嫦娥五号发射成功'
print(n_c.lcut(wd))

# 加载自定义词典
jieba.load_userdict('fc.txt')
print(jieba.lcut(wd))

使用自定义分词器不使用原生词典,使用自定义词典还会使用原生词典


标签: python笔记
分享给朋友:

相关文章

python jieba分词

import jieba from jieba.analyse import tfidf words = jieba.lcut('...

python url.parse模块编码解码

from urllib.parse import quote,unquote,urlencode # 对汉字进行编码使用 quote ...

python 获取当前的路径并切换

import os curdir = os.path.dirname(__file__) #获取当前的路径,若运行在当前文件夹,是获取不到当前路径的,最保险的...

Python 正则表达式 带分组的替换 \g

import re re.sub(r'([^a-z]*)[a-z]([^a-z]*)', '\g<1>\g<2>',wor...

python计算字符串相似度总结

1、距离计算包的安装:pip install python-Levenshteinlevenshtein编辑距离(Edit Distance),又称Levenshtein距离,...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。