python jieba分词自定义分词器及自定义词典
import jieba jieba.initialize() # 自定义分词器的写法 n_c = jieba.Tokenizer(dictionary='./fc.txt') wd = '嫦娥五号发射成功' print(n_c.lcut(wd)) # 加载自定义词典 jieba.load_userdict('fc.txt') print(jieba.lcut(wd)) 使用自定义分词器不使用原生词典,使用自定义词典还会使用原生词典
import jieba jieba.initialize() # 自定义分词器的写法 n_c = jieba.Tokenizer(dictionary='./fc.txt') wd = '嫦娥五号发射成功' print(n_c.lcut(wd)) # 加载自定义词典 jieba.load_userdict('fc.txt') print(jieba.lcut(wd)) 使用自定义分词器不使用原生词典,使用自定义词典还会使用原生词典
from urllib.parse import quote,unquote,urlencode # 对汉字进行编码使用 quote ...
刚开始装上python安装轮子挺顺利的,后来再使用pip install 安装开始报错,网上有解决方案说用国内的源就没问题,但是我的源早就改成国内的了,用了另外一种解决方案,搞定加上--target参...
使用sys模块进行判断,以便启用在win平台下不支持的代码:import sys p = sys.platform if p != ...
import re re.sub(r'([^a-z]*)[a-z]([^a-z]*)', '\g<1>\g<2>',wor...
prefix_word = {'怎么': 4, '昨晚': 27, '会': 56...
# sort()排序方法 sort() :仅对list对象进行排序,会改变list自身的顺序,没有返回值,即原地排序;你也可以使用 list.sort() 方法,它会直接修改原列表(并返回 None...