当前位置:首页 > 日记本 > 正文内容

python chardet模块自动识别编码

zhangchap3年前 (2021-09-27)日记本248
import chardet
str = b'Hello word'
str1 = '你好,世界。'.encode('utf-8')
# 检测 编码
c_str = chardet.detect(str1)
print(c_str)
# {'encoding': 'ascii', 'confidence': 1.0, 'language': ''}
# encoding:编码,confidence:检测的概率,language:字段语言
c_chart = c_str.get('encoding','utf-8')
print(c_chart)
# utf-8

备注:经测试,不是100%能够识别的,网站代码写的不规范的情况下,还是慎用

分享给朋友:

相关文章

python jieba分词

import jieba from jieba.analyse import tfidf words = jieba.lcut('...

python 获取当前的路径并切换

import os curdir = os.path.dirname(__file__) #获取当前的路径,若运行在当前文件夹,是获取不到当前路径的,最保险的...

python jieba分词自定义分词器及自定义词典

import jieba jieba.initialize() # 自定义分词器的写法 n_c = jieba.Tokenizer(dictionary=...

python正则替换替换文本特殊字符和html代码

import re h2 = '「新裤子/痛仰/陈粒/达达」2021贵阳草莓音乐节全阵容公布!' h2 = re.sub(r...

python计算字符串相似度总结

1、距离计算包的安装:pip install python-Levenshteinlevenshtein编辑距离(Edit Distance),又称Levenshtein距离,...

python下random随机选择的三种方式

from random import sample,choice,choices list_1 = [1,2,3,4,5,6] # 从列...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。