当前位置:首页 > 技术杂坛 > 正文内容

python 文本清洗(网址、邮箱HTML转义字符)、自动分段等

zhangchap2年前 (2022-05-30)技术杂坛552

记录下这个模块,日后用得着:

from harvesttext import HarvestText
ht = HarvestText()

print("各种清洗文本")
ht0 = HarvestText()
# 默认的设置可用于清洗微博文本
text1 = "回复@钱旭明QXM:[嘻嘻][嘻嘻] //@钱旭明QXM:杨大哥[good][good]"
print("清洗微博【@和表情符等】")
print("原:", text1)
print("清洗后:", ht0.clean_text(text1))
# URL的清理
text1 = "【#赵薇#:正筹备下一部电影 但不是青春片....http://t.cn/8FLopdQ"
print("清洗网址URL")
print("原:", text1)
print("清洗后:", ht0.clean_text(text1, remove_url=True))
# 清洗邮箱
text1 = "我的邮箱是abc@demo.com,欢迎联系"
print("清洗邮箱")
print("原:", text1)
print("清洗后:", ht0.clean_text(text1, email=True))
# 处理URL转义字符
text1 = "www.%E4%B8%AD%E6%96%87%20and%20space.com"
print("URL转正常字符")
print("原:", text1)
print("清洗后:", ht0.clean_text(text1, norm_url=True, remove_url=False))
text1 = "www.中文 and space.com"
print("正常字符转URL[含有中文和空格的request需要注意]")
print("原:", text1)
print("清洗后:", ht0.clean_text(text1, to_url=True, remove_url=False))
# 处理HTML转义字符
text1 = "<a c> ''"
print("HTML转正常字符")
print("原:", text1)
print("清洗后:", ht0.clean_text(text1, norm_html=True))
# 繁体字转简体
text1 = "心碎誰買單"
print("繁体字转简体")
print("原:", text1)
print("清洗后:", ht0.clean_text(text1, t2s=True))


github :https://github.com/blmoistawinde/HarvestText


分享给朋友:
返回列表

上一篇:多线程代理ip切换实例

没有最新的文章了...

相关文章

destoon后台不显示短信余额的解决方法

自从dt16年短信出了一次无法发送的问题,官方让: include/global.func.php 文件中的  sms.destoon.com换成116.255.251.5...

cetons7开启BBR

Google 在 2016年9月份开源了他们的优化网络拥堵算法BBR,最新版本的 Linux内核(4.9-rc8)中已经集成了该算法。 对于TCP单边加速,并非所有人都很熟悉,不过有另外一个...

宝塔一个站点如何绑定多个域名ssl证书?

宝塔一个站点如何绑定多个域名ssl证书?

1.如果网站不是自适应 2.程序不会在访问的时候自动判断客户端,返回不同的内容。(js跳转的不在这个范围内) 现在一个站点往往绑定至少两个域名,pc、m各一个,甚至频道有二级域名的话,那...

json输出json.dumps中文为ascii编码如何解决?

import json print json.dumps('中国') 输出:"\u4e2d\u56fd" json.dumps(...

python正则替换替换文本特殊字符和html代码

import re h2 = '「新裤子/痛仰/陈粒/达达」2021贵阳草莓音乐节全阵容公布!' h2 = re.sub(r...

10 个用于格式化、组织和整理 CSS 代码的免费工具

10 个用于格式化、组织和整理 CSS 代码的免费工具

如果您是一位经验丰富的网页设计师,您可能不会遇到这个问题。您的 CSS 文件将结构连贯且简洁;每个选择器都将被仔细放置,每个属性都将被完美格式化……您的 CSS 将看起来像精心制作的艺术品。如果这描述...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。