当前位置:首页 > 日记本 > 正文内容

Sentence Transformers语言模型适合中文分析及下载地址

zhangchap3个月前 (01-18)日记本123
  1. all-distilroberta-v1.zip

这是一个基于DistilRoBERTa模型的语言包,采用了轻量级模型设计,适用于中英文短文本相似度计算任务。该模型在多项自然语言处理任务上表现出色,并且速度快、占用资源少,很适合在较为简单的应用场景中使用。

  1. distilbert-base-nli-max-tokens.zip

这个语言包同样是基于轻量级模型DistilBERT设计的,主要用于中文文本相似度计算任务。该模型将两个文本作为输入,输出它们的相似度得分。该模型的优点是速度快,适合处理大规模的数据集。

  1. distilbert-base-nli-mean-tokens.zip

这是另一个基于DistilBERT模型的语言包,主要用于中文文本相似度计算任务。与上一个语言包类似,该模型也是将两个文本作为输入,输出它们的相似度得分。不同的是,该模型使用平均池化来生成文本表示,因此比使用CLS token更适合处理长文本。

  1. distilbert-base-nli-stsb-mean-tokens.zip

这个语言包同样是基于DistilBERT模型设计的,主要用于中文文本相似度计算任务。该模型是在STS-Benchmark数据集上进行训练,可以预测两个输入句子的相似度得分。

  1. distilbert-base-nli-stsb-quora-ranking.zip

这也是一个基于DistilBERT模型的语言包,主要用于中文文本相似度计算任务。该模型是在Quora Question Pairs数据集上进行训练,可以对两个问题之间的相似度进行评估。

  1. distilbert-base-nli-stsb-wkpooling.zip

这个语言包同样是基于DistilBERT模型设计的,主要用于中文文本相似度计算任务。该模型使用最大值和平均值来对文本进行池化,以便生成文本表示。

  1. distilbert-base-nli-wkpooling.zip

这个语言包同样是基于DistilBERT模型设计的,主要用于中文文本相似度计算任务。该模型与上一个语言包类似,不过只使用平均值来对文本进行池化。

  1. distiluse-base-multilingual-cased-v1.zip

这是一个基于DistilUSE模型的语言包,主要用于中文文本相似度计算任务。该模型使用多语言语料库进行训练,可以处理包括中文在内的多种语言,具有很好的跨语言能力。该模型在多项自然语言处理任务中表现优秀。

  1. distiluse-base-multilingual-cased-v2.zip

这个语言包同样是基于DistilUSE模型设计的,主要用于中文文本相似度计算任务。与上一个语言包不同的是,该模型使用更大规模的多语言数据集进行训练,具有更好的跨语言表现能力。

  1. paraphrase-distilroberta-base-v1.zip

这是一个基于Paraphrase DistilRoBERTa模型的语言包,主要用于中文文本相似度计算任务。该模型在多项自然语言处理任务中表现出色,并且速度快。

  1. paraphrase-distilroberta-base-v2.zip

这个语言包同样是基于Paraphrase DistilRoBERTa模型设计的,主要用于中文文本相似度计算任务。与上一个语言包不同的是,该模型使用更大规模的语料库进行训练,具有更好的效果。

  1. paraphrase-xlm-r-multilingual-v1.zip

这个语言包基于XLM-RoBERTa模型设计,可以处理包括中文在内的多种语言。该模型使用多语言数据集进行训练,具有很好的跨语言表现能力,适用于多语言文本相似度计算任务。

总的来说,以上这些语言包都采用了基于Transformer的模型,在大规模语料库上进行了预训练,可以很好地处理中文文本相似度计算任务。其中,DistilBERT、RoBERTa和XLM-RoBERTa等模型是目前最为流行的NLP模型,它们在多项自然语言处理任务中表现出色。


下载地址:

https://public.ukp.informatik.tu-darmstadt.de/reimers/sentence-transformers/v0.2/

标签: Sentence
分享给朋友:

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。