[00901994]一种基于语义分析的中文句子相似度计算方法和系统
交易价格:
面议
所属行业:
类型:
发明专利
技术成熟度:
通过小试
专利所属地:中国
专利号:CN202110747767.0
交易方式:
其他
联系人:
所在地:浙江杭州市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明公开了一种基于语义分析的中文句子相似度计算方法及系统,其中涉及的一种基于语义分析的中文句子相似度计算方法,包括:S1.获取待处理的句子对,并基于预构建的语料库分别对获取的句子对进行分词;其中,预构建的语料库包括行业语料库和普通语料库;S2.对分词后句子的成分进行划分,得到句子的主要成分和次要成分,通过BERT方法和Word2vec方法将句子的主要成分、次要成分均转化为词向量,并使用余弦相似度分别计算句子对的主要成分、次要成分的相似度;S3.根据得到的主要成分、次要成分的相似度,分别计算BERT方法和Word2vec方法的句子对整体相似度,并根据句子对的整体相似度计算句子对的最终相似度。
本发明公开了一种基于语义分析的中文句子相似度计算方法及系统,其中涉及的一种基于语义分析的中文句子相似度计算方法,包括:S1.获取待处理的句子对,并基于预构建的语料库分别对获取的句子对进行分词;其中,预构建的语料库包括行业语料库和普通语料库;S2.对分词后句子的成分进行划分,得到句子的主要成分和次要成分,通过BERT方法和Word2vec方法将句子的主要成分、次要成分均转化为词向量,并使用余弦相似度分别计算句子对的主要成分、次要成分的相似度;S3.根据得到的主要成分、次要成分的相似度,分别计算BERT方法和Word2vec方法的句子对整体相似度,并根据句子对的整体相似度计算句子对的最终相似度。