知网论文文献查重检测系统

多语种 图文 指定高校抄袭检测系统

知网检测系统相似度计算的规则原理

2019-08-07 阅读(1718)

摘要:本文改进了网络检测系统句子相似度的计算方法。在使用分词处理之后,句子结构用于标记已经分段的每个单词的功能块。执行比较过程以确定其重量。实验表明,考虑句子的功能成分来计算句子的相似性是可行的,并且可以取得更好的效果。

知网检测系统相似度计算的规则原理

关键词:知网检测;相似;知网检测系统;功能块

词语的语义相似度计算已广泛应用于信息检索,文本分类,词义消歧,信息提取,基于实例的机器翻译等领域。其中,基于词语语义相似度的句子相似度计算具有非常广泛的应用背景,如自动问答系统中问题和答案的最佳匹配,通过计算句子中句子的相似性来提取抽象句子。自动抽象系统和信息过滤技术。在句子匹配,基于实例的机器翻译中,通过计算句子相似度,使用句子的翻译作为模板来生成最佳翻译结果。目前,计算句子相似度的主要方法有两种:基于词语共现的统计方法和基于词语语义信息的分析方法。前一种方法主要使用两个句子中的字符串匹配进行比较。计算两个句子中相同单词数与单词总数之比,​​例如计算北京大学计算语言提出的句子相似度的公式:其中m,n代表两个句子中的单词数。 c是两个句子中相同单词的数量。虽然这种方法非常简单有效,但它忽略了词汇表的词汇和语义信息。句子的相似性保持在形态的匹配上,并且不能与语义相似的句子区分开。因此,缺乏对语义的理解和支持不足以计算句子相似性。后一种方法在考虑单词的语义信息的同时,可以区分语义相似的句子,但不充分利用句子的结构信息,即句子中每个单词的组成部分。在考虑了这两种方法的优缺点后,提出了一种基于知识网络检测系统计算句子相似度的方法。在句子的功能块标记的基础上,该方法为相同功能块中的单词赋予较大权重,并对不同功能块中的单词赋予较小权重,然后利用[0x9A8B [1]单词集的加权平均值。分词句用于计算句子的相似度。这不仅考虑了句子中单词的语义信息,而且通过分析句子中单词的构成来充分利用句子的结构信息,从而更准确地描述句子与句子和句子结构相似的相似性。 。

1基于《知网检测》的语义相似度计算词语的语义相似度计算主要有两种方法:一种是基于世界知识或分类系统。该方法需要一些领域知识,例如本体库的建立,或者相对完整的大型语义字典。现在比较成熟字典有WordNet和《知网检测》[2]根据上下关系和概念之间的奇偶关系来计算单词的相似度,《同义词词林》根据上面和下面计算单词的相似度。 Yiyuan的下位,另一个是基于统计的上下文向量空间模型方法[3](VSM)的应用,它需要一个大规模的语料库,可以相对准确地测量单词的语义相似度,但计算是比较大,而且计算方法比较复杂。这里我们使用语义知识来描述更详细的《知网检测》作为单词的语义相似度计算字典。

《知网检测》是一种常识知识库,它使用由单词汉语和英语表示的概念作为描述对象来揭示概念和概念之间的关系以及概念的属性作为基本内容[1]。《知网检测》中词语的语义描述由“概念”解释。每个单词可以表示为几个概念,即同一个单词在不同的上下文中具有不同的含义。在本文中,为了便于讨论,该词的含义没有消除歧义。该概念选择如下。这个概念由“沂源”描述。 “沂源”是描述“概念”的最小意义单位。 “沂源”之间有很多种关系,它们处于上下关系中是非常重要的。根据原始与原始之间的这种关系,所有“基本含义”构成了意义层次(图1)。这个沂源层次结构是树结构,是我们语义相似度计算的基础。

2句相似度计算目前,基于《知网检测》的句子相似度计算的主要方法是通过计算两个句子中包含的词集的相似度来获得句子的相似度。例如,对于两个句子S1和S2,首先处理分词以排除那些对。功能词,数字,介词等词对句子相似度的计算影响不大,只处理一些对句子语义有重要影响的名词,形容词等,并获得自己的词组。 。 S1有n个字:W11,W12,... W1n。句子S2有m个字:W21,W22,...... W2m。字集的相似度计算是指刘群 [5]。该集的相似度计算如下:

1)首先计算两组词中所有词之间的相似度;

2)从所有相似度值中选择最大的一个,并对应于相似度值的两个词,形成一个词对;

3)从所有相似度值中删除已建立对应关系的单词的相似度值;

4)重复上面的步骤2和3,直到删除所有单词对;

虽然这种方法可以区分语义相似的句子,但它并没有充分利用句子的结构信息,即句子中每个单词的组成部分。本文提出了一种基于《知网检测》的改进方法来计算句子相似度。具体方法是:在句子的分词之后,需要为已经分段的每个单词标记功能块。主要功能块为主语,述语,宾语,定语,状语和补语。在标记句子的结构骨架之后,我们检查每对单词的功能块,并比较不同的单词单词以确定其权重。

3实验和评估句子前面的数字是句子的序列号,而其他符号,例如vp,dj,v等,是单词类标签或短语类型标签。符号“[”是边界标记,每个块仅使用左括号'['标记其起始点,S表示主语块,P表示述语块,O表示宾语块,J表示语言块,D表示状语 ,C表示补语块等[7]。

从以上结果,可以得出以下分析。对于两组句子,其语义在语义上非常接近,并且词语的术语大致相同,如1和2,3和4,5和6,7和8,通过公式(5)相似性计算的差异并不大,但是在通过改进的方法计算之后,尽管相似性不如公式(5)的相似性,但是对于语义上相似的句子,考虑单词所在的功能块。之后,相似性得到了显着改善,不同句子之间有了更好的区分。例如,在组1中,因为句子的组成部分更接近,所以与组2相比,相似性得到改善。以下句子组的相似性也得到了类似的改善。因此,本文提出的HowNet检测系统提出的方法可以将句子成分纳入句子相似度计算中,并取得了一定的效果。

高校知网查询

相关文章