incoPat语义检索算法升级

2021年5月

基于海量的专利数据资源以及强大的计算能力,incoPat的语义检索功能致力于为用户提供一种专利检索的智能解决方案,以提高专利检索的效率及质量。 “语义”即“某种表达的含义”,作为人工智能在专利领域的应用之一,语义检索同其他人工智能应用案例的相同点在于,都期望可以更准确地理解人类的意图、更智能地模仿人类的行为、更智慧地发掘人类的潜在目标等。传统的人工检索过程繁杂、专业要求高且费时费力。语义检索的优势在于,输入简单,且能够根据专利的技术内容相关性智能排序,大幅提高阅读的效率。语义检索作为我们专利检索时的重要工具,能否更准确地识别输入的技术主题、更精准地命中技术特征以及为我们提供更有效的检索扩展思路是评价语义检索功能的重要标准。本次incoPat语义检索算法的重大升级结合了长期的语义检索功能的用户反馈、专利专家的检索经验以及算法专家的技术能力,升级要点主要包括:

  • 使用更加精细的粒度进行匹配,重视检索输入中的技术细节;
  • 增强输入中的技术主题,使检索结果更加聚焦于用户主题意图;
  • 有效提取专利及输入中的技术特征,减少噪音干扰;
  • 使用最新专利数据进行模型训练,适应技术用语的发展变化。

那么incoPat语义检索2.0在专利X类文献检出率、技术主题相关性、技术特征相关性等方面有了怎样的提升呢?一起来看看具体数据吧!

X类文献总体检出率大幅提升

X类文献检出率是语义检索最常用的测试方法。因此,我们也采用了此经典方式来评价incoPat语义检索2.0的总体效果。同时,考虑到专利申请的技术描述语言会随时间有一定的变化, incoPat语义检索2.0选择了最新的专利数据进行训练及测试,以保证新的语义引擎可以适应新的技术所产生的新的表述方式。我们选取了近5年不同IPC分类的共10000件专利申请号作为测试样本,通过评价测试样本的X类文件检出率来评价incoPat语义检索2.0的检索效果。

语义检索总体X检出率的提升

通过以上对X类文献检出率的测试,可以从图表中看到,语义检索2.0相比语义检索1.0有明显的效果提升。从第1位检出至前100位检出X类文献的情况中,语义检索2.0相较于1.0有6-11%的检出率提升,高达32-70%的提升率。值得注意的是,语义检索2.0的第1位检出率高达14.74%,相较于此前业内的领先水平,高出50%左右。通过X类文献检出率表现,我们相信优化后的语义检索可以帮助用户更高效地完成诸如新颖性检索、无效检索等专利检索任务。

各技术领域X类文献检出率均有提升,多数领域提升明显

为了掌握语义检索在各技术领域的效果,我们在最近5年内具有X类文献的中国发明申请专利中,选取了数量最多的前10位IPC主分类号大类(包括化学、电子、机械等不同的专业领域)各1000件,作为各技术领域语义测评的样本,进行了测试。

语义检索各技术领域X检出率的提升

从以上测试结果图表可以看出,语义检索2.0在一些IPC分类上,相较于1.0有较为显著的提升,例如G01、A61、C08、C09、A01等,Top1可达6%以上的提升,Top100可达15%以上的提升,其他分类在Top1也至少有2%的效果提升,在Top100至少有5%以上的效果提升。使用语义检索2.0,有7个IPC分类在Top1的X文献检出率可达13%以上,最高可达21%,有8个IPC分类在Top100的检出率可达41%以上,最高可达56%。

通过以上对不同IPC分类的测试,可见升级后的语义检索能让我们在各技术领域中获得更准确的检索体验。

对技术主题相关性、技术特征相关性的主观评价

为了让测试反映检索的主观感受,我们还通过检索结果的技术主题相关性、技术特征相关性来评价语义检索2.0的效果。

在该测试中,我们人工提取了测试专利中的关键词,并将关键词划分为技术主题及技术特征,并进行关键词扩展。技术主题(紫色标记)更多的来源于专利标题及摘要,用来标识专利的技术主题信息;技术特征(绿色标记)更多的来源于专利的摘要及权利要求,用来标识专利的技术特征信息。利用测试检索结果中技术主题及技术特征的出现频率等规则来对检索结果的相关性进行评价。

原专利
示例1:技术主题相关 技术特征相关
示例2:技术主题相关 技术特征不相关
示例3:技术主题不相关 技术特征不相关

通过上述方式对专利CN107425018A一种半导体器件的制造方法进行了语义检索。检索结果中,第1位为测试专利,第2位为该专利的X类文献,这几篇中都有较高的技术主题、技术特征出现频率,为技术主题、技术特征都相关的示例。示例2中,具有较高的技术主题出现频率,但是具有较低的技术特征出现频率,被评价为技术主题相关、技术特征不相关的示例。

示例3中,技术主题、技术特征出现频率都比较低,被评价为技术主题、技术特征都不相关的示例。

检索结果的技术主题、技术特征相关度明显提升

根据以上的测评方式,我们人工提取了50篇测试专利中的技术主题及技术特征,分别测试了各检索结果前100位的各个专利的技术主题相关性、技术特征相关性,并分别统计了检索结果的第1位、前10位、前100位的技术主题相关专利比例、技术特征相关专利比例作为技术主题相关度、技术特征相关度评价指标。

语义检索技术主题和技术特征相关度的提升

语义检索2.0相较于语义检索1.0版本在技术主题相关度技术特征相关度方面都有比较明显的效果提升,技术主题相关度在Top1-Top100的范围有8-13%的效果提升,技术特征相关度在Top1-Top100的范围有20-25%的效果提升。技术主题在Top1有高达94%的相关度,在Top100仍有77%的相关度,这得益于语义检索2.0的算法对于技术主题的识别与强化等作用。而技术特征在Top1可以达到82%的相关度,在Top100可以达到55%的相关度,这得益于语义检索2.0的算法对于噪音的过滤等作用

通过对本次升级的语义检索引擎进行X类文献总体检出率、X类文献在各IPC分类下检出率、技术主题关键词相关性、技术特征相关性的多维度的测评,可以看到,语义检索2.0在多种算法策略的加和下,相较于原有语义检索引擎有显著的效果提升,同时呈现出了对于新的专利技术/各领域专利技术的适应能力、更加聚焦于专利的主题意图、更好的过滤了噪音词汇、更加重视技术细节等性能,期待这些性能可以提供给用户更加智能、更加符合用户期望的语义检索体验,成为用户专利检索工作中更加可信好用的检索工具。

同时,通过多方测评及案例分析,我们也将持续对语义检索引擎进行优化,结合用户的使用反馈,打造更加强大、专业的专利检索引擎。欢迎您来体验升级后的incoPat语义检索2.0。

incoPat语义检索界面

合享智慧科技有限公司

|

地址:北京市海淀区西二旗中路元中心 6 号楼 3层

|

电话: 010-60607720

|

ICP证:京B2-20200234

|

ICP备:京ICP备17026127号-1

|

京公网安备号:11010802041548

| 隐私权政策 | 服务条款