基于共享最近邻的专利自动分类技术研究

基于共享最近邻的专利自动分类技术研究

ID:46604385

大小:397.79 KB

页数:6页

时间:2019-11-26

基于共享最近邻的专利自动分类技术研究_第1页
基于共享最近邻的专利自动分类技术研究_第2页
基于共享最近邻的专利自动分类技术研究_第3页
基于共享最近邻的专利自动分类技术研究_第4页
基于共享最近邻的专利自动分类技术研究_第5页
资源描述:

《基于共享最近邻的专利自动分类技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、2010年8月沈阳航空工业学院学报Aug.2010第27卷第4期JournalofShenyangInstituteofAeronauticalEngineeringV01.27No.4文章编号:1007—1385(2010)04—0041—06基于共享最近邻的专利自动分类技术研究季铎蔡云雷蔡东风苗雪雷(沈阳航空航天大学知识工程研究中心,辽宁沈阳110136)摘要:专利文献是一种具有法律效力的科技文献,其内容覆盖了几乎所有的技术领域的最新、最活跃的创新技术信息,因此对专利文献的分类和组织在专利管理中有着重要意义。本文通过对现有的专利自动分类技术的

2、归纳和分析,融合BM25相似度计算方法和样本邻域信息提出一种基于共享最近邻的KNN专利自动分类方法。本方法的有效性在NTCIR一8专利分类评测任务中得到充分验证。关键词:专利分类;BM25;KNN;共享最近邻中图分类号:TP391.1文献标识码:Adoi:10.3969/j.isan.1007—1385.2010.04.010随着科技的迅速发展和经济全球化的趋势,专利的作用越来越得到人们的重视。如今,从某种程度上说,国家之间的竞争等同于科学技术之间的竞争。而专利恰恰能够反映一个国家的科学技术水平。据WIPO的研究报告,全球专利申请量年均增长4.7

3、%左右,我国每年的专利申请数已接近百万,已公布的专利总数已超过二百万。面对这些海量数据,直接进行专利分析变得越来越困难。为了尽快找到所需要的专利信息,必须对专利进行分类,藉此加快检索速度。然而目前专利分类还是依靠专家的人工分类,耗费大量的人力物力,同时由于分类人员的主观和客观因素很难保证分类的准确率和一致性,从而导致人力资源成本越来越高,人工分类变得越来越难以进行。实际上专利分类是一个标准的多层次的文本分类问题,如果能够利用文本分类技术实现专利的自动分类,那么即使现有的机器学习算法还不能完全替代人工分类,但是在自动分类的基础上进行人工分类也能大大

4、减少分类任务的工作量,同时还能较好的缓解分类的一致性问题。所以实现专利文本的自动分类有着重要的意义。值得一提的是NTCIR—o为专利研究建立了一个相互交流学习的平台。NTCIR是由日本国立情报学研究所(NationalInstituteofInformatics,收稿日期:2010—03—23作者简介:季铎(1981一),男,辽宁葫芦岛人,讲师,主要研究方向:机器翻译、信息检索等,E—mail:jiduo—l@163.com。Nil)自1999年开始筹办的信息检索评测。在2001—2002年NTCIR评测中首次加入了专利检索评测任务,评测中提供了

5、多种语言的专利训练语料、测试语料以及评价的方法,吸引了国内外众多研究机构参与,推动了专利挖掘技术的快速发展。在NTCIR一8评测中,专利挖掘任务主要分为两部分:专利分类和专利检索。专利分类任务的目的是将英文或者日文的研究论文标记上IPC的类别标记。由于面向的语言不同,分为三个子任务,英文专利分类任务、日文专利分类任务、交叉语言专利分类任务。参赛系统需要为每个测试样本分别在subclass,maingroup和subgroup层次上各提供最多1000个IPC分类号的候选答案。本文作者参加了其中的英文专利分类任务和日文专利分类任务,并在两组分类任务中

6、提交了相同的分类系统。l专利分类技术的发展专利分类体系以国际专利分类法(Intema-tionalPatentClassifcation,IPC)为主要的分类标准。此外欧洲、美国和日本各自都有另外的一套分类标准。我国采用的分类标准为IPC分类标准。出于专利分类的需要,Strasbourg协议(1971)建立了IPC分类标准。IPC可以用于检索现有的专利,确定新提交专利的创新性,有着非常重要的作用。所以对于专利的自动分类研究国外起步较早⋯,我国的专利研究起步相对较晚,处于起步42沈阳航空工业学院学报第27卷阶段,但是近些年也开始逐步重视专利的保护和

7、利用。在欧洲专利局(EuropeanPatentOffice,EPO)构建专利预分类工具的尝试中,对各种分类工具进行了测试,结果表明使用专利的全文比仅使用摘要可以提2—9%的正确率;在100%召回率的情况下,directorate层(44类)的正确率为72%,term层(549类)的正确率为57%,使用Winnow算法要优于其它分类方法旧J。此外,Koster指出对于大规模的训练集合,Winnow算法性能优于Rocchio算法【3】。关于特征提取也进行了相关的研究【4J,结果发现尽管各种特征提取方法的差异不是很明显,信息增益(Informatio

8、nGain)方法的性能相对最好,尤其是当特征维数降至每类仅保留50个单词的情况下。此外还有利用专利中对已有的专利的引用信息对专利进行分类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。