网络信息检索暨识别过滤的浅析
(武警河北总队,河北 石家庄 050000)
摘 要:网络信息检索因为其多样性、灵活性、及时性等特点,成为信息化时代最常用的检索方式。但是由于网络资源的无序化、非标准化,网络信息检索时常常面临信息查找困难的情况。本文基于向量空间模型对信息检索以及识别过滤展开浅层讨论,前者包括关键词检索、概念检索、语义概念检索等,后者涉及到过滤原理、生成需求模板以及信息表示,以供参考。
关键词:信息检索;识别过滤;向量空间
引言:
近些年,网络的普及,人们越来越多地通过在线网络获取资料。
但海量数据资料降低了精确搜索信息的效率。并且检索界面扩大,也表示用户检索中,会收到更多的反馈信息,使得精准定位需要耗费相对较长的时间,不符合信息高速应用的现实诉求。
一、信息检索
(一)关键词检索
关键词匹配的检索方式是源于一个基本假设:在文件内包含和查询一致的内容时,才具有相关性。此种匹配方式属于表层检索,实际检全率不高,通常无法达到用户的查询需要。关键词检索的向量空间是把文档当成多个独立词汇组的集合体,并对各条赋予相应的权值,把整个集合看成多维度的坐标轴,继而形成向量空间。而文档映射是向量空间内某个点,由此实现把信息匹配调整成空间内的矢量匹配。
某个词条在文档内可获得的权值,一般需要经过两项计算综合得出,一方面是词条出现频率,另一方面是文档内包含该词条的信息个数与处理量。用户使用搜索引擎查询信息中,实际查询条件应满足向量化计算需要,通常借助布尔框架[1] 。
(二)概念检索
以概念检索的角度来看,其理论基础为人工智能方面的自然语言处理,其综合概念、知识维度,把操作者录入的内容实施扩展,换言之,检索系统在开展检索行为前,先基于扩展词表,将和查询词汇类意思相近的词汇找出,而后开展信息检索。其中,查询扩展处理是比较重要的技术,而词表是实现该技术的基础,如今构建词表一般有三类。首先,基于语言学,对词汇的语义进行扩展构造;其次,结合通用语言,完成数据统计,包括互信息等;最后,基于语言知识与统计数据,假设根据依存联系,进行词表扩展。经过扩展处理的检索,有显著的智能性。
(三)语义概念检索
此种检索方式是基于实际概念在语义层面上实施检索行为,具体处理扩展过程为:一是建立概念树,该环节涉及到的词条通常为名词及实体名词,实践系统构建中会基于现实用户需求设置不同数量的概念树。采取分类树方式构建词条的实际联系,并设置虚概念,以形成基本节点,此记成 0 层。而具有概念内容的部分建设分成:第一层为有显著概括性的内容,且分别属于各自的主题领域,比如软件、网络信息技术等;第二层则是对上一层的深度划分,比如软件能分成操作系统及程序语言等。而第三层是基于第二层的基础上,继续细分,比如操作系统,下设 DOS、Windows 等。二是标识概念。在整个结构上,各节点会有对应的标识代码,表示节点所在位置,并反馈出层次联系,对代码组加以描述。三是扩展匹配。在计算机操作用户录入检索内容后,先清理停用内容,整理出关键词序列,随后启动检索系统,基于概念树获取到关键词对应的代码,并确定与其有关的概念,生成概念序列。假设在查询系统内,无关联性的父概念,系统会自动搜索子概念,反之同理。倘若输入内容属于孤立节点,则不进行扩展检索。
(四)语义概念检索下向量空间
原始系统中向量空间把词条当做独立个体,未能考虑到各字条之间存在语义层面上的联系。孤立内容经过模型分析后,通常会和原文档有明显语义差异。对此,融合语义层次联系。经过实践运用,此空间模型的检索效果相对较好。因为概念树上有诸多层,且间隔偏远,无明显的相关性,所以选择仅考量父概念与子概念。假设查询内容中未出现特殊标识,则赋予权重是 1。
二、信息识别过滤
(一)信息过滤原理
实现信息识别过滤的方式极多,单就过滤方式上而言,能分成内容、网址及混合三类。首先是内容过滤,对信息内容借助文本分析以及图像识别等方式,阻隔不适宜内容。其次,网址过滤则是针对判断异常的网址实施控制,阻碍操作用户进入访问。最后是将上述两种过滤方式进行集约化处理,以限制部分数据的传播。若以预处理行为的角度而言,包含主动与被动两类。前者是对数据内容实施预先处理,对各网站及网页进行分级管理,并确定可访问的网站列表等,在实行过滤期间,能基于分级结果及地址清单判断是否可以访问。而后者则不开展预处理,在启动过滤后,才针对具体的数据资料进行分析,判断是否实施过滤行为。计算机用户因为长时间应用能形成较为稳定的状态,而实际信息需要应当能被计算机识别,并形成需求模板,用于反映数据。其能提供用户所需数据,也能反馈出希望消除的数据。假设系统内的数据未进行预处理,仅在数据进入系统后再实行分析处理,一般采用的匹配模型包括布尔、概率、聚类等,实际功能是消除无关联数据,并筛选出有联系信息,根据关联程度按照顺序向用户输出。
另外,为加快识别过滤效率,还需基于操作者本身对过滤后的输出内容反馈,调整系统需求模板,让其更为明确自身的数据需要,并促使需求模板愈发完善。在计算机系统内,需求模板形成与匹配、反馈等举均是关键点。基于当前的信息技术情况,不断推进全自动的过滤模式,为增强过滤实用性,通常会开展预处理[2] 。
(二)数据需求生成
数据需求的描述方式,一般状况下,借助计算机操作者填写表达的渠道,掌握用户实际需求偏好,该种处理方式较为简单且具有明显的经济性,但其缺陷是部分用户对自身需求无明确认知,对系统提供的关键词汇也极难选择。此外,此种设计模式比较被动,需要用户自行填写,无法动态了解实际需要,导致服务行为的被动性明显。对此,可采取以下方式处理:首先,借助固定文章集,掌握操作者过滤需要。
而固定文章集表示是从整体中提取具备代表性的内容,通过对文章实时评价,以此反馈出对数据运用的实际需要。该种方式能解决用户对自身了解不清晰的问题,并能拓展数据是实际表达空间,可以处理不同语种的内容。其次,根据实例掌握用户需求,此种确认数据需要的方式,是对文本数据实行结构分析,借助层次分析方式,提炼出内容特征,以生成用户模板,但仅限制在某个领域。再次,动态跟踪,在计算机终端设施信息代理,并把用户生成的数据资料传达到远程服务器上,通过数据整理分析,判断实际的数据倾向。比如,开拓浏览器中 bookmark 的功能,对用户数据实行动态管理,并基于该渠道输出推荐数据。最后,参考基于对象程序,系统管理者进行框架定义,随后训练数据需求定义,让用户借助抑制以及嫁接等渠道,把系统内原有数据定义,生成更完善的需求资料。
(三)信息表示与匹配
近些年,文档信息表示采取布尔框架、聚类、向量空间等。其中向量空间是相对较优的一类模型。其基本单位是信息的特征项,能包括字以及词等,全部特征项构成集合。文档能表示向量,且后者位数对应特征项集合总量,而向量中各分量代表某个特征项出现次数。若文档集 D={d i },||D||=S,其中||D||是指 D 集合内的元素量。而特征项 T={t i },||T||=M。由此特征项 t i 在文档 d i 的权重算法为:
其中,W ij 表示权重;tf ij 代表特征项 t i 在文档出现频率,是项频;df i 表示在 D 内包含特征项的文档总量,也就是文档频率[3]。信息匹配则通过分析查找信息和系统内各数据集合的相似度加以识别过滤。
结束语:
总而言之,在电子信息高速增长的过程中,通过精准数据检索可以让用户更快地获取所需资料。而基于数据信息识别过滤,合理的过滤模式,能强化信息利用率。未来,在信息检索及识别过滤依旧会是研究热点。
参考文献:
[1]周丹.多方法融合的智能终端检测及应用识别[D].导师:尚凤军.重庆邮电大学,2019.
[2]丁攀.基于贝叶斯网络分类算法的有害信息识别研究[D].导师:刘浩然.
燕山大学,2019.
[3]赵旭.基于图像识别的网络敏感信息过滤技术[J].电子技术与软件工程,2019,(01):178.