• 欢迎来到论文发表网(www.lunwenchina.cn),我们为您提供专业的论文发表咨询和论文发表辅导!
受“清朗”行动影响,原网站QQ被封,新老作者请联系通过新的QQ:189308598。或者电话微信:15295038855

你的位置:论文发表网 >> 论文库 >> 工学论文 >> 详细内容 在线投稿

垂直搜索引擎技术在武警部队心理数据库建设中的应用

热度0票  浏览121次 时间:2014年1月21日 10:35

垂直搜索引擎技术在武警部队心理数据库建设中的应用

孙纳新1,赖江轶1,王玉萍2

(1. 武警后勤学院信息技术教研室;2. 武警后勤学院附属医院心理科,300309)

摘要:垂直搜索引擎技术的发展使得大数据时代特定专业的信息获取成为可能,通过对武警部队心理数据库数据采集过程中

使用异步非阻塞聚焦爬虫策略,大大提高了数据采集性能。

关键词:垂直搜索引擎;爬虫;心理数据库

The Application of Vertical Search Engine Technology On

Construction of the Armed Police Psychological Database

Sun Naxin1,Lai Jiangyi1,Wang Yuping2

(Information Technology Department,Logistics University of Chinese People’s Armed police Forces,

Tianjin 300309,China )

Abstract The development of vertical search engine technology makes acquisition of specific professional

information possible in the big data era,we greatly improve the data collection performance with asynchronous

non-blocking focused crawler strategy in construction of the armed police psychological database.

Keywords Vertical search engines;The crawler;Psychological database

易出现心理问题,所以有关军人心理的研究工作已是当前部队

科研的一个重点;而结合武警部队实际,应用当前心理学最新研

究成果,则是现阶段武警部队心理工作的普遍方法。但针对我军

官兵心理特点的科学研究是近一时期才逐步发展并形成的,一方

面我们要检索具有武警部队针对性的文献资源,另一方面武警部

队自己的研究点滴也需积累。随着我军信息化进程不断深化,针

对武警心理研究文献资料的检索查阅以及经验累积已不仅是科

研人员的工作所需,也逐步成为基层官兵学习心理知识并调整自

身心态的一个有效的途径。因此,建立武警部队心理文献索引以

及心理研究数据的武警部队心理数据库具有极大的实用意义。本

文将主要论述如何利用垂直深度搜索引擎技术实现心理数据库

的数据采集和萃取。

1 搜索引擎技术

1 搜索引擎工作原理

搜索引擎技术是指用户通过查询界面输入搜索信息,通过网

络或数据库得到相关信息反馈的技术,搜索引擎的工作原理如图

1 所示。目前常用的搜索引擎有采用通用搜索引擎技术的囊括所

有学科和主题的综合性搜索(如google、百度等)、采用垂直搜索

引擎技术面向特定学科和专业的专业搜索引擎以及面向搜索引

擎的搜索引擎指南。垂直搜索引擎基于结构化数据和元数据的结

构化抓取,因此使抓取的数据更符合专业特点、有针对性,用户可

以利用这种技术从互联网、外部数据库抓取自己需要的信息构建

自己的数据库应用系统,利用垂直搜索引擎进行数据采掘的搜索

引擎技术是我们实现心理数据库信息采集的基础,如图2 所示。

搜索引擎主要是利用爬虫(Spider)程序去自动地在互联网

中搜索信息,主要有以下几个部分构成:数据采集(抓取)、数据

处理(筛选去噪去重)以及数据存储,图34 分别是它的体系结

构和系统结构。网页由文本、图片以及链接等元素构成,搜索引擎

根据用户需求,选定一个种子,利用爬虫开始抓取

另一个网页,遍历各个相关站点,把符合要求的页面抓取到索引

库采集资料。从数据采集的角度来看,用户关心的是数据资源,

Internet 上的网页以及数据库就是一个巨大的数据资源矿山,

搜索引擎是开采数据资源矿山的机器,具有搜索勘探、提炼萃取、

收集存储的功能。而对搜索引擎技术的研究就集中在各个采集阶

段,主要涉及到爬行策略(爬虫)、分词技术、索引(存储)、排序检

索算法等。

2 垂直深度搜索引擎技术与部队心理数据库

随着互联网信息化的深入发展,出现了大量业务型Web 应用

系统即Web 数据库。这些数据库的web 面之间的关系是非平行的

垂直逻辑关系,垂直搜索引擎应运而生。它针对某一特定行业对

网页库中的某类专门信息进行整合,可以定向挖掘专用数据进行

处理,再以用户需要的某种形式返回给用户。武警部队心理科研

成果、资源数据及心理学文献材料通常分散收录于多个文献数据

库以及某些特殊数据库内,不但检索查阅不便效率低下,其覆盖

范围也不足,经常存在“坏链”“死链”现象;采取通常方法检索,

其搜索结果均是基于关键字的简单拆分查询,不具备高级关键字

分析处理功能,更达不到心理领域的专需效果,而且各文献数据

库产品不同形式的人机交互界面(UI)也为科学检索带来了不便,

因此利用垂直搜索引擎技术完成心理学专业相关的信息采集,设

计并研究开发一套武警部队心理领域专需数据库,包括文献、成

果、数据资源是我们的出发点。

分析搜索引擎的工作过程以及实际建库需要,其要完成的是

一个人工智能系统,就是借助爬虫技术反向解析网络数据库大海

中最原始的数据,取出数据,组织建立自己的数据库。也就是说爬

行策略的核心是以用户关注的内容为根本,通过一种有效的方法

将内容相关的WebPage 重新分类,这需要爬虫通过多路径搜索对

网页进行遍历, 制定爬行策略,对每个工作步骤进行优化设计。

武警部队心理数据库所需数据目的明确、专业特性非常强,

适合使用垂直搜索。在实际操作过程中,我们使用了垂直深度搜

索引擎技术利用聚焦爬虫获取心理文献数据。其原理是:爬虫要

访问的文献数据库一般比较固定(如中国知网),爬取数据时,外

层采用通用方法进行主题聚焦,对爬取到的数据进行特征分析,

定位分析,制定爬虫爬取深度,通过一层层定位分析,将数据从最

底层爬取出来。

3 性能优化的技术实现

由于心理数据库主要是针对特殊站点爬取大量的原始数据,

其速度、爬全率以及稳定性是我们考虑的重点,因此在我们的实

验中重点做了数据采集阶段爬虫性能上的改进研究。通常数据采

集阶段的爬虫使用多线程并行采集(图5),由于这种同步方式线

程太多,发一次请求响应一次,若采集量较大则需要等待挂起,会

引起阻塞,造成死机现象,因此我们采取了异步非阻塞的单线程

方法进行采集。这种串行异步单线程采集方式,可以连续发送请

求,一次发送多个请求,进入队列进行等待回答,因此不会引起阻

塞;另外由于抓取URL 后系统要通过DNS 解析分析对URL 进行

分析、消重去噪,在DNS 解析时采取多线程分析,可以缩短系统解

析时间;对垂直深度聚焦爬虫,由于采取的是针对某类服务器进

行数据抓取,其ip 地址固定,将DNS 进行缓存,可以实现一次解

析多次抓取的通道全连接模式,直到完成所有请求之后才断开连

接,大大提高了采集性能。另外在此过程中,增加容错设计,若某

URL 抓取不成功,设定阈值,防止死锁,并将其缓存到另一台服

务器上,必要时再重新抓取。

经过上述技术处理后,数据采集爬虫的性能得到了大幅提

高。以下是抓取结果对比:

1 抓取网页对比

4 结论与改进

搜索引擎技术的发展使得大数据时代的专需数据不至于被

淹没在信息大海中采集不到,但要想数据采集的准确、全面需要

在搜索引擎工作的各个阶段进行深入研究提高性能。本文采取异

步非阻塞的爬行策略对心理数据库所需资源进行了垂直深度搜

索,数据采集性能上有很大提高,下一步将要进行的工作是心理

专用分词技术以及排序检索算法的研究。

参考文献

[1] 李晓明, 闫宏飞, 王继民. 搜索引擎——原理、技术与系统

(第二版)[M]. 科学出版社.2012.5

[2] 王晓艳, 于光华,刘双春. 经典搜索引擎排序算法的比较与

分析 [J]. 产业与科技论坛.2012.(11).24:49-51

[3] 马慧. 面向特定网页的Web 爬虫的设计与实现 [D]. 吉林大

学大学.2012.12

[4] 邱晓俊. 面向特殊主题的排序与检索算法研究[D]. 江西理

工大学.2011.12

[5] 焦赛美. 网络爬虫技术的研究[J]. 琼州学院学报.2011.

(18).5:28-30

[6] 罗武,方逵,朱兴辉. 网络搜索引擎排序算法研究进展[J].

湖南农业科学.2010.7 137-140

[7] 刘喜亮. 面向主题的网络爬虫设计与实现[D]. 湖南大

.2009.6



中国论文网(www.lunwenchina.cn),是一个专门从事期刊推广、论文发表、论文写作指导的机构。本站提供一体化论文发表解决方案:省级论文/国家级论文/核心论文/CN论文。

投稿邮箱:lunwenchina@126.com

在线咨询:189308598(QQ) 

联系电话:15295038855(徐编辑)  

 

TAG: 技术 数据库 搜索引擎
上一篇 下一篇
0

联系我们