日本高清情影片乐派影院_ ┬佳冶┭-会东建设局
淘宝减肥药排行榜十强
只推淘宝安全有效的减肥药

当前位置:日本高清情影片乐派影院 > 减肥产品

日本高清情影片乐派影院

时间:2020-05-27 22:05  编辑:wendj

课题检索课程报告课题

名称

搜索引擎模型研究

课题分析

课题概述:

在快速发展的今天,我们越来越多的东西要同通过网络来实现某些东西或者工作,而现在各种网络视频纷纷都在网上发布,网络信心正在迅猛增长,人类已经步入信息爆炸时代。人类现在的存储能力变得很有限,尽管人类能够通过专业的训练减少信息的遗忘率,但是效果不是很明显。人类已经被膨大的信息量所淹没,很难快速准确的找到所需要的东西。于是我们必不可少的要用到网上的搜索引擎,关于搜索引擎的技术,在今天这个课题里,我要向老师仔细汇报一下我通过学习了解到的搜索方面的技巧以及知识细节.

因特网的迅猛发展,网上信息以爆炸性的速度不断丰富和扩展,为使因特网用户能在浩潮无边的信息海洋中迅速、准确地获取所需要的信息,人们开发出了搜索引擎.搜索引擎实际上是一个网站,这些网站通过网络搜索软件(也称网络搜索机器人)或网站登录等方式,将因特网上大量网站的页面收集到本地,经过加工处理后放入索引库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息.目前网上搜索引擎已多达数千种,有资料表明,在中国网民中,搜索是排在电子邮件之后的第二大互联网应用.

搜索引擎的使用性能如何是用户关心的问题.面对如此众多的搜索引擎,合理地评价一个搜索引擎的性能,对用户的有效地选择,对搜索引擎的改进和发展都将有很大帮助.搜索引擎性能的评价一般采用定性或定量的方法,但随着基于网络信息资源的网络信息计量学的发展,定量评价方法将占主导地位.由于搜索引擎是一个提供网上信息“检索”服务的网站,它有别于传统的信息检索工具,一方面搜索引擎的技术必须不断更新以适合因特网的发展,这就使得目前搜索引擎的评价指标繁多且变化较快;另一方面在搜索引擎评价指标中有许多指标具有不确定性,它们的数量很难精确给出,而这种不确定性又往往为模糊性.所以在搜索引擎定量评价方面适合利用模糊数学进行处理,这种评价的结果将更合理.本文首先确定合适的评价指标体系,然后采用模糊多性属决策方法对搜索引擎的综合评价问题进行研究,为定量的评价搜索引擎提供了一种途径.

对于搜索引擎进行系统的分析,并在网络上各个数据库上检索出我们所需要的结果。然后进行归类,将我们需要的东西进行一一归纳。其中文章中包含了大量的公式与分析图。将一些数据形象的罗列出来。

将搜索引擎模型的研究做到更加细致的搜索,我用到了如下数据库 1.中国知网(CNKI)2.万方数据3. SPRING_LINK 4.读秀学术搜索5.Google学术搜索6. Google 英文学术搜索进行检索,将结果以题录、全文和截图的形式做出来。将搜索模型的研究这个课题做的更加的透彻。

最后,在这几个星期的学习中,真正的学到了关于文献检索的知识,并在这次课题实际应用到位。

文献类型■期刊论文;□科技报告;□会议论文;□图书;其它:截图

结果形式■全文;□摘要;■题录;□数值;□事实;□网站其它:截图检索年限2005~2008语种中文,英文其它限定无

检索需求类型:课程论文

主题概念/检索词:

搜索引擎,模型研究

Search engine,Model Research

检索工具(数据

库)1.中国知网(CNKI) 2.万方数据

3. SPRING_LINK

4.读秀学术搜索

5. Google学术搜索

6. Google英文学术搜索

检索策略(检索途径与检索式)数据库1.

题名=搜索引擎并且关键字=模型研究

匹配:精确

词频=2

检索年限:2008-10-23~2010-10-23

数据库2.

标题中包含:搜索引擎

关键词中包含:模型研究

发表日期:2008~2010

数据库3.

CONTENT:search engine(ONLY TITLE&ABSTRACT) Publication Dates Between:2008-2010

数据库4.

全部字段:搜索引擎模型研究

限定年度范围:2008-2010

数据库5.

关键字:搜索引擎模型研究

实践年限:2008-2010

数据库6.

Title:Search engine and keywords:"Model"

Between 2008 and 2010

数据库1

(

)

搜索引擎综合评价模型研究

刘正春

(嘉兴学院数学系,浙江嘉兴314001)

摘要: 首先给出了搜索引擎评价指标体系及计算公式,然后讨论了各指标权重的确定方法,在此基础上,利用多目标决策理论建立起搜索引擎综合评价数学模型,并通过具体实例说明了模型的使用.

关键词: 搜索引擎;检索工具;多目标决策;综合评价

1 引言

因特网的迅猛发展,网上信息以爆炸性的速度不断丰富和扩展,为了使因特网用户能在浩瀚无边的信息海洋中迅速、准确地获取所需要的信息,人们开发出了搜索引擎.搜索引擎实际上是一个网站,这些网站通过网络搜索软件(也称网络搜索机器人)或网站登录等方式,将因特网上大量网站的页面收集到本地,经过加工处理后放入索引库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息.有资料表明,在中国网民中,搜索是排在电子邮件之后的第二大互联网应用.因此,建立搜索引擎综合评价数学模型,系统、客观地对搜索引擎进行综合评价,具有较大的现实意义和应用前景.本文首先给出搜索引擎主要性能评价指标体系,并对如何确定各指标权重进行了研究,最后利用多目标决策理论给出了搜索引擎性能的综合评价数学模型.

2.4 检索效果评价指标

搜索引擎检索效果指标由查全率、查准率和检索时间三部分组成.但在Inter网上信息瞬息万变,今天存在的信息,明天可能就消失了,同时又将出现更多的新信息.继续采用传统意义上的查全率和查准率将无法进行操作,这里给出相对查全率和查准率及计算方法.

1)相对查全率

在时间T内,设Ai(i=1, 2,…,m)为第i个搜索引擎,Xj(j=1, 2,…,n)为取自不同检索课题的不同检索词.得矩阵

aij为第j个检索词在Ai搜索引擎上查询时返回的记录数.令

用Abest= (a*1,a*2,…,a*n)表示对不同检索课题的不同检索词,查询时返回记录数均为最多的搜索引擎,这是一种理想情况,在查全性能方面Abest可称为理想搜索引擎.Aworst=(b*1,b*2,…,b*n)表示了查询时返回记录数均为最少的搜索引擎,这是最不理想的情况.

刻划了搜索引擎Ai在查全方面与Abest接近的程度,ai越小Ai搜索引擎查全性能相对越好.而

反映了搜索引擎Ai在查全方面优于Aworst的程度,为此定义搜索引擎Ai的相对查全率如下:

可看出, 0 R(Ai) 1,当Ai为Abest时,R(Ai) = 1;当Ai为Aworst时,R(Ai) = 0.

2)相对查准率

相对查准率基本思想是对选取不同检索课题的不同检索词X1,X2,…,Xn,确定一个相关性范畴的等级,对不同的等级给出权数.每个检索词Xi(i= 1, 2,…,n),给出前N条命中记录查准率P(Xi),P(Xi)是由分子和分母组成,分子由如下方法确定:将前N条记录分成若干组,每组分配一个权数,前N条记录中的每条记录都将对分子贡献一个值,这个值由该记录属于哪个相关性范畴和组而定,所有记录的累加值构成了分子.分母一般为N的函数,这个函数和分组的权系数有关,这样搜索引擎A的相对查准率表示为

.

显然,相关性范畴等级划分的越细,N取的越大,相对查准率将越精确合理.但考虑到

可操作性及实验成本,相关性范畴分三等级,取N= 30为宜.

1)相关性范畴等级和权数

8数学的实践与认识

范畴1:检索出文献为重复、不相关链接或字面有一定联系,但内容信息无用或死链.该

范畴权数为0.

范畴2:检索出文献有相关信息,但不详尽,或结果中包含了范畴3信息的链接.该范畴权数为0.5.

范畴3:检索出文献有详尽、丰富的探讨和论述,有丰富的相关链接.该范畴权数为1.

2)P(Xi)的计算方法

将前30条记录分为4组,记为J1= {1, 2, 3},J2= {4, 5,…, 10},J3= {11, 12,…, 20},J4= {21, 22 ,…, 30}.对每条记录j(j= 1,2,…N当返回记录数30时,N取为30,否则N为实际返回记录数.)令

f(j)给出了每组的权系数,g(j)确定了记录j的相关性系数.f(j)g(j)表示了记录j对分

子的贡献值,这样

决定了P(Xi)的分子,令

M(Xi)为N的函数,作为P(Xi)的分母.这样可得,P(Xi) =H(xi)/M(xi),当N= 0时,P(Xi) = 0计算出

,

P(A)的值就称为搜索引擎A的相对查准率.

3)检索时间:

检索响应时间检索者也十分重视,有些搜索引擎会给出检索用时,如Google、百度等,而有些并不给出检索用时,如雅虎、网易等.实际上,检索者更关心的是检索开始到显示检索结果这段时间,但这个时间将受到网络速度、硬件设备等绪多因素的影响,故亦可采用统计方法确定检索时间.

3 搜索引擎综合评价模型

3.1 构建决策矩阵

由于搜索引擎有多个评价指标,下面利用MADM方法研究评价模型.设Tj(j=1, 2,…, 9)为第j个评价指标,Ai(i=1, 2,…,m)为第i个搜索引擎,决策矩阵为D=(xij)m×9.对D

进行标准化处理,Tj为“效益型”指标时,令

Tj为“成本型”指标时,令

,xjmin和xjmax为决策矩阵中各指标的最大和最小值,当xjmin=xjmax时,取rij= 1,

由此得标准化决策矩阵R= (rij)m×9.

3.2 评价指标权重的确定

在多目标决策中确定权重的方法有多种,主要分两类:一类是主观赋权法,如Delphi99期刘正春:搜索引擎综合评价模型研究

法、AHP法等;一类是客观赋权法,如主成份分析法、熵值法等.两类赋权法各有优缺点,这

里将两种方法结合起来确定权重,使确定的权重更为合理.首先按照评价指标给出如

下递

阶层次结构:

由AHP法,按Saaty标度确定各指标的权重向量为:ω′= (w′1,w′2,…,w′9),这样确定的权重并没有利用决策矩阵的信息,带有评价者的主观性和偏好性.而熵值法最大特点是利用决策矩阵来计算权重,可利用熵值法计算的权重来对ω′进行修正,以便得到的权重更为合理.由决策矩阵D= (xij)m×9定义

熵是信息不确定性的度量,hij为j评价指标下Ai搜索引擎的贡献度,认为贡献度包含了一

种信息,熵

表示所有搜索引擎Ai对j评价指标的贡献度,当Ej趋于1,各搜索引擎对j评价指标的贡献

度趋于一致,此时认为j评价指标作用不大.

定义dj= 1 -Ej得由熵值法计算的权重为λ= (λ1,λ2,…,λ9)这里

利用λ对ω′进行修正,可计算出最终权重为:

其中:

3.3 综合评价模型

评价指标权重确定以后如何产生综合评价结果,多目标决策分析中有许多方法,下面采LECTRE法研究综合评价问题. ELECTRE法也称优劣系数法,其主要思想是:利用权重和决策矩阵对每一对评价对象给出优、劣系数,构造优势矩阵和劣势矩阵,并且对优、劣系数给出阈值,阈值可利用优、劣势矩阵得到也可人为给出,最后得到总体综合优势判定矩阵.然后利用判定矩阵淘汰劣对象,在淘汰过程中可进一步调整阈值,以便得出满意的评价结果.下面给出具体算法.

1)计算加权标准化矩阵

由ω=(w1,w2,…,w9)标准化决策矩阵R=(r ij)m×9得加权标准化矩阵:V=RW=

(vij)m×9,其中

2)确定优、劣势矩阵

令K= {k k= 1,2,…,9}为评价指标标号集,每一对搜索引擎A i和A j(i,j= 1, 2,…,m;i≠j)按评价指标值将K分为互补的两个子集:优势集C ij= {k rik rjk}; 劣势集D ij= {k rik<rjk}。

令c ij=∑k∈C ij wk,c ij称为优系数,显然0 c ij 1,cij越大,说明搜索引擎Ai越优于Aj.

构成优势矩阵

d ij称为劣系数,同样有0 d ij 1,d ij越大,说明搜索引擎A i越劣于A j.构成劣势矩阵

3)确定综合优势判定矩阵

对优系数c ij和劣系数d ij分别确定阈值c-和d-,阈值可事先确定,也可由下式计算而得

当cij c-时,可认为搜索引擎Ai优于Aj,当dij d-时,认为搜索引擎Ai不劣于Aj,这样可得优势判定矩阵F= (fij)m×m,其中

和劣势判定矩阵G= (gij)m×m,其中

最后得综合优势判定矩阵:E= (eij)m×m,其中eij=fij·gij(i,j= 1,2,…,m;i≠j).

4)确定评价结果

在综合优势判定矩阵E中,如果eij= 1,说明从优、劣两方面看,搜索引擎Ai都优于Aj,应淘汰Aj,而Ai不被淘汰的条件是:

在实际操作中,可直接观察矩阵E,如果Aj所对应的列上只要有一个1就淘汰Aj,保留那些对应列上全为0的搜索引擎,当逐步调整阈值时,就可对搜索引擎优劣进行排序.亦可利用MATLAB自动完成排序.

4 应用举例

设参加评价的搜索引擎为Ai(i= 1,2,…,5)经过计算各指标的值得出决策矩阵为:

标准化处理后得:

由AHP法确定各指标的权重为:

X C= (0.09, 0.18, 0.11, 0.04, 0.15, 0.26, 0.08, 0.06, 0.03)

利用熵值法计算的权重为:

K= (0.1057,0.1153,0.1094,0.1029,0.1105,0.1057,0.1292,0.1047,0.1166)

用λ对ω″进行修正,最终权重为:

X= (0.0860,0.1877,0.1088,0.0372,0.1499,0.2486,0.0934,0.0568,0.0316)

由计算结果可看出各指标权重的排序没有发生变化,但比例分配更趋于合理.计算加权标准化矩阵得:

12数学的实践与认识34卷

计算优、劣势矩阵得:

计算阈值c-和d-得:c-= 0.5354,d-= 0.7313.得优、劣势判定矩阵:

最后得综合优势判定矩阵:

由矩阵E可看出搜索引擎A1、A2和A4被淘汰,A3、A5为优.当调整c-=0.3;d-=0.8时,A5 被淘汰,A3最优,继续调整阈值c-和d-可得优劣顺序为:A3>A5>A1>A2>A4.

5 结束语

本文较全面地研究了搜索引擎综合评价问题,但由于Internet的飞速发展,也将促进搜索引擎技术的进步,性能的提高.这些都将影响到评价指标体系确定的合理性及评价模型的适用性.如何建立一个高效的、具有易操作性的评价模型是今后需进一步研究的问题.

文献:

[1] 韩圣龙.网络信息检索评价指标[J].情报学报,2001, 20(4): 471—477.

[2] 陶跃华等.因特网搜索引擎评价系统[J].计算机工程与科学,2001,23(3): 25—27.

[3] 刘正春,王坚毅.搜索引擎的多目标评价体系[J].嘉兴学院学报, 2002, 14(6): 65—67.

[4] 王莲芬,许树柏.层次分析法引论[M].北京:中国人民大学出版社,1990.

[5] 宣家骥.多目标决策[M].长沙:湖南科学技术出版社, 1989.

数据库2

搜索引擎中信息检索模型的研究

杜暖男马莹莹

(平顶山工业职业技术学院)

摘要随着互联网的快速发展,,已越来越离不开搜索;I擎的使用,本文主要研究在搜索引擎设计过程中常用的几种信息索模型。

关键词:布尔模型向量空间模型概率模型

信息检索系统的核心是搜索引擎,它需要从大量的信息中筛选出符合用户需求的信息。例如,用户希望从信息库中查询有关计算机网络产品销售方面的信息,如果查询出的结果为计算机软件产

品方面的信息,则不能满足用户的需求。根据搜索引擎查找相关信息方式的不同,可将信息检索分为:布尔模型(Boolean Modcl)、向量型(Vector Space Model)以及概率模型(Probabilis Model)

1 布尔模型

布尔模型是最简单的检索模型,也是其他检索模型的基础。设文本集D=(d1.d2,d3,…,d11), di(i=l“一文档;又设Ti=(til,ti2,….tim)为di的标引词Q=-wlAW2^…AWk的检索式,如果W1∈Ti,W2∈di为查询Q的命中文档,否则di为Q的不命中文档;而对Q=W1 VW2V…V Wk的检索式,如果至少存在某个wj∈Ti2.…,k),则di为Q的命中文档,否贝lJdi为不命中文档。

用户根据所检索关键字在检索结果中的逻辑关系递交查询,查询模块根据布尔逻辑的基本运算法则来给出查询结果。

布尔检索模型原理简单易理解,容易在计算机上实现并且具有检索速度快的优点。但是Boolean 模型存在着一些缺陷。

它的检索策略是基于二元判定标准(binary decision criter(例如,对于检索来说一篇文档只有相关和不相关两中状态),缺文档分级(rank)的概念,限制了检索功能。

虽然布尔表达式具有精确的语义,但常常很难将用户的信息需求转换为布尔表达式,实际上大多数检索用户发现在把他们所需的查询信息转换为布尔时并不是那么容易。

2向量空间模型

向量空间模型将文档映射为一个特征向量V(d)=(t(d);…;0∞。(d)),其中t(i=1,2,…,n)为条项,m,(d)为t在dee的权值,一般被定义为‘在d中出(d)的函数,即∞(d)=y(研(d))。在信息检索中常用的方法为TF-IDF函数y=if(a)×Iog(鲁),其中N为所含有词条t,的文档数目。TF—IDF 公式有很多变种,下面是一个TF一1DF公式.

根据TF—IDF/z.,。式,文档集中包含某一词条的文档越多区分文档类别属性的能力越低,其权值越小;另一方面,某一文档中某一词条出现的频率越高,说明它区分文档内容属性的能力越强,其权值越大。两文档之间的相似度可以用其对应的向量之间的夹角余弦来表示,即文档dj,d 舯相似度可以表示为:

进行查询的过程中,先将查询条件Q进行向量化,主要依据布模型:当k在查询条件Q中时,将对应的第i坐标置为l,否则置为0即

从而文档d与查询Q的相似度为

根据文档之间的相似度,结合机器学习的一些算法如神经网络算法,K-近邻算法和贝叶斯分类算法等,可以将文档集分类划分为一些小的文档子集。在查询过程中,可以计算出每个文档与查询的相似度,进而可以根据相似度的大小,将查询的结果进行排序。向量空间模型可以实现文档的自动分类和对查询结果的相似度排序,能够有效提高检索效率;它的缺点是相似度的计算量大,当有新文档加入时,则必须重新计算词的权值。

3概率模型

概率检索模型是在布尔模型的基础上为解决检索中存在的一些不确定性而引入的。基于贝叶斯概率论原理的概率模型不同于布尔和向量空间模型,它利用相关反馈的归纳学习方法,获取匹配函数;给定一个用户的查询串,相对于该串存在一个包含所有相关文档的集合,我们把这样的集合看作是一个理想的结果文档集,在给出理想结果集后,我们能很容易得到结果文档。这样我们可以把查询处理看作是对理想结果文档集属性的处理。问题是我们并不能确切地知道这些属性,我们所知道的是存在索引术语来表示这些。由于在查询期间这些属性都是不可见的,这就需要在初始阶段来估计这些。

初始阶段的估计允许我们对首次检索的文档稽核返回理想的结果集,并产生一个初步的概率描述。为了提高理想结果集的描述概率,系统需要与用户进行交互式操作。具体处理过程如下:用户大致浏览一下结果文档,决定哪些是相关的,哪些是不相关的;然后系统利用该信息重新定义理想结果集的概率描述;重复以上操作,就会越来越接近真正的结果文档集。概率检索模型有多种形式,常见的为第二概率检索模型,首先没定标引词的概率值,一般是对检索作业重复若干次,每一次检索用户对检出文档进行相关性判断。再利用这种反馈信息,根据每个词在相关文档集合和无关文档集合的分布情况来计算它们的相关概率,将词的权值设计为:

其中P,P’分别表示某词在相关文档集和无关文档集中出现的概率。某一文档的权值则是它所含的标引词权值之和,于是,文档d与用户查询Q相关概率可定义为:

分别为w_良相关文档和无关文档中的概率。上式中右边和式是对所有出现在文档d和查询Qee 的词W求和,即w∈df-IQ概率模型有严格的数学理论基础,采用了相关反馈原理克服不确定性推理的缺点,它的缺点是参数估计的难度比较大,文件和查询的表达也比较困难。

4小结

一般情况下,布尔模型被认为是功能最弱的方式,它的主要问题在于不支持部分匹配,降低了系统的功能;概率模型是否要比向量模型好还存在争论,但现在向量模型使用的比较广泛。作者简介杜暖男(1982一),软件工程硕士,平顶山工业职业学院教师.工程师,主要从事计算机软件技术专业教学和管理工作。

(收稿日期:2009—09—8)

数据库3

Intelligent Search Engine

...challenge is to provide efficient search mechanisms for image content that...infrastructure for building a search engine for image content capitalizing on...

Akrivi Vlachou, Christos Doulkeridis, Dimitrios Mavroeidis and Michalis Vazirgiannis

Lecture Notes in Computer Science, 2008, Volume 4918, Adaptive Multimedial Retrieval: Retrieval, User, and Semantics, Pages 182-195

Search Engine Information Retrieval Model

Web search personalization aims to adapt search...obtained with a Web search engine. An evaluation conducted with a...

David Vallet, Iván Cantador and Joemon M. Jose

Lecture Notes in Computer Science, 2010, Volume 5993, Advances in Information Retrieval, Pages 420-431 Quantitative Evaluation of Search Engine

...have been tested on several search engines implementing different indexing models. The...

Jesüs Vilares, Manuel Vilares and Miguel A. Alonso

Lecture Notes in Computer Science, 2001, Volume 2113, Database and Expert Systems Applications, Pages 887-896

Personalized Meta Search Engine Model

...Inverted File indexes in Web Search Engines has received a lot of...

Fabrizio Silvestri

Lecture Notes in Computer Science, 2007, Volume 4425, Advances in Information Retrieval, Pages 101-112 Intelligent Agent-Based Personalized Search Engine Model

...importance and magnitude of Web search engines. Systems based on a single...

Fidel Cacheda, Victor Carneiro, Vassilis Plachouras and Iadh Ounis

Lecture Notes in Computer Science, 2007, Volume 4425, Advances in Information Retrieval, Pages 124-135

A Heuristic Search for Relevant Images on the Web

...based on keyword-based web search engines. User’s interaction is involved...

Feiyang Yu, Horace H.S. Ip and Clement H. Leung

Lecture Notes in Computer Science, 2005, Volume 3568, Image and Video Retrieval, Pages 599-608 Maintaining Equilibria During Exploration in Sponsored Search Auctions

...click-through rates in sponsored search auctions with minimal effect on...pricing policies of the search engine and only introduces one set...

John Langford, Lihong Li, Yevgeniy Vorobeychik and Jennifer Wortman

Algorithmica, 2010, Volume 58, Number 4, Pages 990-1021

Constrained Score+(Local)Search Methods for Learning Bayesian Networks

...to the data, and a search procedure, that explores the space...of hill climbing as search engine. Our proposal consists in the...

José A. Gámez and J. Miguel Puerta

Lecture Notes in Computer Science, 2005, Volume 3571, Symbolic and Quantitative Approaches to Reasoning with Uncertainty, Pages 161-173

Intelligent Search Engine

With the rapid deVelopment of the network and computer science technology, many types of data(e.g.text,image,audio,Video etc.)haVe appeared in the Internet.Besides,the amount of web inf6rmation increase in exponential rate and the peopIe’sability of store data are solimited.Although the fbrgetting rate of human can bereduced in some degree through profbssional trains,it can not reconcile this conflict.So,how to locate the required infbrmation rapidIy and accurately in the Internet is af6cused question which people are Very interesting.The current technology of searchengine can satisfy people’s need to some extent,but ithaVe many inherent

defects tobe attacked.

The major works of this paper can be generalized with three aspects:

1.Demonstrates the system structure and defects of the three kinds of searchengine.

Based on the analysis,the architecture of aninteIligent search engine isproposed.This architecture absorbs the adVantages existed inthe independent ormeta search engine.These improVements of the new system decrease the topicsensitivity and the scale of information interaction.

2.Some methods are appIied to increase the intelligence of the system.

Firthrough anaIyzing the static distribution and dynamic eVolution of the user interestan algorithm isproposed flor constructing and adjusting user interest model.Tmodel isused to obtain personal result list fbr one same query.SecondIy, papespecifies the aff ction of the tags to aquery item and the traditional automaabstracting technology isextended based on the Chinese syntax.Thirdly,In order to。decrease the topic sensitiVity,a dynamic strategy of the independent search enginset isproposed.

3.Three most popular web page ranking algorithms are discussed.

newalgorithm called A—PageRank isproposed inthis paper.A—PageRank isone of theimproVed PageRank algorithms.It uses the set of anchor text as the substitute of the web page topic and the PageRank value ofone source page is distribuproportionalIy to its link—out pages based on the topic similarity.At the same time,aseries of experiments are carried out to prove the effectivity of the new algorithm

Keywords:User interest model;Anchor text;Primary feature term;A—Pa

数据库4

个性化元搜索引擎模型研究

孟星,丁振国

摘要:在分析了传统搜索引擎以及现有元搜索引擎不足之后,提出了基于Agent的个性化元搜索引擎模型,与传统的元搜索引擎系统相比改进了系统的运行效率,同时给出了基于用户反馈的个性化QR-加权重排序算法,将检索结果的排序质量以及文档的相关度在重排序中加以考虑,与传统的线性重排序算法相比提高了查询的准确程度。

关键词:Agent;个性化;元搜索;用户反馈

1引言

目前人们在WWW上查找信息的主要工具是搜索引擎,在信息量浩如烟海的Internet上找到满足用户需要的信息,是一项极富挑战性的工作。一个搜索引擎成功与否是由用户对其搜索结果的满意程度决定的,现有的传统的搜索引擎的发展,一方面使其实用性不断加强,部分解决了人们的信息搜索问题;另一方面,由于其自身的局限性,限制了人们对资源更有效的获取。元搜索引擎[1]是基于搜索引擎的一种改进方案,它将用户的查询请求转发到多个搜索引擎,以它们各自的请求格式,取回它们的检索结果并进行处理,将最后结果反馈给用户。元搜索引擎没有自己独立的数据库和索引机制,而是在其他搜索引擎的大型数据库上实现其检索,它提供给用户一个全局外部模式,接受用户的输入请求,在存储设备上比传统的搜索引擎要小得多,却使得信息的更新和覆盖率大大地提高了,然而元搜索引擎却仍然存在以下两个问题[2]:首先,同样的查询词不同的搜索引擎对用户的理解会不同,因此调用的不同引擎的差异性会造成查询结果的查准率较低;其次,要调用不同的引擎,因此检索效率会有一定的影响,特别是随着引擎的增多,效率会越来越低。传统的元搜索

引擎模型在检索效率上存在很大的问题。针对以上两个问题,提出了一种基于Agent[3]个性化信息检索的模型,基于用户反馈的结果重排序算法和智能Agent的应用不同程度地解决了上述的问题。

2相关工作

2.1传统的元搜索引擎

传统的元搜索引擎结构如图1,用户通过Web浏览器访问元搜索引擎,从用户接口提交要查询的内容。检索服务器就将检索请求转换为各个独立搜索引擎的检索格式,然后调用相应的成员引擎。各成员引擎以并行的工作方式查询分配给其的检索任务,并将结果统一返回给检索服务器[4-5]。服务器根据各成

员引擎的重要性和检索结果的相关度,对结果进行融合处理,并将最终的返回结果显示给用户。

这个最初的元搜索引擎结构,有元搜索引擎普遍存在的问题,即检索准确率和检索效率不高,由于它是集中式的系统,当处理大量的数据时,计算机的有限处理能力就会成为处理结果和检索速度的瓶颈,许多研究人员已经做了很多的工作,研究结果显示,一个分布式的元搜索引擎系统,检索效率明显优于集中式的系统。

2.2 Agent技术[6]

Agent技术是当前人工智能领域发展最快的技术之一,它的自主性、主动性、反应性、移动性、社会性和智能性等特点使其优于传统的分布式技术,将Agent技术与搜索技术相结合,主要是希望Web信息检索更加智能,在网络与分布式环境下,每个Agent是独立自主的,能作用于自身和环境,能操纵环境的部分表示,能对环境的变化作出反应,更重要的是能与其他Agent通信、交互、彼此协同工作,完成共同的任务。例如,在信息检索系统中,学习Agent使得系统更具有学习的能力,能够捕获用户不断变化的兴趣,过滤掉用户无关的信息,而针对元搜索引擎的检索效率问题,移动Agent利用它的异步、移动计算能力,并行检索能力,使得其能够节约网络带宽,减少网络延时,从而提高检索效率。

3基于Agent的个性化元搜索引擎模型

3.1模型的提出

为了解决传统元搜索引擎的诸多问题,提出了一种基于Agent的个性化检索模型,如图2。

与传统结构不同之处在于,检索服务器在收到用户检索请求的时候,根据引擎评价库进行成员引擎的选择,并同时创建一个或多个移动Agent,并行将其分配到各个代理服务器上,移动Agent 携带查询词分别送给每一个引擎Agent,引擎Agen将查询词转化为各大搜索引擎适用的格式,连接各个搜索引擎并取回结果,之后移动Agent将携带结果返回给协作Agent,协作Agent对其进行结果融合后,并返回给用户,而学习Agen通过用户反馈,进行结果重排序,将用户感兴趣的信息优先显示给用户,并更新引擎性能评价库。在这个模型中,用到了分布式的思想,并且加入了引擎Agent、协作Agent、移动Agent以及学习Agent,共同协作完成个性化检索。

3.2基于用户反馈的重排序算法

用户反馈的研究,本文主要涉及用户的点击行为,很多研究[7]对用户点击(clickthrough)这一行为做了详尽的调查,最终的实验结果说明了用户的点击数据是良莠参半,点击数据确实能够说明用户的兴趣,但是点击数据却包含了许多的噪音,需要有针对性地进行处理。噪音主要包括两方面的因素:信任偏差(trust bias)以及质量偏差(quality bias)。信任偏差表示由于用户对搜索引擎的信任,用户往往倾向于点击排序靠前的文档,而不一定是最相关的文档。质量偏差指的是当前排序结果的质量对用户点击文档的影响。通过相关性分析,验证了当排序结果质量较差时,用户的点击文档相关性较低,因此当前检索结果的质量将会影响用户点击的质量。

3.2.1排序质量的衡量指标

对于一个排序质量的指标确定非常关键,而DCG(Dis-Counted Cumulative gain)[8]是用来衡量一个排序结果质量的指标。DCG指标所刻画的是一个排序结果的真实质量。但是在一个真实的检索过程中,由人工对每个排序结果进行手工标志相关度,这是不可能做到的事情。因此DCG 指标只能应用于实验过程,而在真实的检索过程无法使用DCG来评价一个排序结果的质量。因此需要一个不用任何人工干预即可计算能够得到的指标。本文利用衡量搜索引擎排序结果质量的指标QR[9],该指标能够用于衡量一个文档排序结果的质量。在实际的检索过程中,该指标不需人工干预即可计算得到,而以往的指标都需要有人工标注的结果集才可计算。给定用户的一次检索意图q 以及初始的一个文档集合{d1,d2,…,dn},设理想的排序结果为<d1,…,di,di+1,…,dn>, <d1,…,di>为相关文档(即<d1,…,di>的相关度大于用户对检索结果的最小期望阈值),而<di+1,…,dn>为不相关文档集。而理想的结果集应该具有相关文档相似以及不相关文档与相关文档不相似的特点,用radius表示相关文档的半径,ratio表示不相关文档中相关文档的比例。因此定义radius计算如公式(1):

其中relnum表示相关文档个数,这个值可以通过经验方法得出[9];dist函数是距离函数,用于计算文档dj与前i个文档质心dcenter之间的距离。dist函数可以使用余弦值、欧式距离、曼哈顿距离等公式来计算。对ratio的计算如下:

其中dcenter表示相似文档集合<d1,…,di>的质心,而radius表示相关文档集的半径,irelset 表示不相关文档集即<di+1,…,dn>。从而QR计算方法如下:

用这种方式,构造出了用于衡量一个文档序列质量的评价指标———QR(Quality of a Ranked list)。

3.2.2重排序方法

通常的基于用户反馈的重排序算法有:线性比较算法(lin-ear combination),计算方法见公式(4),给定n个反馈文档{f1,f2,…,fn},则候选文档di的相关度通过n个wd,fi的线性加和得到(其中wd,fi表示文档di与反馈文档fi的相似度)。

可以看出,线性比较算法并未考虑当前检索结果的排序质量。本文结合QR指标提出该算法提出重排序QR加权算法,计算方法见公式(5),对于每个反馈文档,综合计算其被点击时当前排序结果的质量(即QRcurrent值)和文档的相关度;引入QRcurrent可以衡量不同反馈文档的可靠性。当QR值较高时,该文档的预测相关度较高,对重排序过程应具有较高的影响力,因此权重较大。给定n个反馈文档{f1,f2,…,fn},其中wd,fi表示文档di与反馈文档fi的相似度)。

4模型实现

4.1实验环境

本系统就Aglet平台[6]之上进行二次开发而得到的,选取三台机器模拟中央检索服务器和两台代理服务器。系统在CPU Intel○R Pentium○R 4 3.00 GHz,内存为1.00 GB上运行,在操作系统Windows XP Professional+IBM Aglet+j2sdk1.4.2_12平台上使用Java语言开发完成。

4.2实验分析

4.2.1传统模型和本文模型性能比较

下面分别对传统元搜索模型和本文中的模型进行了实现,并对两种方式所表现出的检索性能进行对比分析。如图3:

由图3可以看出,当传输的信息量较少时,传统元搜索引擎的时延比本文基于Agent模型要小,这主要是由于后者在传输前需要创建Aglet以及Aglet运行的上下文环境等准备工作,这将花费一定的时间。但随着传输的信息量增大,基于Agent技术将大大优于前者,这主要是由于:一方面,移动Agent方式在返回检索结果前(即传输前)在代理服务器端进行了结果去重、合并处理,避免了大量重复无用的信息传输;另一方面,传统元搜索引擎方式在传输过程中必须保证二者稳定连接,对网络的带宽依赖性较强,在低带宽、连接不稳定时检索的效率不高。

4.2.2对重排序算法的评估

实验共有50个查询任务,对每个查询任务,利用本系统检索得到初始的500个查询结果文档(具体为500个查询结果摘要),利用上文中提到的DCG指标来评价排序结果的质量。在初始的查询结果文档集上,选取一个未被点击的相关文档进行点击,以此来完成一次用户反馈;系统利用相应的用户反馈算法对查询结果进行重排序;在重排序的结果上再次进行点击反馈;重复这一过程。经实验反复测试得出公式中α=0.65,β=0.35效果比较好,实验结果见图4。

从图上可见,QR加权排序算法很明显优于线性重排序算法,特别是当反馈文档个数较多时, QR加权排序算法的优势更加显而易见。

5结语

本文基于Agent提出了适应个性化服务的元搜索引擎模型,对模型系统进行了实现,并与传统元搜索模型进行了比较,实验得出本文提出的模型在传输信息量大的时候,性能明显优于传统的元搜索引擎。同时,给出了基于用户反馈的结果重排序算法,也对此算法进行了评估,基于QR的加权重排序算法优于传统的线性重排序算法。以后的工作还是有很多,个性化系统,最重要的一点就是体贴用户,把握用户的真实需要。如何采用更好的输入方式与用户进行交互,如何采用更贴近人的查询语言来方便用户使用都是值得深入的课题。

参考文献:

[1]彭仪普,李延山.ISeeker—一个高效的元搜索引擎[J].计算机工程,

2003(10).

[2]Xie Y,Mundlura D,Raghavan V V.Incorporating agent based neu-

ral network model for adaptive meta-search.The Center for Ad-

vanced Computer Studies,University of Louisiana at Lafayette,

USA,2004.

[3]陈俊杰,薜云,宋翰涛,等.基于Agent的元搜索引擎的研究与设计[J].

计算机工程与应用,2003,39(10):33-36.

[4]傅欣.第三代搜索引擎的智能化趋势研究[J].现代图书情报技术,

2002(6):28-30.

[5]王继成,萧嵘,孙正兴,等.Web信息检索研究进展[J].计算机研究与

发展,2001(2):56-58.

[6]王汝传,徐小龙,黄海平.智能Agent及其在信息网络中的应用[M].

北京:北京邮电大学出版社,2006,39(10):33-36.

[7]Joachims T,Granka L.Accurately interpreting click through data as

implicit fe.SIGIR,2005.

[8]Jarvelin K,Kekalainen J.IR evaluation methods for retrieving highly

relevant documents[C]//Proceedings of the 23rd Annual Interna-

tional ACM SIGIR Conference on Research and Development in

Information Retrieval,2000.

[9]龚笔宏.基于用户反馈的个性化检索技术研究[D].北京大学,2007.

数据库5

数据库6

Scale of the search engine

SAN afternoon of Sept. 21 message, CNNIC issued this afternoon, "2009 China Search Engine User Behavior Study", the report shows, the Chinese search engine users has reached 235 million people, half growth rate of 15.6%. Search engine users in the use of the national rate of 69.4%, compared with the end of 2008 increased by 1.4 percentage points since 2007, the first search engine usage is the trend.

The following scale of development for search engines:

3.1.1 The overall size of the search engine users

As of the end of June 2009, the scale of search engine users in China reached 235 million, from June 2008 to June 2009 one year, the number of search engine users in China increased by 5949 million, annual growth rate of 34%. Search engine users in the use of the national rate of 69.4%, compared with the end of 2008 increased by 1.4 percentage points since 2007, first of all search engine usage growth trend. With the rapid development of China's Internet, users of search engine recognition and acceptance of the further growth of the number of Internet users use search engines to maintain a rapid growth momentum. Expected end of 2009, the number of search engine users in China will reach 2.6 billion people. In 2009, the rapid development of Chinese search engine, closely related to the following factors:

1, the rapid development of China's Internet, users base of the sustained, rapid growth is the search engine development.

2, the search engine in the new Internet users in the utilization rate of about 51.1% of new Internet users brought the number of new search engine users search engines account for about 70% annual growth over the number of users is the search engine the main driver of subscriber growth.

3, Chinese Internet users in the age group, low education groups, low-income groups, low usage of search engines, with the Internet in the rapid penetration of these groups, as well as the needs of search engine users and the growing use of the above groups potential users in the search engine the energy is gradually released.

4, 2008-2009, the search company progressively expanded the search engine marketing, such as brand reputation in the traditional media publicity, greatly enhanced the awareness of search engines and permeability.

5, the search engine to mobile, community-based, diversified, personalized service, greatly improving the use of search engine users viscosity.

3.1.2 The scale of urban and rural search engine users

Search engine distribution between urban and rural ratio: 76.6:23.4, urban search-engine users currently about 1.8 million people in rural areas is about 5500 million search engine users. Difference in utilization between urban and rural areas 16 percent utilization rate in urban and rural areas were: 74.1% and 57.5%. Caused the development of China's search engine the main reason for urban-rural gap as follows: First, China's level of economic development between urban and rural areas are quite different; Second, China's Internet infrastructure of urban and rural level there is a gap, a big gap between the Internet penetration rate ; third is the behavior of urban and rural Internet users use the Internet different depths of rural Internet users use the Internet and network applications, the time the breadth, depth, lower than the urban users.

3.1.3 the size and potential of mobile search users

According to the survey, as of the end of June 2009, approximately 155 million mobile phone users in China people. Among them, the mobile phone users search for mobile Internet applications in a variety of second place, the use rate of 26.2%, that

the current mobile search users in China is about 4074 million people, about the general search engine users 17.4%.

With the popularization and application of 3G, the mobile Internet in dustry in 2009 a critical year for the parties to the development of m obile search important information as the mobile Internet search tools and information access platform, as the mobile operators, search engi ne companies important areas of concern . According to the survey, as of the end of June 2009, already using mobile Internet users, 28% of users said the next six months will use 3G Internet access, the p otential number of 3G users is about 4354 people; not used in the c urrent mobile Internet users , 7.2% said the next six months will use 3G mobile Internet, the potential number of 3G users is about 1323 million; or about 5677 million people in the next six months may use 3G. For the next six months may be using 3G mobile phone users w ill use the 3G mobile Internet applications, survey data, 3G mobile se arch usage is about 38.3%, that is, there are 2174 million people in t he next six months may be using 3G mobile search business.

Users of 3G mobile search applications, future applications of mobile phone users will higher than the current usage of mobile search, showing the huge market potential. Search engines have become an important portal of access to information, a profound impact on people's real life and online life. Most users use a search engine is aimed directly at any time, fast, simple way to find the information they need, along with the development of 3G and hinder people to use mobile Internet a major factor "slow access" to break through, mobile search will become the future wireless hot, "local information search", "Live Search" and search business will be the highlight of the main advantages of the wireless search business.

报告填写日期:2010-10-24

。

猜你喜欢

最安全有效的减肥药

最安全有效的减肥药

编辑:小徐

现在的减肥药真的是真假难分,在选择减肥药的同时也应该更加小心,减肥药多种多样,那么如何才能选择最安全有效的减肥药,也成了很多小仙女的内心疑问,下面就跟着日本高清情影片乐派影院小编一起看一下,如何选择最安全有效的减肥药。 最安全有效的减肥药选购方法 1、首先需要观察产品的外包装,在包装中可以看到其配方是不是含有激素,含有激素的减肥药对身体的内..

吃减肥药失眠

吃减肥药失眠

编辑:小徐

随着现在流行以瘦为美,很多人会不顾身体的健康选择减肥药,达到快速减肥瘦身的效果,但是很多减肥药都是有副作用的,副作用比较轻的就是失眠现象,那么吃减肥药出现失眠是怎么回事儿?如果出现失眠后,我们应该怎样缓解? 吃减肥药失眠是怎么回事 减肥药中富含安非他命,所以减肥药服用了太多会有失眠现象,服用减肥药期间,身体会逐渐出现抗药性,身..

最新文章