美文网首页信息计量学
信息计量学|搜索引擎的使用

信息计量学|搜索引擎的使用

作者: loonytes | 来源:发表于2018-06-05 16:46 被阅读55次

在计量研究中有个重要的研究方法——链接分析法。由此产生出了机构的网络影响力等一系列的研究主题。而链接数据的获取往往来自于搜索引擎的搜索结果,那么,百度、google、yahoo……这些搜索引擎具有哪些功能呢?


一、Yahoo!

由于yahoo拥有多国语言版本,各个版本的搜索引擎索引并不相同,因此此处选择了美国yahoo网站作为研究对象(https://www.yahoo.com/)。

1.Yahoo!的基本检索

Yahoo!的基本检索只有一个搜索框,在搜索框中使用特定的符号来进行检索。

使用双引号精确检索结果”” ,用加号表示并的关系+,用减号表示排除的关系。用OR表示或的关系。

有一些高级搜索的功能也能够通过在基本检索中输入特定语句来实现。

学生 site:www.pku.edu.cn(在北京大学的网站中搜索包含学生一词的网页)

2.Yahoo的高级搜索

Yahoo的高级搜索较难找到,但所能进行的检索功能却很丰富。如果找不到高级搜索入口的读者可以直接在地址栏键入以下地址(https://search.yahoo.com//web/advanced)。
高级搜索界面概览如下所示:

高级搜索

Yahoo的高级搜索的搜索功能包括:

  • 搜索精确词/排除某些词
  • 在特定域和网站中进行搜索
  • 搜索特定的文件类型,包括.html/.PDF/.xls/.ppt/.doc/.txt
  • 限定网站/网页所属的国家
  • 限定每页显示的结果数

实践发现,Yahoo!能够进行网站规模的检索(网站中包含的网页总数量),url提及(网站中包含某一特定utl的网页数),网站文档丰富度检索(网站中包含的特定文档的数量)。

二、google

google是在论文中出现频次很高的搜索引擎,这一方面有历史原因,也是因为google本身也具备其他搜索引擎不具备的优点。目前国内如果不在某些特定的IP地址内,是无法正常使用google的,此处请大家自行学习科学上网。

1.google的基本检索

google的基本检索不区分大小写

可以在搜索时使用符号或字词,以便让搜索结果更加精确

符号/字词和搜索字词之间不能加上空格 ,例如site:www.sysu.edu.cn可以正常搜索,但site: www.sysu.edu.cn则会失效。

搜索完全匹配的结果:为字词或短语加上引号。例如:"tallest building"。

搜索通配符或未知字词:在字词或短语中您要放置占位符的地方加上 *。例如:"largest * in the world"。

从搜索结果中排除特定字词:在您要排除的字词前加上 -。例如:jaguar speed -car

组合搜索:在各个搜索查询之间加上“OR”。例如:marathon OR race。

搜索特定网站:在相应网站或域名前加上“site:”。例如:site:youtube.com 或 site:.gov。

查看网站的 Google 缓存版本:在相应网址前加上“cache:”。例如:cache:pku.edu.cn

2.google的高级检索

谷歌高级搜索的界面相对较好进入,在一般的谷歌搜索界面的设置中即可找到,如下图所示


高级搜索

同样也可以点击下方的链接直接进入google高级搜索https://www.google.com.hk/advanced_search?gws_rd=cr
高级搜索界面如下所示:

高级搜索1
高级搜索2

具体的功能包括了:

  • 搜索精确词/排除某些词
  • 限制网页语言
  • 限制网页的国家和地区
  • 限制最后更新实践
  • 在特定的网站或网域中进行搜索
  • 限定检索词在网页上出现的位置:任意/网页标题/网页文本/网页网址中/指向网页的链接中
  • 搜索特定文件类型:.pdf/.ps/.dwf/.kml/.kmz/.xls/.ppt/.doc/.rtf/.swf

谷歌帮助地址:

https://support.google.com/websearch/

实践发现,Google能够进行网站规模的检索(网站中包含的网页总数量),url提及(网站中包含某一特定utl的网页数),网站文档丰富度检索(网站中包含的特定文档的数量)。限定检索词在网页上出现的位置更加丰富。

三、 bing

1. bing的基本检索

+查找包含前面带+好号的所有术语的网页

""完全匹配精确查找

AND或&查找包含所有术语或短语的网页

OR或|查找包含某个术语或短语的网页

NOT 或 –排除包含某个术语或短语的网页

默认情况下,所有搜索都是AND搜索。逻辑运算符必须大写,否则会作为非索引字而忽略。

2. bing的高级检索

bing并未设置专门的高级搜索页面,仅将关键词的使用视为高级检索功能,这些关键词包括:


检索关键词

注意:在这些关键字的冒号后面不要加入空格。

实践发现,bing可以进行网站规模的检索(网站的网页总数)、网站文档丰富度检索(网站中包含的特定文档的数量)、特定国家网页检索。

四、 Baidu

1.Baidu的基本检索

限制在特定站点:site:xinhuanet.com

限定在标题中检索关键词:intitle:北京大学

限定在url中检索关键词:inurl:北京大学

检索结果页面可以限定时间、网页类型


搜索结果界面

2、 Baidu的高级检索

baidu的高级搜页同样没有明显的链接,需要使用请点击下面的链接(https://www.baidu.com/gaoji/advanced.html)。

高级搜索

百度的高级搜索主要包括了以下功能:

  • 限定搜索结果包含全部关键词/完整关键词/任意关键词/不包括以下关键词
  • 限制搜索结果显示条数
  • 限定要搜索的网页时间
  • 限定网页语言:全部/简体中文/繁体中文
  • 限制搜索网页的格式:所有/.pdf/.doc/.xls/.ppt/.rtf
  • 限制关键词所在位置:网页的任何地方/网页标题/网页的URL
  • 限定搜索的网站

实践发现,baidu可以进行网站规模的检索(网站的网页总数)、网站文档丰富度检索(网站中包含的特定文档的数量)、网页的URL提及检索。

五、覆盖率比较

对不同搜索引擎检索效果及索引覆盖率进行调研。通过检索网站网页数量,以“北京大学”和“哈佛大学”为检索域。分别在几个搜索引擎中进行检索,得到如下结果。


对比表

由表可以看出,尽管四个主流搜索引擎均有检索网页总数的功能,但由于其索引的不同,检索结果也存在较大的差异,以大学为例,国内大学在国内搜索引擎中索引较多,在国外搜索引擎中索引较少。而国外大学则与此相反,呈现国内搜索引擎索引结果较少,国外搜索引擎索引较多的结果。因此在研究中需要根据所研究网站类型的不同选择相应的搜索引擎。

六、链接检索功能

经过对四个搜索引擎进行实践测试,发现四个搜索引擎均已经不再提供链接检索的服务,因此当前的链接分析研究已无法通过主流商业搜索引擎来获取数据,链接数的获取还有哪些工具仍需进一步研究。

相关文章

  • 信息计量学|搜索引擎的使用

    在计量研究中有个重要的研究方法——链接分析法。由此产生出了机构的网络影响力等一系列的研究主题。而链接数据的获取往往...

  • 信息计量学|CiteSpace使用教程

    --更新20181123--5.3.R4以后的版本可以从SourceForge下载及获取相关信息资源:citesp...

  • 搜索引擎营销中网站评估指标体系?

    搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候将信息传递给目...

  • 信息计量学|txt2pajek如何使用

    一般的文本文档如何转化成pajek可以识别的net结构 手动构建的文本文档 已知一个网络图的形式,手动构建网络文本...

  • 16_相关性搜索技术与知识图谱

    内容摘要:相信大家每天都会使用搜索引擎,互联网上大量的信息资源,依托搜索引擎用户可以快速找到对自己有价值的信息。搜...

  • 信息计量学|熵权法

    熵权法是为一个评价体系中的指标赋予权重的一种方法。 一、何为熵? 熵主要是信息论中的一个概念,是对不确定性的一种度...

  • 信息计量学|Pagerank基本了解

    PageRank是衡量网页重要性的一种方式,通过计算网页链接的数量和质量来确定粗略估计网站的重要性。潜在的假设是,...

  • 搜索引擎营销站内站外优化?

    seo搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候尽可能将...

  • 代谢组基础概念

    代谢组学( Metabolomics 或Metabonomics )是有机化学、分析化学、化学计量学、信息学和基因...

  • 2019-02-21sem所有

    一、什么是sem sem就是搜索引擎,我们通常简称为“SEM”。就是根据用户使用搜索引擎的方式利用用户检索信息的机...

网友评论

    本文标题:信息计量学|搜索引擎的使用

    本文链接:https://www.haomeiwen.com/subject/iehpsftx.html