A. 股票金蜘蛛是什么意思
如5日均线从10日均线上方转到下方形成死叉,在短期内又回到上方形成金叉,即形成二次价托,就是人们常说的金三角。是个比较可靠的买点。
B. Web Spider网络蜘蛛,是什么意思
[摘要]当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。它实际上是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
关键词:网络蜘蛛 起源 原理 优化
目录
什么是网络蜘蛛
网络蜘蛛的起源
网络蜘蛛的工作原理
正文开始
1、什么是网络蜘蛛
----什么是网络蜘蛛呢?网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
----这样看来,网络蜘蛛就是一个爬行程序,一个抓取网页的程序。
2、网络蜘蛛的起源
----要说网络蜘蛛的起源,我们还得从搜索引擎说起,什么是搜索引擎呢?搜索引擎的起源是什么,这和网络蜘蛛的起源密切相关。
----搜索引擎指自动从英特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。英特网上的信息浩瀚万千,而且毫无秩序,所有的信息象汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为你绘制一幅一目了然的信息地图,供你随时查阅。
----搜索引擎从1990年原型初显,到现在成为人们生活中必不可少的一部分,它经历了太多技术和观念的变革。
----十四年前1994年的一月份,第一个既可搜索又可浏览的分类目录EINetGalaxy上线了。在它之后才出现了雅虎,直至我们现在熟知的Google、网络。但是他们都不是第一个吃搜索引擎这个螃蟹的第一人。从搜索FTP上的文件开始,搜索引擎的原型就出现了,那时还未有万维网,当时人们先用手工后用蜘蛛程序搜索网页,但随着互联网的不断壮大,怎样能够搜集到的网页数量更多、时间更短成为了当时的难点和重点,成为人们研究的重点。
----搜索引擎原型初显
----如果要追溯的话,搜索引擎的历史比WorldWideWeb 还要长。早在Web出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的FTP 站点。为了便于人们在分散的FTP资源中找到所需的东西,1990年,加拿大麦吉尔大学(McGillUniversity)的几个大学生开发了一个软件Archie。它是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载这个文件。Archie实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。Archie虽然还不是搜索引擎,但是从它的工作原理上看,它是所有搜索引擎的祖先。
----当万维网(WorldWideWeb)出现后,人们可以通过 html传播网页信息,网络上的信息开始成倍增长。人们纷纷使用各种方法将网络上的信息搜集来,进行分类、整理,以方便查找。现在人们很熟悉的网站雅虎(Yahoo)就是在这个环境下诞生的。还在Stanford大学读书的美籍华人杨致远和他的同学迷上了互联网。他们将互联网上有趣的网页搜集过来,与同学一起分享。后来,1994年4月,他们俩共同办了雅虎。随着访问量和收录链接数的增长,雅虎目录开始支持简单的数据库搜索。但是因为雅虎的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。
----当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。它实际上是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
----这种程序实际是利用html文档之间的链接关系,在Web上一个网页一个网页的爬取(crawl),将这些网页抓到系统来进行分析,并放入数据库中。第一个开发出“蜘蛛”程序的是Matthew Gray,他于1993年开发了World Wide Web Wanderer,它最初建立时是为了统计互联网上的服务器数量,到后来发展到能够捕获网址。现代搜索引擎的思路就来源于Wanderer,后来很多人在此基础上对蜘蛛程序进行了改进。
----1994年7月20日发布的Lycos网站第一个将 “蜘蛛”程序接入到其索引程序中。引入“蜘蛛”后给其带来的最大优势就在于其远胜于其它搜索引擎的数据量。自此之后几乎所有占据主导地位的搜索引擎中,都靠“蜘蛛”来搜集网页信息。Infoseek是另一个重要的搜索引擎,于1994年年底才与公众见面。起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是它友善的用户界面、大量附加服务使它在用户中赢得了口碑。1995年12月,它与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。 1995年12月15日,Alta Vista正式上线。它是第一个支持高级搜索语法的搜索引擎,成功地整合了此前人类所有的信息检索技术,解决了包括字根处理、关键词检索、布尔逻辑,以及通过向量空间模型的查询排名等关键问题。正式公开之前,Alta Vista就已经拥有20万访问用户,在短短三个星期之内,到访人数由每天30万次增加到200万次。它的成功在于满足了用户三个方面的需求:网上索引范围超过了此前任何一家搜索引擎;短短几秒钟内便可从庞大的数据库中为用户返回搜索结果;Alta Vista小组从一开始就采用了一种模块设计技术,能够跟踪网站的流行趋势,同时不断扩大处理能力。在当时许多搜索引擎之中,Alta Vista脱颖而出,成为网络搜索的代名词。Google就是站在这样的巨人的肩膀上颠覆并创造着。“上网即搜索” 改变了人们上网方式的,就是现在鼎鼎大名的Google。Google并不是搜索引擎的发明者,甚至有点落后,但是它却让人们爱上了搜索。
----1998年9月,在佩奇和布林创建Google之时,业界对互联网搜索功能的理解是:某个关键词在一个文档中出现的频率越高,该文档在搜索结果中的排列位置就要越显著。这就引出了这样一个问题,如果一个页面充斥着某一个关键字的话,那么它将排在很显著的位置,但这样一个页面对于用户来说,却没有任何意义。佩奇和布林发明了“网页级别”(PageRank)技术,来排列搜索结果。即考察该页面在网上被链接的频率和重要性来排列,互联网上指向这一页面的重要网站越多,该页面的位次也就越高。当从网页A链接到网页B时,Google 就认为“网页A投了网页B一票”。Google根据网页的得票数评定其重要性。然而,除了考虑网页得票数的纯数量之外,Google还要分析投票的网页,“重要”的网页所投出的票就会有更高的权重,并且有助于提高其他网页的“重要性”。 Google以其复杂而全自动的搜索方法排除了任何人为因素对搜索结果的影响。没人能花钱买到更高的网页级别,从而保证了网页排名的客观公正。除此之外,动态摘要、网页快照、多文档格式支持、地图股票词典寻人等集成搜索也都深得网民的喜爱。其他众多搜索引擎也都紧跟Google,推出这些服务。Fast(Alltheweb)公司发布的搜索引擎AllTheWeb,总部位于挪威,其在海外的风头直逼Google。Alltheweb的网页搜索支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。而中国的网络更是凭借“更懂中文”而吸引着中国的网络受众,它拥有超过10亿的中文网页数据库,并且,这些网页的数量每天正以千万级的速度在增长。
----搜索引擎越来越成为人们生活中重要的一部分,找资料、查地图、听音乐,只有想不到的,没有搜索不到的。
----搜索引擎的三个基本原理
----1.利用蜘蛛系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
----2.由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
----3.当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
----说到这里,你可能对搜索引擎和网络蜘蛛有了一个初步的了解了吧!
3、网络蜘蛛的工作原理
----对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这 其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页 面的平均大小为20K计算(包含图片),100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算, 需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘 蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。
----在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。
----广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中 的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从 起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策 略的区别,下图的说明会更加明确。
----由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1 层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索 到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。
----网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓 取(下小节会介绍),但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的 用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。
----每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User -agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Bai网络蜘蛛的标识为BaiDuSpider, Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。如果网站管理员发 现某个蜘蛛有问题,就通过其标识来和其所有者联系。
----网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下,如:[url][/url]。 网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和 临时文件目录不希望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限 制,可以用以下两行来描述: User-agent: *
Disallow:
----当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。
---- 网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可 以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页内的链接需要被跟踪。
---- 搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其 它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网 络蜘蛛正确跟踪其它链接有一定影响。对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。但HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,如:、、等, 提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信 息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程 度。同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候, 也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内 每个网页都会搜索到,无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还 需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。
---- 对于多媒体、图片等文件,一般是通过链接的锚文本(即,链接文本)和相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片”,其链接指 向一张bmp格式的图片,那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”。这样,在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张图片。另 外,许多多媒体文件中有文件属性,考虑这些属性也可以更好的了解文件的内容。
---- 动态网页一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网 页所占服务器的空间,但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多,动态网页的类型也越来越多,如:asp、jsp、php等。这些类型 的网页对于网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如VBScript和JavaScript)生成的网页,如果要完 善的处理好这些网页,网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓 取带来很大的困难。对于这类网站,如果网站设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内容的方法。
对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种 方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。
---- 由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。
---- 搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会 对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻 网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。
---- 一般来说,网络蜘蛛在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。
---- 现在大家对网络蜘蛛的工作原理有了初步的了解了吧,了解后就要在以后的网站制作中考虑蜘蛛的爬行规律,比如制作网站地图就很重要,好了,如果你有更好的见解,请到这里发表,火鸟非常愿意与你交流,共同研究网站制作技巧,尽量将自己的网站制作的符合标准,符合用户的习惯!
C. 华尔街是什么,为什么很多股票大师都在那里
华尔街(wall street)是纽约市曼哈顿区南部一条大街的名字,长不超过一英里,宽仅11米,是英文“墙街”的音译。荷兰统治时,在这里筑过一道防卫墙。英国人赶走荷兰人后,拆墙建街,因而得名。 这里是美国大垄断组织和金融机构的所在地,集中了纽约证券交易所、美国证券交易所、投资银行、政府和市办的证券交易商、信托公司、联邦储备银行、各公用事业和保险公司的总部以及美国洛克菲勒、摩根等大财团开设的银行、保险、铁路、航运、采矿、制造业等大公司的总管理处。垄断资本从这里支配着美国的政治、经济。华尔街成了美国垄断资本,金融和投资高度集中的象征。
我去过两次华尔街,第一次是以游客的身份。那是傍晚时分,天上下着瓢泼大雨,雨水不停地倒灌进华尔街地铁站,连铁道上都满是积水。所幸大雨不久就停了,我就小心翼翼地绕过积水,慢慢走上百老汇与华尔街的交界处,抬头就看到了著名的三位一体教堂(Trinity Church);早在华尔街还是一堵破烂不堪的城墙的时候,它就已经是这附近的标志性建筑了。
现在,三位一体教堂的正前方是纽约证券交易所(NYSE),背后是美国证券交易所(AMEX),左右两侧都是高耸的写字楼,只有周围的一小块地方还保存着17世纪的花园和墓地。从教堂门前穿越百老汇,就算正式进入了华尔街——这条街又短又窄,街口设下了重重路障,街心正在进行翻修,到处都是坑坑洼洼的积水。几个荷枪实弹的警察如临大敌地站在纽约证券交易所门前,他们的头顶是一幅巨大的美国国旗。除此之外,这条街上的人似乎都是游客,从他们的着装和神态就看的出来。路边的橱窗并没有写着高盛、摩根士丹利或美林等如雷贯耳的名字,反而贴着咖啡馆和健身俱乐部的广告。除了德意志银行,我在这里没有发现任何一家投资银行的名字,更不用说共同基金或对冲基金了。
总而言之,现在的华尔街只是一个旅游胜地,经常有成群结队的外国人带着敬畏的表情到此一游,希望看看“全世界的金融中心”是什么样子;然而他们看到的只是一个荒废的商业区,几栋陈旧的摩天大楼,以及许多露天茶座或咖啡馆。纽约证券交易所现在已经不允许游客进入了,所以华尔街的旅游价值也残存无几了。
后来我又去了一次华尔街,这次不是去观光,而是到三位一体教堂听牧师讲道。这个教堂的建筑非常独特,一砖一石都值得仔细观赏,外面的花园里还有著名的美国第一任财政部长汉密尔顿的墓。几步之外就是喧闹的街道,各种车辆日夜不息的经过,反而更加衬托出教堂本身的神圣与静谧。据说,在华尔街还没有沦落为旅游胜地的时候,银行家和基金经理们经常利用中午休息时间来这里做祷告,然后再回到证券市场的血腥绞杀中去。
早在二十年前,许多金融机构就已经离开地理意义上的华尔街,搬迁到交通方便、视野开阔的曼哈顿中城区去了。华尔街附近挤满了古旧建筑和历史文化街区,道路也像蜘蛛网一样难以辨认,实在不太符合金融机构扩张业务的需求。“911”事件更是从根本上改变了华尔街周围的格局,有些机构干脆离开了纽约这座危险的城市,搬到了清静安全的新泽西。现在,除了纽约联邦储备银行之外,没有任何一家银行或基金把总部设在华尔街。在著名的“华尔街巨人”中,只有高盛和美林还坚守在离华尔街不远的地方,其他巨人都已经搬迁到洛克菲勒中心、时代广场或大中央火车站周围的繁华商业区;即使是高盛和美林,也已经在曼哈顿中城区购置了新的豪华办公室,不久就要彻底离开旧“华尔街”了。
但是,人们宁愿把这一切称为“华尔街”。在洛克菲勒中心的办公室里,人们阅读的仍然是“华尔街日报”;在国会听证会上,美联储主席仍然关心着“华尔街的态度”;在大洋的另一侧,企业家们的最高梦想仍然是“在华尔街融资”。无论地理位置相隔多远,人们在精神上仍然属于同一条街道——在这条街道上,所罗门兄弟曾经提着篮子向证券经纪人推销债券,摩根曾经召开拯救美国金融危机的秘密会议,年轻的文伯格曾经战战兢兢地敲响高盛公司的大门(日后他成为高盛历史上的传奇总裁),米尔肯曾经向整个世界散发他的垃圾债券;在这些神话人物死去几十年之后,他们的灵魂仍然君临纽约上空,附身在任何一个年轻的银行家、分析师、交易员、经纪人或基金经理的身上,随时制造出最新的金融神话。这就是华尔街。
昨天晚上,我和一位共同基金主管共进晚餐。他已经在华尔街工作近三十年,两鬓却没有一根白头发,话语里还透着年轻人一样的热情与自信。他一边喝着白葡萄酒,一边兴致勃勃地回忆自己在中国的经历——“当我第一次到上海的时候,浦东还没有一座高楼,现在它已经变成这个样子了!”接着,他提到自己曾在台北出差的时候与纽约的证券分析师召开电话会议,当时台湾时间还是凌晨4点,窗外台风大作,整个酒店似乎都要倒塌下来,“那滋味可真令人永远难忘!”他大笑着总结道。
在谈到许多工作话题和政治话题之后,我问他:“你是一个华尔街瘾君子(The Street Addicted)吗?”我这样问是有所指,CNBC有一个著名的证券分析节目,主持人是一位非常成功的对冲基金经理,他写了一本非常自大的书,名字就叫“华尔街瘾君子”,也就是对华尔街上瘾的人。每次我看到他的电视节目,就觉得他像个野人,拿着一只香蕉跳上跳下地怒吼着,用尖锐甚至粗俗的语言喊出他对证券市场的看法,那种表情简直可以让好莱坞的所有喜剧明星黯然失色。许多人告诉我,这家伙是个彻底的疯子——不过大家还是喜欢看他的节目,分析师尤其爱看,他们觉得这个华尔街瘾君子真是个了不起的超级智者。在这里,瘾君子究竟是褒义词还是贬义词?我不知道。
出人意料的是,我面前的这位基金主管非常愉快地说:“是的,我就是一个华尔街瘾君子。华尔街真够劲。你知道,在这里,这么多富有才华的人在处理这样巨大的财富,他们创造着效率,也赚取着金钱;但是最重要的是,我感到这一切都很有乐趣。”他喝完杯中酒,用激动的语气继续说道:“每天早晨,是什么在支撑人们起床投入工作,去管理那些无穷无尽的资产,去为那些企业融资呢?如果你不热爱华尔街,你根本不可能坚持下来!所以唯一能够做出伟大事业的是对华尔街上瘾的人,华尔街从事的一切工作,对这种人来讲都如此有趣,以至于无论多么繁重的工作,都不觉得累了。我不知道别人怎么看,反正我愿意做华尔街瘾君子。我以此为荣。”
这是我听过的对华尔街最崇高的赞颂。从前,我曾经听许多人讲过他们对华尔街的态度:赞许的态度,憧憬的态度,不屑的态度,乃至仇恨的态度。我曾经听一个长辈这样描述他心目中的华尔街:“在华尔街,即使资历最浅的金融专业人员,都可以拿到6万美元以上的年薪,这就是它令人仰慕之所在。”噢,或许是这样的,在许多人看来,薪水是唯一令人仰慕的因素。我还记得在回答某家投资银行的招聘试题的时候,一个朋友毫不犹豫地写下:“我愿意加入贵银行,主要原因是我想赚一大笔钱。”她当然不是在开玩笑!那时,谁听说过“华尔街瘾君子”这个褒义词呢?谁能想象有人竟然会如此发自内心地热爱华尔街?
在华尔街,我看到年过六旬的投资经理仍然怀着饱满的精神研究新的行业、新的市场;我看到资深分析师一边吃着简单的午餐,一边读着像砖头一样厚的报告,甚至忘记了吞咽;我看到年轻的交易员在下班之后的Party上仍然在热烈地讨论交易策略,他们的脸上的笑容如此自然。国内的金融界并不是这样的。整个亚洲的金融界都不是这样的。我最好的朋友曾告诉我说,他最大的愿望是在金融界苦熬几年,赚到足够的钱,然后“去做自己喜欢的事情”。“难道金融不是你喜欢的事情吗?”我困惑不解地问他。“当然不是!”他毫不犹豫地回答,“和所有人一样,我学习金融,并且希望从事金融,只是为了赚许多许多的钱。难道你不是这样吗?”
难怪华尔街能够一直统治着世界的金融界。难怪华尔街的银行家、分析师、交易员和基金经理们一直代表着金融创新的最高水平。因为在这里,银行家每天工作14个小时不仅是因为完成任务的压力,也是因为热情;分析师每天阅读几百页研究报告不仅是为了拿到自己的薪水,也是因为兴趣;交易员每天打几十个电话、输入上百个交易指令不仅是为了应付老板,也是因为他们喜欢交易。总之,这里的人们对华尔街上了瘾。我还记得自己的老师,一位曾经担任某家著名投资银行董事总经理的纽约人的话:“当我刚开始做债券交易员的时候,每天12个小时盯着屏幕,追随着债券利率变动的轨迹。我知道对于一个不喜欢债券的人来说,这份工作有多么枯燥;但是我喜欢。所以我根本不觉得这是一种折磨!”毫无疑问,他也是一个华尔街的瘾君子。
从早晨7点到晚上12点,在华尔街(当然,这是一个广义称谓)的每一个金融机构办公楼里,灯光都不会熄灭,电脑都不会关闭。在所有人都已安然入睡的时候,外汇交易员在聚精会神地做着某个遥远市场的大宗交易;在所有人还没有起床的时候,分析师已经喝着浓浓的咖啡,开始举行例行晨会;在所有人都在与家人欢度周末的时候,投资银行家正在三万英尺高空的机舱里奔赴某一个新兴国家,准备星期一和他们洽谈IPO问题——对他们来说,这不仅是工作,也是生活和爱好。华尔街的王牌对冲基金经理会对着CNBC的镜头大叫:“我对这一切都上了瘾!”
附带说一句,当我喝完最后一杯酒,准备回家睡觉的时候,那位基金主管告诉了我一个他最喜欢的告别的方式(同时也可以用在见面的时候):两个人的右手各自握成拳头,坚定不移地互相撞击,如此反复几次,再挥手离去。“早先,这个动作代表‘成交’;现在,它的含义是‘我同意你的看法,我们坚定不移’!”在临别之前,他微笑着说。
我同意他对华尔街的看法,也希望在若干年之后,我们的看法一样坚定不移。无数对华尔街上瘾的人组成了金融界——无数的财富在这里融合沟通,无数的资产在这里配置交易,无数人在这里辛勤劳动,从事他们为之上瘾的世界。无论如何,愿华尔街能够使这个世界变得更加美好,而不是恰恰相反。
D. 股票中的死蜘蛛k线是什么意思
就是五日均线、10日均线、20日均线、60日均线方向发生转向的那个点也就是12月23日那跟大阴线所致。大家可以注意看均线空头倒向排列也就是一个死结均线可以视为蜘蛛腿,这个点是最致命的点,所有的均线(成本)都在这儿发生共振,5日、10日、20日、60日、买进的人在这一天都是相同成本,那么多人在这一天都是这个价格买进,如果这跟K线一旦往下跌,就是把这些人统统套牢,是不是这个意思?比如说,前面也有一些阴线,它跌下来只是把5日、10日、20日买进的人套牢,但对于60日买进的人来说,在这点它是没有危机感的,因为他并没有套牢,他还是很开心,没有恐慌;而在【死蜘蛛】这一点下面,这些5日、10日、20日、60日同时发生恐慌,他们怀疑是不是走坏了,要考虑要不要割肉走了?因此,这个【死蜘蛛】对市场的震力是相当强的,他震撼了一批人,让他们感觉到大盘走坏了,准备要逃跑。因此,这一带形成了很大的压力,以至于抑制了后面大盘的上行。一个【死蜘蛛】辐射出来,5日、10日、20日、60日所有人开始恐慌,他们的解套压力就在这一带股价以后就节节败退了。
E. 谁发明了什么
可以说:
根据苍蝇发明照相机
根据海豚发明船
根据苍蝇发明了照相机
根据鱼鳔的特点,发明了潜水艇
还可以说:
小草的观察:发明了锯
蜻蜓的观察:改进了机翼
鸟类的观察:发明了飞机
海豚的观察:发明了潜水艇
苍蝇等复眼的观察:发明了寻像仪
眼镜蛇的观察:发明了红外夜视仪
蝙蝠的观察:发明了声纳
蜜蜂的观察:产生了蜂窝结构
蛋的观察:产生了拱梁结构
斑马的观察:发明了迷彩服
青蛙的观察:产生了蛙泳
还可以说:
蝙蝠--声纳和雷达,还有蝙蝠衫
鱼类的尾鳍--船舵
鱼类的胸鳍--船桨
蜘蛛网--鱼网和新型纤维
动物的巢穴--房屋
食肉动物捕猎--狩猎术
鲨鱼--“鲨鱼皮”连体游泳衣
鸟类--滑翔机和飞机
动物的伪装色--迷彩服
乌龟--坦克和龟息等气功吐纳养生手段
动物的蹼--潜水装备中的蹼脚
猪--防毒面具
蛙类--蛙泳
蝴蝶--蝶泳和时装
狗--狗刨
蛇、猴、鹰等-蛇拳、猴拳、鹰爪拳等拳术武功
........
太多了,数不胜数,不胜枚举。
F. 爬虫都可以干什么
python是一种计算机的编程语言,是这么多计算机编程语言中比较容易学的一种,而且应用也广,这python爬虫是什么意思呢?和IPIDEA全球http去了解一下python爬虫的一些基础知识。
一、python爬虫是什么意思
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
即:打开一个网页,有个工具,可以把网页上的内容获取下来,存到你想要的地方,这个工具就是爬虫。
Python爬虫架构组成:
1.网页解析器,将一个网页字符串进行解析,可以按照我们的要求来提取出我们有用的信息,也可以根据DOM树的解析方式来解析。
2.URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现。
3.网页下载器:通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2(Python官方基础模块)包括需要登录、代理、和cookie,requests(第三方包)
4.调度器:相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工作。
5.应用程序:就是从网页中提取的有用数据组成的一个应用。
二、爬虫怎么抓取数据
1.抓取网页
抓取网页有时候需要模拟浏览器的行为,很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求,比如模拟用户登陆、模拟session/cookie的存储和设置。
2.抓取后处理
抓取的网页通常需要处理,比如过滤html标签,提取文本等。python的beautifulsoap提供了简洁的文档处理功能,能用极短的代码完成大部分文档的处理。
其实以上功能很多语言和工具都能做,但是用python能够干得最快,最干净。上文介绍了python爬虫的一些基础知识,相信大家对于“python爬虫是什么意思”与“爬虫怎么抓取数据”有一定的的认识了。现在大数据时代,很多学python的时候都是以爬虫入手,学习网络爬虫的人越来越多。通常使用爬虫抓取数据都会遇到IP限制问题,使用高匿代理,可以突破IP限制,帮助爬虫突破网站限制次数。
G. 什么是股票均线蜘蛛形态
许多股民朋友在炒股的时候,可能更在乎股价的情况,导致会错过一些重要的技术指标,同时炒股也是有技术指标的,而均线则是技术指标里的重要指标之一。均线的含义是什么,是什么意思么以及怎么运用呢?紧接着下来我就为大家简单说一下,学姐也是希望可以帮助到大家。在讲之前,学姐先给大家分享一波福利--机构精选的牛股榜单新鲜出炉,赶紧看过来大福利,不要错过:【绝密】机构推荐的牛股名单泄露,限时速领!!!
一、均线的定义
1、均线是什么
均线简单的来说就是一种重要的技术指标,投资者经常用的,它是将某一段时间的收盘价之和除以该周期所得到的一根平均线。假如一个星期内有5个交易日,也就是5天的收盘价加在一起除5便可得到这几天的平均收盘价,同样,10日、20日等的均线也可用此法算出。
2、均线有哪些、不同颜色
均线依据的参数不同,其作用和反应情况也有区别。常用的参数有5日、10日、20日、30日、60日、120日、250日。常用的颜色有白色(5日线)、黄色(10日线)、紫色(20日线)、绿色(30日线)、灰色(60日线)、蓝色(120日线)、橙色(250日),当然颜色是可以变动的,股民可以看自己喜欢的颜色来设定。
二、均线的简单应用
1、如何在走势图看均线
(1)添加均线:比如在股票软件界面按MA键出现如下图再按回车键就可以添加了
(2)查看均线:
2、分析时用哪条
均线是一个时间区间内平均价格和趋势的反映,均线可以将过去一个时段内价格总体运行情况直观地呈现给我们。每一根线都有单独的作用和意义,关于它们之间的联系,我接下来就给大家讲讲吧
(1)5日均线(攻击线):股价上涨突破了攻击线,并且还呈现上升趋势,短期内将看涨。同样的道理,假如5日均线向下股价跌破均线则短期看空。
(2)10日均线(行情线):当盘中的操盘线持续上升的时候,操盘线被股价突破的话,则意味着波段性中线上涨,否则会下降。
(3)20日均线(辅助线):主要用来协助10日均线,不仅对价格运行力度和价格趋势角度进行推进,而且能对二者进行修正,稳定价格趋势运行方向。若在盘中辅助线呈持续向上的攻击状态之时,当价格突破辅助线,这个意思就是波段性中线行情开始看多,反则就是清空了
(4)30日均线(生命线):指明股价中期运动的趋势就是它的作用,生命线能起到的主要作用就是较强的压力和支撑。在盘中也相似的,要是得到的生命线趋势是向上的,而股价突破或高于线则看多,否则看空。
(5)60日均线(决策线):可以根据这看到价格的中期反转趋势,指导价格大波段级别运行于提前预定好得趋势之中。基本主力其实都会很重视这根均线的,股价在中期的运动趋势它可以起一个至关重要的作用。
(6)120日均线(趋势线):作用同样如此,也就是指明价格中长期的反转趋势,指点价格在既定的趋势中,大波段大级别的运行。当股价突破趋势线时,短时间内基本不会有反转趋势,一般至少也要10天以上反转。
(7)250日均线(年线):这条均线是判断是否要长期投资的重要依据。公司的大体情况和业绩它都能够有所反应。
这些线主要有什么用都已经在上面提到过了,统筹多条均线进行分析,才能给我们更好更准确的效果。不懂哪只股票比较好?会不会存在一些风险?戳这个链接就可以,看到这个诊股报告就是你的专属!【免费】测一测你的股票当前估值位置?
3、均线一些常见形态有哪些?
(1)多头排列:表示多条均线维持着股价上涨的状态,则看多。
(2)空头排列:表示多条均线反压股价,则看空。
(3)银山谷:表示的是短中线都穿过长线的时候所形成的图形,下边有一个三角,或者是四边形,一个类似于山谷的形状就会出现,在长期跌落后首次出现的山谷称为银山谷。
(4)金山谷:在银山谷后面又映现出一个山谷,一般会比银山谷的买入点更加靠谱。
大家买股票,通常都是买的龙头股,因为此类的股票一向是行业中的最为厉害的,在股市中也能发动一波好的局势。我这里也列举了A股各行业的龙头股名单,免费让大家使用~吐血整理!各大行业龙头股票一览表,建议收藏!
应答时间:2021-09-24,最新业务变化以文中链接内展示的数据为准,请点击查看
H. 股票中,什么是金蜘蛛
金蜘蛛后,你跑的不及时 3个跌停
买股票不能凭借这些所谓的形态战法或者指标
指标跟价格来,价格跟成交量来,成交量跟结构来
你看这些东西是很滞后的
I. 哪个网站对股市消息最灵通,政策消息准确
金融界http://www.jrj.com/证券之星http://www.stockstar.com/home.htm东方财富网http://www.eastmoney.com/360股讯http://www.guxun360.com/index.aspx中金在线http://www.cnfol.com/股市在线http://www.secon.cn/顶点财经http://www.topcj.com/操盘手红蜘蛛http://hi..com/%B2%D9%C5%CC%CA%D6%BA%EC%D6%A9%D6%EB
J. 什么是网络蜘蛛
[摘要]当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。它实际上是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
关键词:网络蜘蛛 起源 原理 优化
目录
什么是网络蜘蛛
网络蜘蛛的起源
网络蜘蛛的工作原理
正文开始 【网络蜘蛛】
1、什么是网络蜘蛛
----什么是网络蜘蛛呢?网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
----这样看来,网络蜘蛛就是一个爬行程序,一个抓取网页的程序。
2、网络蜘蛛的起源
----要说网络蜘蛛的起源,我们还得从搜索引擎说起,什么是搜索引擎呢?搜索引擎的起源是什么,这和网络蜘蛛的起源密切相关。
----搜索引擎指自动从英特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。英特网上的信息浩瀚万千,而且毫无秩序,所有的信息象汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为你绘制一幅一目了然的信息地图,供你随时查阅。
----搜索引擎从1990年原型初显,到现在成为人们生活中必不可少的一部分,它经历了太多技术和观念的变革。
----十四年前1994年的一月份,第一个既可搜索又可浏览的分类目录EINetGalaxy上线了。在它之后才出现了雅虎,直至我们现在熟知的Google、网络。但是他们都不是第一个吃搜索引擎这个螃蟹的第一人。从搜索FTP上的文件开始,搜索引擎的原型就出现了,那时还未有万维网,当时人们先用手工后用蜘蛛程序搜索网页,但随着互联网的不断壮大,怎样能够搜集到的网页数量更多、时间更短成为了当时的难点和重点,成为人们研究的重点。
----搜索引擎原型初显
----如果要追溯的话,搜索引擎的历史比WorldWideWeb 还要长。早在Web出现之前,互联网上就已经存在许多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的FTP 站点。为了便于人们在分散的FTP资源中找到所需的东西,1990年,加拿大麦吉尔大学(McGillUniversity)的几个大学生开发了一个软件Archie。它是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载这个文件。Archie实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。Archie虽然还不是搜索引擎,但是从它的工作原理上看,它是所有搜索引擎的祖先。
----当万维网(WorldWideWeb)出现后,人们可以通过 html传播网页信息,网络上的信息开始成倍增长。人们纷纷使用各种方法将网络上的信息搜集来,进行分类、整理,以方便查找。现在人们很熟悉的网站雅虎(Yahoo)就是在这个环境下诞生的。还在Stanford大学读书的美籍华人杨致远和他的同学迷上了互联网。他们将互联网上有趣的网页搜集过来,与同学一起分享。后来,1994年4月,他们俩共同办了雅虎。随着访问量和收录链接数的增长,雅虎目录开始支持简单的数据库搜索。但是因为雅虎的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。
----当“蜘蛛”程序出现时,现代意义上的搜索引擎才初露端倪。它实际上是一种电脑“机器人”(Computer Robot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
----这种程序实际是利用html文档之间的链接关系,在Web上一个网页一个网页的爬取(crawl),将这些网页抓到系统来进行分析,并放入数据库中。第一个开发出“蜘蛛”程序的是Matthew Gray,他于1993年开发了World Wide Web Wanderer,它最初建立时是为了统计互联网上的服务器数量,到后来发展到能够捕获网址。现代搜索引擎的思路就来源于Wanderer,后来很多人在此基础上对蜘蛛程序进行了改进。
----1994年7月20日发布的Lycos网站第一个将 “蜘蛛”程序接入到其索引程序中。引入“蜘蛛”后给其带来的最大优势就在于其远胜于其它搜索引擎的数据量。自此之后几乎所有占据主导地位的搜索引擎中,都靠“蜘蛛”来搜集网页信息。Infoseek是另一个重要的搜索引擎,于1994年年底才与公众见面。起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是它友善的用户界面、大量附加服务使它在用户中赢得了口碑。1995年12月,它与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。 1995年12月15日,Alta Vista正式上线。它是第一个支持高级搜索语法的搜索引擎,成功地整合了此前人类所有的信息检索技术,解决了包括字根处理、关键词检索、布尔逻辑,以及通过向量空间模型的查询排名等关键问题。正式公开之前,Alta Vista就已经拥有20万访问用户,在短短三个星期之内,到访人数由每天30万次增加到200万次。它的成功在于满足了用户三个方面的需求:网上索引范围超过了此前任何一家搜索引擎;短短几秒钟内便可从庞大的数据库中为用户返回搜索结果;Alta Vista小组从一开始就采用了一种模块设计技术,能够跟踪网站的流行趋势,同时不断扩大处理能力。在当时许多搜索引擎之中,Alta Vista脱颖而出,成为网络搜索的代名词。Google就是站在这样的巨人的肩膀上颠覆并创造着。“上网即搜索” 改变了人们上网方式的,就是现在鼎鼎大名的Google。Google并不是搜索引擎的发明者,甚至有点落后,但是它却让人们爱上了搜索。
----1998年9月,在佩奇和布林创建Google之时,业界对互联网搜索功能的理解是:某个关键词在一个文档中出现的频率越高,该文档在搜索结果中的排列位置就要越显著。这就引出了这样一个问题,如果一个页面充斥着某一个关键字的话,那么它将排在很显著的位置,但这样一个页面对于用户来说,却没有任何意义。佩奇和布林发明了“网页级别”(PageRank)技术,来排列搜索结果。即考察该页面在网上被链接的频率和重要性来排列,互联网上指向这一页面的重要网站越多,该页面的位次也就越高。当从网页A链接到网页B时,Google 就认为“网页A投了网页B一票”。Google根据网页的得票数评定其重要性。然而,除了考虑网页得票数的纯数量之外,Google还要分析投票的网页,“重要”的网页所投出的票就会有更高的权重,并且有助于提高其他网页的“重要性”。 Google以其复杂而全自动的搜索方法排除了任何人为因素对搜索结果的影响。没人能花钱买到更高的网页级别,从而保证了网页排名的客观公正。除此之外,动态摘要、网页快照、多文档格式支持、地图股票词典寻人等集成搜索也都深得网民的喜爱。其他众多搜索引擎也都紧跟Google,推出这些服务。Fast(Alltheweb)公司发布的搜索引擎AllTheWeb,总部位于挪威,其在海外的风头直逼Google。Alltheweb的网页搜索支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。而中国的网络更是凭借“更懂中文”而吸引着中国的网络受众,它拥有超过10亿的中文网页数据库,并且,这些网页的数量每天正以千万级的速度在增长。
----搜索引擎越来越成为人们生活中重要的一部分,找资料、查地图、听音乐,只有想不到的,没有搜索不到的。
----搜索引擎的三个基本原理
----1.利用蜘蛛系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
----2.由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
----3.当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
----说到这里,你可能对搜索引擎和网络蜘蛛有了一个初步的了解了吧!
3、网络蜘蛛的工作原理
----对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这 其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,如果按照每个页 面的平均大小为20K计算(包含图片),100亿网页的容量是100×2000G字节,即使能够存储,下载也存在问题(按照一台机器每秒下载20K计算, 需要340台机器不停的下载一年时间,才能把所有网页下载完毕)。同时,由于数据量太大,在提供搜索时也会有效率方面的影响。因此,许多搜索引擎的网络蜘 蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。
----在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。
----广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中 的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从 起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策 略的区别,下图的说明会更加明确。
----由于不可能抓取所有的网页,有些网络蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中,A为起始网页,属于0层,B、C、D、E、F属于第1 层,G、H属于第2层,I属于第3层。如果网络蜘蛛设置的访问层数为2的话,网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索 到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。
----网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓 取(下小节会介绍),但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给网络蜘蛛提供相应的 用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。
----每个网络蜘蛛都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User -agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Bai网络蜘蛛的标识为BaiDuSpider, Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的网络蜘蛛过来过,什么时候过来的,以及读了多少数据等等。如果网站管理员发 现某个蜘蛛有问题,就通过其标识来和其所有者联系。
----网络蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt,这个文件一般放在网站服务器的根目录下,如:[url]http://www.blogchina.com/robots.txt[/url]。 网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和 临时文件目录不希望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单,例如如果对目录没有任何限 制,可以用以下两行来描述: User-agent: *
Disallow:
----当然,Robots.txt只是一个协议,如果网络蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对于某些页面的访问,但一般的网络蜘蛛都会遵循这些协议,而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。
---- 网络蜘蛛在下载网页的时候,会去识别网页的HTML代码,在其代码的部分,会有META标识。通过这些标识,可以告诉网络蜘蛛本网页是否需要被抓取,还可 以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如:表示本网页不需要被抓取,但是网页内的链接需要被跟踪。
---- 搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其 它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网 络蜘蛛正确跟踪其它链接有一定影响。对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口,就可以轻松的提取文档中的文本信息和文件其它相关的信息。但HTML等文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,如:、、等, 提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信 息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程 度。同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候, 也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道,因为导航条在网站内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则网站内 每个网页都会搜索到,无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的网站,还 需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。
---- 对于多媒体、图片等文件,一般是通过链接的锚文本(即,链接文本)和相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片”,其链接指 向一张bmp格式的图片,那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”。这样,在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张图片。另 外,许多多媒体文件中有文件属性,考虑这些属性也可以更好的了解文件的内容。
---- 动态网页一直是网络蜘蛛面临的难题。所谓动态网页,是相对于静态网页而言,是由程序自动生成的页面,这样的好处是可以快速统一更改网页风格,也可以减少网 页所占服务器的空间,但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多,动态网页的类型也越来越多,如:asp、jsp、php等。这些类型 的网页对于网络蜘蛛来说,可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言(如VBScript和JavaScript)生成的网页,如果要完 善的处理好这些网页,网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站,需要通过本网站的数据库搜索才能获得信息,这些给网络蜘蛛的抓 取带来很大的困难。对于这类网站,如果网站设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内容的方法。
对于网页内容的提取,一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种 方式的好处在于扩充性好,以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。
---- 由于网站的内容经常在变化,因此网络蜘蛛也需不断的更新其抓取网页的内容,这就需要网络蜘蛛按照一定的周期去扫描网站,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。
---- 搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会 对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新,对于一些重要的更新量大的网站,更新的周期短,如有些新闻 网站,几个小时就更新一次;相反对于一些不重要的网站,更新的周期就长,可能一两个月才更新一次。
---- 一般来说,网络蜘蛛在更新网站内容的时候,不用把网站网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。
---- 现在大家对网络蜘蛛的工作原理有了初步的了解了吧,了解后就要在以后的网站制作中考虑蜘蛛的爬行规律,比如制作网站地图就很重要,好了,如果你有更好的见解,请到这里发表,火鸟非常愿意与你交流,共同研究网站制作技巧,尽量将自己的网站制作的符合标准,符合用户的习惯!