【20年品牌建站】找北京网站建设BOB游戏APP官网·(官网)登录入口就选新鸿儒/提供北京网站建设报价/北京网站制作/北京网站设计/网站开发、北京网站建设BOB游戏APP官网·(官网)登录入口电话【010-51267718】有优惠哦!
简体
繁体 简体
我们的服务遍布中国

我们的服务遍布中国
乃至世界

新鸿儒所服务的品牌地域与城市
北京 天津 上海 广州 深圳 香港 厦门 江苏 浙江 山东
重庆 长沙 武汉 成都 西安 宁夏 丽江 青海 云南 乌鲁木齐
黑龙江 内蒙古 河北 ...
新鸿儒服务与合作的全球各地
美国 加拿大 德国 法国 英国 瑞士 意大利 荷兰
印度 日本 韩国 ...

不论你的品牌在何处
我们都可以提供完善的服务与帮助

致电

010-51267718

网页结构化的过程 即有价值信息被保留的过程

发布时间:2013-12-07 浏览:228打印字号:


向大家介绍过网页结构化的目标,结构化的过程就是网站有价值信息被保留的过程,今天之所以又用这样的标题来写一篇文章,其实是有目的的,是想再次的提醒网站seo优化人员,搜索引擎工作原理是做好网站优化工作的基础。
  现在不比前几年,一说网站优化一说SEO优化,改改title,discription,keyword,发发外链,网页的排名效果就会有。但现在仅仅指望这点已经不起作用了,人人都会的东西,你再拿出来作为自己的优势,实际上是落伍了,再加上黑帽seo优化的猖獗,针对百度的优化,针对google的优化层出不穷,搜索引擎也在不断的调整着算法。要做SEO优化的前锋战士,根据互联网的发展变化,时时保持清醒的头脑,吸收新的知识,只有这样网站的优化效果才可能在你的控制之中。
  话回正题,来简单解释一下,网页结构化的过程即有价值信息被保留的过程。明白了网页结构化的目标后,就应该明白,体现网页本身价值和内容的5个属性被抽取出来,即,标题(title)、锚文本(anchor text)、正文标题(content title)、正文(content)和正向链接(link)。对搜索引擎来说,这5个属性就是有价值的信息(当然,也是对用户有价值的内容)。
  我们来具体看一下网页结构化是如何进行的?
  网页结构化的过程首先通过标签树进行分析得到文本对应的标签,然后通过投票算法确定正文及配图等仅从HTML标签无法判断的网页数据。以下是专业人士总结的两步走:
  HTML标签树
  一、 建立html标签树(tag-tree)。
  万维网上大多数的静态网页都以HTML网页形式存在,HTML是一种标识语言(Markup Language),它把其描述的全部内容都按照HTML语法存放在标签之中。为了更清楚地描述网页内容的组织结构,将网页中的标签按照出现顺序依次整理出来并用适当的结构记录。由于标签之间的嵌套关系,因此整理结果自然是一个树状结构,我们把整理一个网页中的标签得到的树状结构称为该网页的“标签树”。
  很显然,查看该网页的用户看到的是相当友好的信息。而实际源文件中的那些HTML标记,如和(可以理解为用来帮助IE浏览器理解网页)等都不会实际地展示给用户。因此搜索引擎的分析系统需要学习IE浏览器理解网页的方式来理解网页,在理解过程中需要建立一个HTML标签树的树形结构。通过建立标签树,并且识别标签所描述的文字,网页结构化进程就走出了重要的一步,能够顺利提取出了网页的标题。但实际的网页,同一个标签所描述的文字内容不是唯一确定的,比如广告内容也可能放在标签里,而这不是真正的正文,是会影响用户的搜索体验,所以就有了下面投票法得正文。
  二、通过投票方法识别正文的文本块,并按照深度优先遍历的规则组织为正文。
  判断哪个文本块是正文采用称为“投票算法”的计算方法,这种方法在搜索引擎别常用。在日常生活中几乎所有人都会有投票或选举的经历,如选举干部和通过决议需要投票,以及运动员的一套动作需要裁判员打分等。其基本原理在于认为大多数人的意见往往是正确的。大多数人的统一主观意见就会变得较为客观。虽然每个人的给出的分数是主观产生的,但是这种评判的方法和结果被认为是相对客观和可信的。正文抽取的投票算法的过程如何呢?首先搜索引擎会定义一系列的规则,然后通过这些规则为每个文本块打分。得分最高的被认为是正文的可能性足够大,并且可以接受。搜索引擎定的规则,也是需要通过足够多的网页进行反馈,之后才能得到一个公正客观的打分。由于HTML标签的相互嵌套的特性,决定了深度优先遍历的顺序恰好能够组织成一个完整的正文。

现在就与新鸿儒客服交流

010-51267718

您也可进行在线咨询或预约项目顾问
我要预约
在线咨询