良好的百度收?/H1>
面向搜烦引擎优化的网站徏?/DIV>

搜烦引擎只是|站上一个普通的访客Q对|站的抓取方式、对|站/|页的h(hun)值判断,也都是从用户的角度出发的QQ何对用户体验的改q,都是Ҏ(gu)索引擎改q。对搜烦引擎的优化,同时也会(x)让用户受益?/P>

面向搜烦引擎的网站徏设,主要分ؓ(f)三个部分Q如何更好的让搜索引擎收录网站中的内宏V如何在搜烦引擎中获得良好的排名、如何让用户从众多的搜烦l果中点M的网站。简单来_(d)是收录、排序、展现。下面我们将从这三个斚w分别介绍?

机器可读

癑ֺ通过一个叫做Baiduspider的程序抓取互联网上的|页Q经q处理后建入索引中。目前Baiduspider只能L文本内容Qflash、图片等非文本内Ҏ(gu)时不能处理,攄在flash、图片中的文字,癑ֺ无法识别?/P>

使用文字而不是flash、图片、Javascript{来昄重要的内Ҏ(gu)链接Q搜索引擎暂时无法识别Flash、图片、Javascript中的内容Q这部分内容无法搜烦刎ͼ仅在flash、Javascript中包含链接指向的|页Q百度可能无法收录?/P>

癑ֺ优化
  1. 使用文字而不是flash、图片、Javascript{来昄重要的内Ҏ(gu)链接Q?BR>
  2. 如果必须使用Flash制作|页Q徏议同时制作一个供搜烦引擎收录的文字版Qƈ在首用文本链接指向文字版Q?BR>
  3. Ajax{搜索引擎不能识别的技术,只用在需要用户交互的地方Q不把希望搜索引??到的D及正文内Ҏ(gu)到Ajax中;

  4. 不用frame和iframe框架l构Q通过iframe昄的内容可能会(x)被百度丢弃?

|站l构

|站应该有清晰的l构和明晰的DQ这能帮助用hl从你的|站中找到自己需要的内容Q也可以帮助搜烦引擎持箋理解|站中每一个网|处的l构层次?/P>

|站l构采用?wi)型l构Q树(wi)型结构通常分ؓ(f)以下三个层次Q首——频道——文章页。象一大?wi)一P首先有一个树(wi)qԌ首页Q,然后再是?wi)枝Q频道)Q最后是?wi)叶Q普通内定wQ。树(wi)型结构的扩展性更强,|站内容变多Ӟ可以通过l分?wi)枝Q频道)来轻村ֺ寏V?/P>

理想的网站结构应该是更扁q一些,从首到内容늚层次量,q样搜烦引擎处理hQ会(x)更简单?/P>

同时Q网站也应该是一个网状结构,|站上每个网都应该有指向上、下U网以及相兛_容的链接Q首|到频道页的链接,频道|到首和普通内定w的链接、普通内定w有到上频道以及首页的链接、内容相关的|页间互相有链接?/P>

|站中每一个网,都应该是|站l构的一部分Q都应该能通过其他|页链接到?

ȝ一下,合理的网站结构应该是一个扁q的?wi)型|状l构?/P>

癑ֺ优化
  1. 保每个面都可以通过臛_一个文本链接到达;

  2. 重要的内容,应该能从首页或者网站结构中比较的层次讉K刎ͼ

  3. 合理分类|站上的内容Q不要过度细分?

|站应该有简明、清晰的DQ可以让用户持箋扑ֈ自己需要的内容Q同时也可以帮助搜烦引擎更好的了解网站的l构?/P>

癑ֺ优化
  1. 为每个页面都加上D栏,让用户可以方便的q回频道、网站首,也可以让搜烦引擎方便的定位网在|结构中的层ơ;

  2. 内容较多的网站,使用面包屑式的导航,q更Ҏ(gu)让用L(fng)解当前所处的位置Q网站首?> 频道 > 当前览面 Q?

  3. D中用文字链接,不用复杂的js或者f(xi)lashQ?

  4. 使用囄做导航时Q可以用Alt注释Q用Alt告诉搜烦引擎所指向的网内Ҏ(gu)什么?

合理的返回码

癑ֺ爬虫在进行抓取和处理Ӟ是根据http协议规范来设|相应的逻辑的,所以请站长们也量参考http协议中关于返回码的含义的定义q行讄?/P>

Baiduspider 对常用的httpq回码的处理逻辑是这L(fng)Q?

404 q回码的含义?“Not Found”,癑ֺ?x)认为网已l失效,那么通常?x)从搜烦l果中删除,q且短期?spider 再次发现q条 URL 也不?x)抓取?/P>

503 q回码的含义?“Service Unavailable”,癑ֺ?x)认|页临时不可讉KQ通常|站临时关闭Q带宽有限等?x)生这U情c对于网返?03Q百?spider 不会(x)把这?URL 直接删除Q短期内?x)再讉K。届时如果网已恢复Q则正常抓取Q如果l返?03Q短期内q会(x)反复讉K几次。但是如果网长期返?03Q那么这?URL 仍会(x)被百度认为是失效链接Q从搜烦l果中删除?/P>

403 q回码的含义?“Forbidden”,癑ֺ?x)认为网当前禁止访问。对于这U情况,如果是新发现的URLQ百?spider 暂不抓取Q短期内?x)再ơ检查;如果是百度已l收录的URLQ当前也不会(x)直接删除Q短期内同样?x)再讉K。届时如果网允许访问,则正常抓取;如果仍不允许讉KQ短期内q会(x)反复讉K几次。但是如果网长期返?03Q百度也?x)认为是失效链接Q从搜烦l果中删除?

301 q回码的含义?“Moved Permanently”,癑ֺ?x)认为网当前蟩转至新URL。当遇到站点q移、域名更换和站点改版的情冉|Q推荐?01q回码,量减少改版带来的流量损失。虽然百度spider 现在?01跌{的响应周期较长,但是我们q是推荐大家q么做?/P>

癑ֺ优化
  1. 如果站点临时关闭Q当|页不能打开Ӟ不要立即q回404Q徏议?03状态?03可以告知癑ֺspider该页面(f)时不可访问,误D|间再重试?

  2. 如果癑ֺspiderҎ(gu)的站Ҏ(gu)取压力过大,请尽量不要?04Q同样徏议返?03。这L(fng)度spider?x)过D|间再来尝试抓取这个链接,如果那个旉站点I闲Q那它就?x)被成功抓取了?BR>
  3. 有一些网站希望百度只收录部分内容Q例如审核后的内容,累积一D|间的新用户页{等。在q种情况Q徏议新发内Ҏ(gu)时返?03Q等审核或做好处理之后,再返回正常状态的q回码?BR>
  4. 站点q移Q或域名更换Ӟ请?01q回码?