多域名共用和Robots指定主域名

太阳底下无新事,企业把多个域名绑定同一服务器,指向同一个网站。派代网就这么干过,老大觉得咱有很多NB的域名,闲置可惜,每个域名都绑定上去。无独有偶,在扣扣群里,有位学员说公司启用新域名,网站上新版,欢迎大家前去拍砖之类的客气话。我注意他们新旧两个域名在同时使用,提醒他们,负责人不以为然,轻描淡写的说,他做过尝试,多个域名同时使用,对SEO的影响没有想象中严重,考虑到没多久就要上线,也没写robots指定主域名。

这位电商网站的负责人对SEO的认识有两个误区:

一、不够重视多域名共用对SEO的影响

搜索引擎说了,多域名共用会被搜索引擎视为复制页面,就连www.name.com,name.com都要指定唯一主域名,何况多个域名。

Google搜索引擎优化指南》在“优化URL结构的好方法”里告诫网站管理员:

为同一文档提供统一的URL——在访问同一内容时,为了防止一些用户链接到 一个版本的URL而另一些用户链接到另一个版本(URL的不同可能会分散弱化 该内容的声誉值),我们建议您在您页面的内部链接和结构中集中使用一个URL。如果您发现有用户通过不同的URL来访问同样的内容,您可以对不希望 使用的URLs设立301 重定向到您所期望使用的URL。

请注意避免:

  • 无论是从根目录还是子域名(例如 “domain.com/page.htm” 和 “sub.domain.com/page.htm”)访问的内容都是相同的。
  • 在您的内部链接结构中混合使用 www.和非 www.版本的 URL
  • 在 URL 中使用奇怪的大写(大部分用户喜欢小写而且小写也便于 他们记忆)

百度搜索引擎优化指南》里

2.1.4 规范、简单的 url
创建具有良好描述性、规范、简单的 url,有利于用户更方便的记忆和判断网页的内容,也有利于搜索引擎更有效的抓取您的网站。网站设计之初,就应该有合理的 url 规划。
网站中同一网页,只对应一个 url
如果网站上多种 url 都能访问同样的内容,会有如下危险:

  • 搜索引擎会选一种 url 为标准,可能会和正版不同
  • 用户可能为同一网页的不同 url 做推荐,多种 url 形式分散了该网页的权重

如果你的网站上已经存在多种 url 形式,建议按以下方式处理:

  • 在系统中只使用正常形式 url,不让用户接触到非正常形式的 url
  • 不把 Session id、统计代码等不必要的内容放在 url 中
  • 不同形式的 url,301 永久跳转到正常形式
  • 防止用户输错而启用的备用域名,301 永久跳转到主域名
  • 使用 robots.txt 禁止 Baiduspider 抓取您不想向用户展现的形式
  • 让用户能从 url 判断出网页内容以及网站结构信息,并可以预测将要看到的内容

二、用robots文件能够指定主域名

今天Zac的博客里与网友分享了twitter的Google PR值降到零又恢复的案例,分析非常精彩,其中提到Twitter为追求URl规范化,通过robots文件来禁止搜索引擎抓取www版本的内容,所以虽然www版本做了301转向到不带www的版本,但Twitter禁止搜索引擎抓www版本,所以搜索引擎蜘蛛看不到那个301啊。连向Twitter的链接有的是链到www版本,有的是不带www的版本,既然www版本禁止爬行,看不到301,链接权重不能传递,浪费了。

用robots只能禁止搜索引擎蜘蛛对网站的爬行,远远不如用301重定向来的好,既能达到唯一域名的目的,又能把老域名的权重传递给新域名。

创建对SEO友好的URL

如何使用robots.txt

robots.txt 文件对抓取网络的搜索引擎漫游器(称为漫游器)进行限制。这些漫游器是自动的,在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件。如果你想保护网站上的某些内容不被搜索引擎收入的话,robots.txt 是一个简单有效的工具。这里简单介绍一下怎么使用它。

如何放置 Robots.txt 文件

robots.txt 自身是一个文本文件。它必须位于域名的根目录中并 被命名为”robots.txt”。位于子目录中的 robots.txt 文件无效,因为漫游器只在域名的根目录中查找此文件。例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/mysite/robots.txt 则不是。

这里举一个robots.txt的例子:

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~name/

使用 robots.txt 文件拦截或删除整个网站

要从搜索引擎中删除您的网站,并防止所有漫游器在以后抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:

User-agent: *
Disallow: /

要只从 Google 中删除您的网站,并只是防止 Googlebot 将来抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:

User-agent: Googlebot
Disallow: /

每个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 托管内容的时候,这些协议都需要有各自的 robots.txt 文件。例如,要让 Googlebot 只为所有的 http 网页而不为 https 网页编制索引,应使用下面的 robots.txt 文件。

对于 http 协议 (http://yourserver.com/robots.txt):

User-agent: *
Allow: /

对于 https 协议 (https://yourserver.com/robots.txt):

User-agent: *
Disallow: /

允许所有的漫游器访问您的网页

User-agent: *
Disallow:

(另一种方法: 建立一个空的 “/robots.txt” 文件, 或者不使用robot.txt。)

使用 robots.txt 文件拦截或删除网页

您可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。 例如,如果您正在手动创建 robots.txt 文件以阻止 Googlebot 抓取某一特定目录下(例如,private)的所有网页,可使用以下 robots.txt 条目:

User-agent: Googlebot
Disallow: /private

要阻止 Googlebot 抓取特定文件类型(例如,.gif)的所有文件,可使用以下 robots.txt 条目:

User-agent: Googlebot
Disallow: /*.gif$

要阻止 Googlebot 抓取所有包含 ? 的网址(具体地说,这种网址以您的域名开头,后接任意字符串,然后是问号,而后又是任意字符串),可使用以下条目:

User-agent: Googlebot
Disallow: /*?

尽管我们不抓取被 robots.txt 拦截的网页内容或为其编制索引,但如果我们在网络上的其他网页中发现这些内容,我们仍然会抓取其网址并编制索引。因此,网页网址及其他公开的信息,例如指向该网站的链接中的定位文字,有可能会出现在 Google 搜索结果中。不过,您网页上的内容不会被抓取、编制索引和显示。

作为网站管理员工具的一部分,Google提供了robots.txt分析工具 。它可以按照 Googlebot 读取 robots.txt 文件的相同方式读取该文件,并且可为 Google user-agents(如 Googlebot)提供结果。我们强烈建议您使用它。 在创建一个 robots.txt 文件之前,有必要考虑一下哪些内容可以被用户搜得到,而哪些则不应该被搜得到。 这样的话,通过合理地使用 robots.txt , 搜索引擎在把用户带到您网站的同时,又能保证隐私信息不被收录。