网站管理员如何主动处理内容复制问题?

文章对如何避免出现复制网页、和保证网页内容的高质量及提高网页的权重,做了详细的阐述,并提供了方法。
作者是google的员工,绝对权威。

适当阻止搜索引擎访问:
与其让我们的算法来确定一个文件的”最佳”版本,你也许希望指引谷歌选取你的首选版本。譬如说,如果你不想我们索引你网站文章的打印版,你可以在你的robots.txt文件中写上目录名或正则表达式来禁止谷歌对那些打印版的抓取。
使用301重定向:
如果你已经重构你的网站,请在你的原网站的.htaccess中使用301重定向(永久性重定向)来重定向你的用户、Google爬虫、以及其他搜索引擎蜘蛛等。
链接要一致:
努力使你的内部链接保持一致; 不要既有/page/,又有/page和/page/index.htm 的内部链接.
使用顶级域名:为了让我们总是使用最合适的文件版本, 请尽可能使用国家特定的顶级域名。与诸如example.com/de或de.example.com的URL相比,谷歌肯定更清楚地知道example.de是以德文为核心的内容。
小心辛迪加式的联合供文:
如果你为其他网站上也提供你的内容,请在每一个其他网站的文章中包括连回原文章的链接。注意:即使是这样,对一个查询,谷歌总是显示我们认为是最适合的(没被网站禁止的)版本, 它可能是,也有可能不是你所想要的版本。
使用谷歌网站管理员工具的首选域功能:
如果其他网站链接你的URL时既使用www版本又使用无www的版本,你可以用谷歌网站管理员工具让我们知道你想要哪种索引方式。
减少模板网页上的重复内容:
拿版权声明来说,你有两种选择,一种是在你的每一个页面底部都有一个冗长的版权声明。另一种是设立一个专门的版权详细声明页,然后在每页底部写一个非常简短的总结,并链接到版权声明页。
避免发布无内容页:
用户不喜欢看到无实际内容的页面。要尽量避免空架页。以房地产网页为例,不要发布(或至少要阻止)没有点评的点评网页,或者没有房地产列表的房地产罗列网站等。只有这样,网站用户(以及Google爬虫)才不会看到无穷多的写着“以下是在【某城市名】中不可错失的待租房列表…”但其实根本没有什么列表的网页。
了解你的内容管理系统:
确保你熟悉你的网站是怎样显示内容的,尤其是当它包括了博客,论坛,或相关的系统。往往在这些系统中同一内容会以多种形式出现。
不要担心,保持快乐:
不要过分受搜刮(挪用和转载)你内容站点的干扰。虽然很恼人, 它们几乎不可能对你在谷歌中的存在产生负面影响。如果你实在忍无可忍, 欢迎你提出千禧年著作权法案申请 来声明对你的内容的所有权。我们会处理那些无赖网站。

原文摘自:巧妙地处理内容重复

网站管理员指南-Google 向网站管理员提供的信息

遵循以下指南将有助于 Google 查找、检索您的网站并对其进行排名,这是确保在 Google 搜索结果中列出您的网址的最佳途径。即使您选择不采纳这些建议,我们也强烈建议您密切关注”质量指南”,该指南对可导致网站从 Google 索引中彻底删除的一些违禁行为做了简要说明。一旦网站删除之后,Google.com 或 Google 所有合作伙伴网站的搜索结果中都不会再显示该网站。

网站设计与内容指南:

* 网站应具有清晰的层次结构和文本链接。每个网页应至少可以通过一个静态文本链接打开。
* 为用户提供一个网站地图,并列出指向网站重要位置的链接。如果网站地图上的链接超过大约 100 个,则最好将网站地图拆成多个网页。
* 网站应具有实用性且信息丰富,网页文字应清晰、准确地表述要传达的内容。
* 要考虑到用户会使用哪些关键词来查找您的网页,确保网站上包含了这些文字。
* 尽量使用文字而不是图像来显示重要的名称、内容或链接。因为 Google Crawler 无法识别图像中所包含的文字。
* 确保 TITLE 和 ALT 标记文字简单明了并与网页内容相关。
* 检查链接是否损坏,HTML 格式是否正确。
* 如果采用动态网页(即网址中包含”?”字符),请注意并非每一个搜索引擎 Spider 收录动态网页都能像收录静态网页一样容易。缩短参数的长度并减少参数数目将有助于收录动态网页。
* 将每一网页上的链接数量限制在合理的范围内(少于 100)。

技术指南:

* 由于大部分搜索引擎 Spider 查看网站的方式与文本浏览器一样,所以可使用诸如 Lynx 的文本浏览器来检查您的网站。如果因采用了 Javascript、Cookie、Session ID’s、frames (框架)、DHTML 或 Flash 等复杂技术,而导致在文本浏览器中无法看到网站的所有网页,则搜索引擎 Spider 在收录您的网站时可能会遇到麻烦。
* 允许搜索漫游器 (search bots) 收录您的网站,同时不采用 Session ID 或其它参数来追踪它的浏览路径。这些跟踪技术对了解个别用户的行为很有用,但由于漫游器的访问模式完全不同,采用这些技术则可能会导致对网站的检索不完整,因为漫游器可能无法排除那些看上去不同但实际却指向同一个网页的网址。
* 确保您的网络服务器支持 If-Modified-Since HTTP 标题。通过该功能 Google 可以知道自上次收录以来您的网站内容是否有变化,这样可以节省您的带宽和开销。
* 使用网络服务器上的 robots.txt 文件。该文件会告诉 Crawler 可以收取哪些目录。请确保该文件内容的更新,以免 Googlebot Crawler 的收录意外中断。有关来访漫游器和如何控制它们的常见问题解答,请访问 http://www.robotstxt.org/wc/faq.html。
* 如果贵公司购买了内容管理系统,请确保该系统能导出您的内容,以便搜索引擎 Spider 可以收录您的网站。

当您的网站一切准备就绪时:

* 一旦您的网站在线后,请将其提交给 Google,具体网址为:http://www.google.com/addurl.html。
* 确保应了解您网页的所有网站都知道您的网站已处于在线状态。
* 将您的网站提交给相关的目录,例如,Open Directory Project 和 Yahoo!。
* 有关详细信息,请定期查阅 Google 的网站管理员部分。

质量指南 – 基本原则:

* 网页应面向用户,而不是面向搜索引擎。对用户应保持诚实无欺的态度,提交给搜索引擎的内容应与显示给用户的内容一致。
* 请不要为了提高搜索引擎排名而弄虚作假。根据我们的经验,一个比较好的评定方法是:您是否可以坦然地向竞争对手解释您对网站所做的一切。另一个有用的测试方法则是扪心自问:”我这样做能否帮助我的用户?如果不存在搜索引擎,我是否还会这样做?”
* 请不要采用旨在提高您的网站排名或 PageRank(网页评级)的链接手段。尤其要避免链接到垃圾/作弊网站或”网上恶邻”,因为您自身的排名可受到这些链接的负面影响。
* 请不要用未授权的计算机程序提交网页、检查排名等。这些程序会耗用计算机资源并违反我们的服务条款。Google 不建议使用 WebPosition Gold(tm) 这类产品向 Google 发送自动或用程序编写的查询。

质量指南 – 具体建议:

* 请不要使用隐藏文本或隐藏链接。
* 请不要采用隐藏真实内容或欺骗性重定向的手段。
* 请不要向 Google 发送自动查询。
* 请不要大量使用与网页内容无关的关键词。
* 请不要创建包含大量重复内容的多个网页、子域或域。
* 请不要采用专门针对搜索引擎制作的”桥页 (doorway page)”,也不要采用如联属计划 (affliate programs) 这类原创内容很少或几乎没有原创内容的”饼干模子 (cookie cutter)”方式。

上述质量指南涵盖了最常见的作弊形式或操纵行为,对于此处未列出的其他误导行为(例如,通过注册知名网站的错误拼写形式来欺骗用户),Google 仍可予以拒绝。不要抱有侥幸心理,认为某种欺骗手段未在本页中列出,Google 就会认可该手段。作为网站管理员,与其花费大量时间寻找漏洞加以利用,不如尽其所能维护上述基本精神,以便为用户带来更好的体验,从而使网站获得更高的排名。

如果您认为有网站违背了 Google 质量指南,请告诉我们,网址为:http://www.google.com/contact/spamreport.html。对于网络作弊行为,Google 希望能开发出易于推广的自动解决方案,而尽量减少人为的干预。我们将利用收到的作弊行为报告来创建广泛适用的算法,从而识别并阻止未来的作弊行为。