一:了解搜索引擎
搜索引擎:由蜘蛛程序沿着链接爬行和抓取网上的大量页面,存进数据库,经过预处理,用户在搜索框 输入关键词后,搜索引擎排序从数据库中挑选出符合搜索关键词要求的页面,。
在搜索时,有一些没用的停止词:的,得,地,啊,呀,从而,所以 ,却,the,a,an,to,of等,这些词对于页面的主要意思没有影响。
PR值(发明人佩奇(Page)):把互联网理解为由结点及链接缓存的有向图,页面就是一个个结点,页面之间的有向链接传递着页面的重要性,一个链接传递的PR值决定于导入链接所在页面的PR值,发出链接的页面本身的PR越高,所能传递出去的PR值越高。传递的PR值也取决于页面上的导出链接数目。PR值也就是看别人怎么评价一个页面。
双引号:把搜索词放到双引号中,表示完全匹配搜索,
减号:代表搜索不包含减号后面的词的页面。使用这个指令时,减号前面必须是空格,减号后面没有空格
星号:(百度不支持)代表任何文字。
Inurl:指令用于搜索查询词出现在URL中的页面。百度跟google都支持。
Inanchor:指令返回的结果是导入链接锚文字中包含搜索词的页面。百度不支持。
Intitle:指令返回的是页面title中包含资讯的页面。百度跟goole都支持
Allintitle:搜索返回的是页面标题中包含多级关键词的文件。
例如:allintitle:SEO 搜索引擎优化,就相当于intitle:SEO intitle:搜索引擎优化
Allinurl:与allintitle类似
Filetyep:用于搜索特定的文件格式。
例如:filetype:pdf SEO
Site:是用来搜索某个域名下的所有文件。这个方法是查询网站收录页面数的最直接的方法。
Link:用于搜索某个Url的反向链接,既包含内部链接,也包括外部链接。百度不支持。】
Linkdomain:指令只适用于雅虎,返回的是某个域名的反向链接,
Related:指令只适用于google,返回的结果是与某个网站关联的页面。
最常见的工具还是google关键词工具及百度指数,
关键词的分布:核心关键词位于塔尖,只有两三个,使用首页优化,
次一级关键词可能有几十个
更多的长尾关键词位于具体产品页面。
二:网站结构优化
目的:用户体验,收录,权重分配,锚文字。
1:搜索引擎蜘蛛能不能找到网页
所有的页面可能通过可爬行的普通HTML链接达到,JS链接、Flash中的链接等搜索引擎蜘蛛一般不能跟踪爬行,就会造成收录问题。
2:找到网页后能不能抓取页面内容
数据库动态生成、带有过多参数URL、SessionID、整个页面是Flash、框架结构(frame)、可疑的转向、大量复制内容等都会使搜索引擎敬而远之
1:flash,
2:SessionID,
3:各种的跳转,302跳转,JS跳转,Flash跳转、Meta Refresh跳转
而301跳转是搜索引擎推荐的。
4:框架结构,frame
5:动态的URL,尽量对于动态的URL进行一下,静态化。
6:JS链接,JS链接在SEO中有特殊的用途,就是站长不希望被收录的页面,不希望传递权重的链接,可以使用JS脚本阻挡搜索引擎爬行。
7:要求登录的页面,搜索引擎无法看到,‘
8:强制使用cookie,因为搜索引擎就相当于一个禁用了cookie的浏览器,所以如果cookie只能造成搜索蜘蛛无法正常访问。
用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。如果文件不存在或者是空文件,表示搜索引擎抓取所有内容,最好的创建一个空的robots.txt文件。放到根目录下。
而且这个文件是区分大小写的
Robots文件记录格式为:
<域>:<可选空格><域值><可选空格>
例如:User-agent: *
Disallow:/
上面的这个robots文件禁止所有搜索引擎抓取任何内容。
User-agent:指定下面的规则适用于哪一个蜘蛛,通配符*代表所有搜索引擎。
如果是只适用于百度蜘蛛则用:
User-agent:Baiduspider
只适用于google蜘蛛则用:
User-agent:Googlebot
Disallow:告诉蜘蛛不要抓取某些文件或者目录,
例如: User-agent:*
Disallow:/cgi-bin/
Disallow:/tmp/
Disallow:/aa/index.html
上面表示,阻止抓取某个目录下的内容及文件
如果想要禁止多个也可以写成
Disallow:/cgi-bin/ /tmp/ 这种形式也可以。
有Disallow相应的也就有Allow,
Allow: /ab/cd/
$通配符:匹配URL结尾的字符,
Allow: .htm$
上面的表示允许蜘蛛抓取以.htm为后缀的URL。
*通配符:匹配任意一段字符,
Disallow: /*.htm 表示禁止蜘蛛抓取所有的htm文件
Sitemaps 位置:告诉蜘蛛XML网站地图在哪里,格式为:
Sitemaps:<网站地图位置>
需要注意的是,虽然,要想使URL完全不出现在搜索结果中,需要使用页面上的meta robots标签。
2:meta robots标签
用于指令搜索引擎禁止索引本页内容。
最简单的Meta robots标签格式为:
<meta name=”robots” content=”noindex,nofollow”>
上面的意义是:禁止所有搜索引擎索引本页面。禁止跟踪本页面上的链接
Noindex:告诉蜘蛛不要索引本页面。
Nofollow:告诉蜘蛛不要跟踪本页面的链接
Nosnippet:告诉搜索引擎不要在搜索结果中显示说明文字
Noarchive:告诉搜索引擎不要显示快照
Noodp:告诉搜索引擎不要使用开放目录中的标题和说明’
3:nofollow的使用
<a href=”#” rel=”nofollow”>这里是锚文字</a>
链接的nofollow属性只适用于本链接,而之前的meta robots标签中的nofollow指的是页面上的所有的链接。搜索引擎看到这个标签是不会跟踪爬行,也不传递链接权重的锚文字。
一般用于博客评论,论坛帖子,社会化网站,留言板等地方。因为这些地上 的链接不是经过站长自己编辑的,所以这个链接不是一个信任链接。
另外,可用于广告链接,因为广告同时也是个链接,会影响权重流动和搜索引擎排名。
还有例如联系我们,隐私政策,用户条款,用户登录等链接上,也需要使用nofollow
此外:对于一些产品页面,例如里面有产品图片,名称,价格和比较价格按钮都是指向产品页面的链接,但是其中的价格跟“比较价格”就需要使用NF属性,使搜索引擎不要跟踪这两个链接,其意义就在于这两个链接的锚文字对于产品页面没有任何帮助,产品图片链接里面的ALT文字和名称的链接中的锚文字都可以使对应的产品页面相关性提高,改善排名。
文件名中单词间最好使用短横线(-)分隔,不要使用下划线或其他更奇怪的字母,搜索引擎把URL中的短横线当做空格 处理,下划线是被忽略。
搜索引擎挑选最合适的URL作为真正(规范化)的网址的过程
不同的URL访问的是同一个页面,例如:
因为网址的不规范化,会给搜索引擎收录和排名带来 很多麻烦,比如网站首页应该是固定的,只有一个,但是很站长在链接回首页时所使用的URL并不是唯一的。
解决方法:
表示本网址永久性转移到另一个地址。
302:表示临时性转向。
其中的302转向,JS转向,Meta refresh等,除了301以外都是作弊手法 。
301转向,能传递页面权重。
使用:
例如多个不同的URL访问是其实是一个页面时,就可以将这些所有的URL301转向到一个规范化的网址上去,
<link rel=”canonical” href=www.baidu.com?item=swedish-fish/>
下面的这些URL都可以加上这段canonical标签
而这些URL规范化网址就是
这个标签相当于一个页面内的301转身,区别在于用户并不被转向,还是停留在原网址上,而搜索引擎会把它当做是301转向处理,把页面权重集中到标签中指明的规范化网址上。
注意:
此标签最好使用绝对地址。
比如电子商务网站上多按价格,时间,尺寸升降排序,生成的URL全都不一样,但是内容大体相同 ,就可以使用这个标签 ,
使用绝对路径有助于解决网址规范化问题,
打印版本:很多网站除了正常供浏览的页面外,还提供更适于打印的页面版本,
使用SessionID:搜索引擎在不同时间访问网页的时候,被 给予了不现的sessionid,实际上网页内容是一样的。
网页实质内容 太少:
如果是由于网址规范化问题造成的,则要进行网址的规范化。
如果非网址规范化问题,则选取一个版本允许收录,其他 版本禁止搜索引擎抓取。既可以使用robots文件,也可以使用noindex meta robots标签禁止索引,连向不希望收录复制内容的链接使用nofollow,JS等阻止蜘蛛爬行。
也可以使用canimal标签,带有sessionid的页面也可以使用canonical标签,
sitemap: 首字母s需要小写,
Sitemap:首字母S大写。由XML标签组成,文件本身必须是utf8编码,网站地图文件实际上就是列出网站需要被收录的页面URL,
例子:
<?xml version=”1.0″ encoding=”utf-8″ ?>
<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″ >
<url>
<loc>http://www.example.com</loc>
<lastmod>2010-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Lastmod表示页面最后一次的更新时间。
Changefreq表示文件更新频率,标签值包括。
Always:一直变动
Hourly:每小时
Daily:每天。
Weekly:每星期
Monthly:每月
Yearly:每年
Never:从不改变
Priority是表示URL的相对重要程度。0.0-1.0之间的数值,1.0最重要。
制作好网站地图后,有两种方式 通知搜索引擎网站地图的位置。
一:在站长工具后台提交网站地图文件,
二:在robots.txt文件中通知搜索引擎网站地图文件位置,
每个网站都有一些在功能及用户体验方面很必要,但在EO角度没必要的页面,如隐私政策,用户登录页面,联系我们,甚至还包括关于我们,但是这些链接会造成权重的浪费,
解决方法:
1:只在首页显示链接,其他页面取消链接
2:使这些碳的链接不能被跟踪或传递权重,例如nofollow标签或使用Js链接,某些在所有页面显示的链接可以这样处理,如用户注册及登录页面,
3:例如电子商务网站列出的帮助信息,购物付款流程,送货信息,公司新闻等,这些页面从SEO角度看都没有什么价值。
1:多一层分类可以给大中型网站带来的结构利益是巨大的,
2:对翻页链接进行格式变化,例如可以将翻页改成:
1,2,3,4,5,10,20,30,40,50
3:而且有的会做成两行的页数链接
第一行:1,2,3,4,。。。。。。。。10
第二行:11,21,31,41,。。。。101
这里的meta标签指关键词标签(keyword tag)和说明标签(description tag)。系统站长应允许站长完全删除这两个标签,因为对搜索引擎排名几乎没有作用。
不应该把所有页面的网站名称都祚在H1标签中,首页应该使用网站名称,或者允许客制化H1标签中的内容,分类页面应该把分类名称放入H1标签,而不是网站名称,产品页面,则应该把计算器名称放入H1标签
三:页面优化
建议title紧接着写在head之后,然后再写其它的标签和代码
页面的标题要,独特不重复。即使在同一个网站 内,主题相同,不同页面具体内容不会相同,页面标题也不能重复每个页面都需要自己独特的标题标签,
最常见的重复标题就是忘记写标题标签。最常见的是最内页直接调用 产品名称或者文章标题,分类页面使用分类名称,首页建义人工撰写。
另外:
有的时候生成独特标题并不是一件简单的事,比如电子商务网站的分类页面,同一个分类下产品数量比较多时,产品列表页面必然需要翻页,这些分类页面的标题通常都是“分类名称-网站名称”格式 ,这里程序员就需要在标题中加入页数。使翻面页面标签不同,分类第一页不必加页号,从第二页开始页面标题最前面加上“第二页”,“第三页”等文字,
关键词出现在最前面:例如索尼数码相机-数码相机-电子产品-**电器网
网站被开放目录收录时,google,雅虎,bing有时候会取开放目录中的标题作为搜索结果列表中的页面标题,而不使用页面本身的TITLE标签内容,而开放目录中的标题是由编辑确定的,不一定是站长最想要的标题,站长可以使用noodp标签强制搜索引擎不使用开放目录标题。
<meta name=”googlebot” content=”noodp”>
同样也可以使用Noodp禁止搜索引擎使用开放目录的说明文字。
关键词标签为keywords,而且它是跟SEO没有关系的标签
一般来说,篇幅不大的页面出现两三次关键词就可以了,比较长的页面4-6次也已经足够。
正文前50-100个词中出现的关键词权重比较高,最好第一段第一句话就出现关键词。
H1最重要,H6重要性最低,H3以下的标签权重很低了,和普通页面文字差不多了。
ALT文字是指图片的替换文字。
但是里面最好不要堆积关键词,只要出现一次关键词就可以了。
图片做成链接时,ALT文字就相当于设计院链接的锚文字 。主要用于英文网站中。
1:使用外部文件定义CSS或者JS
2:减少或删除注释
3:减少表格,特别是嵌套表格
4:HTML页面文件最好限制在100KB以下,页面上链接数在100个以下。百度目前建义HTML文件最好不要超过128K
搜索引擎给予黑体、斜体中的文字比普通文字多一点权重。
黑体有时候有助于帮助分词。比如为避免搜索引擎把“搜索引擎优化”拆分,可以把这几个字全部设为黑体。
对某些 有时效性的网站 来说,比如博客和新闻网站等,页面更新也常能提高排名。
沙盒效应:是指新网站在google很难得到好的排名,无论怎么优化这个网站。有点像给予新网站的试用期。在这段试用期内,新网站几乎无法在搜索竞争比较激烈的关键词时得到好的排名。
四:外部链接建设
数目众多的外部链接指向某一个URL。
这些链接都以特定关键词为链接锚文字
被链接的页面一般并不包含这个关键词。
方法就是只在首页或网站地图放上友情链接页的链接,其他页面都没有连向友情链接页的链接,或者链接放上Nofollow属性
有的站长使友情链接页看似普通网页,链接结构也正常,但其它使用robots.txt文件或meta noindex标签使友情链接页根本不能被搜索引擎收录,解决方法:就是在交换链接时还得考虑链接页的PR值,页面有PR值,说明可以被搜索引擎收录。
友情链接加上nofollow属性,有的在页面HTML代码头部加上,meta nofollow标签,使页面上所有链接不能传递权重,
有的做的更隐蔽,“链接”是通过转向,但通过使用JS,这样的除非你去检查页面的源代码否则 很难发现对方给的链接其实是通过脚本转向的
解决方法:
访问网站的http://www.domain.com时,看一下真正的首页是哪一个页面。
情景:有些站长检查你的网站有哪些外部链接,然后告诉你:我已经从网站 A链接向你,主你连向我的网站B,
问题:有可能是当前联系你的站长跟这一个网站A根本没有一点关系。
有的站长打着三向链接的旗号,要求你的链接必须得连向他的真正的商业性网站,他却从一个垃圾网站链接向你,这种垃圾网站最常见的形式就是垃圾目录,没有什么权重,也没有真实的访问流量,是专门用来做友情链接的。
五:SEO作弊手法
页面上出现用户看不到,但搜索引擎能看到的文字。一般都是包含大量关键词。
使用微小文字。
指站长为了提高排名,在其他任何可以留言的网站留下自己的链接,比如开放评论的博客,留言板,论坛,文章带有评论功能的网站,等。
指整个网站或网站中的一部分页面,没有任何实质内容,完全是为了交换链接而存在。很多时候是同一个公司或站长所控制的一群网站。
是页面使用程序判断访问者是普通用户还是搜索引擎蜘蛛,如果是普通用户返回一个不考虑SEO,只是给用户看的正常页面,如果是搜索引擎则返回一个高度优化,常常优化到语句已经没办法读的程度的页面。
判断网站是否使用了隐藏页面的解决方法:
访问网站时改变浏览器的用户代理(user-agent),将自己的浏览器伪装成搜索引擎蜘蛛,
不过比较高级的隐藏页面程序还会检查访问来自哪一个IP地址,
另外一下判断方法就是看网页在搜索引擎中的快照,如果快照中显示的和用户在浏览器中看到的内容差别巨大,就说明是隐藏页面技术。
如果作弊者从域名A做301或302转向到域名B,而B的PR值是比较高的,则域名A在PR更新后,也会显示跟域名B的PR值,
解决方法:就是查看google的网页快照
最后,小知识
1:如果网站是以PPC广告,也就是按付费广告为主,那么网站目标就是让浏览者点击广告链接,
如果网站是以CPM也就是按显示次数付费为主广告,浏览者在网站上停留的时间越长越好,打开大越多越好,最好不要离开网站。
2:信息类网站 靠显示广告赢利,网站目标是尽量增加页面访问数(PV),在网站结构上要提高PV将文章 公布是方法之一,所以大家可以看到很多门户资讯网站将明明 不长的文章公为几页,代价是页面和链接权重分散,收录可能成为问题。
3:百度跟google的区别
在收录方面,google很容易收录,但是因为沙盒效应,获得好的排名难,
百度收录难,一旦收录,排名越好,
百度有很大的首页优势,而google对所有的页面一视同仁,
Google对外部链接很重视,但对页面元素没有那么敏感
百度对外部链接的依赖性比较小,对页面本身的相关性却比较敏感。这种敏感既体在,在正确的地方出现关键词有助一起排名,也体现在关键词显得堆积时,更容易引来惩罚,相比之下,google既不会因为关键词出现次数多给予好的排名,也不会因为关键词出现次数过多给予惩罚。
百度对网站更新比较看重,持续有规律的增加内容往往可以有效地提高 在百度的排名,而google对内容更新没有百度那么敏感,
4:网站改版注意事项
网站改版时尽量不要同时更改导航系统,对主要导航系统的修改,往往会使网站上链接结构,页面权重的流动和分配产生重大改变,所以应该在网站CMS系统或URL系统修改完成后几个月之后,收录已经恢复原有水平之后再修改导航系统。
5:网站logo,所有页面左上角的Logo做成 连至首页的链接,ALT文字,图片文字相当于链接锚文字,为避免过度优化,与首页title稍作区别。
个人能力有限以后会补充,欢迎斧正!
原文链接:https://www.cnblogs.com/bsyblog/p/4182721.html
原创文章,作者:优速盾-小U,如若转载,请注明出处:https://www.cdnb.net/bbs/archives/22692