Apr 15
--begin by itlife365
分享Google 对站点地图 Sitemap 的一些限制因素
Google对XML格式的Sitemap在数量上、编码等方面是有一些限制,如下:
1、Sitemap中的网址必须是绝对网址,包括参数等,如http://fashionput.com/detail/3563/The-Leather-Satchel-Company-Saddle-Bag;
2、s=sitemap的格式错误
 千万不能使用类似于“/index.php?s=sitemap”这样的相对网址。

3、数量上的限制
 每个Sitemap文件最多可以包含50,000 个网址且sitemap大小不得超过10MB
 假如网址超过 50,000 个则应创建多个Sitemap文件,然后可以采用Sitemap的索引文件把这些文件包含起来。

3.1 Sitemap索引文件最多可以列出 1,000个 Sitemap;

4、Sitemap中的网址应该使用相同的域名,且是本站的域名,不得出现两个或以上的域名,也不能出现外站的域名:
如fashionput.com的Sitemap中的网址只能是:http://www.fashionput.com.com/index.php,或:http://fashionput.com.com/index.php(两者选择其一,不能混用)
不能是其他网站的地址http://www.itlife365.com/

5、最重要的一条 Sitmap文件必须使用 UTF-8格式的编码。

6、不要在 Sitemap 中包含直接图片网址。 Google 不会将图片直接编入索引中,Sitemap 中包含的直接图片网址不会编入索引。
如果需要包含图片,可以使用标签image
比如:
<image:image>
<image:loc>
http://fashionput.com/./Uploads/asos/4722838/image1xl.jpg
</image:loc>
<image:caption>Enlarge Estella Bartlett Lucky Necklace</image:caption>
<image:title>Enlarge Estella Bartlett Lucky Necklace</image:title>
</image:image>

格式参考:http://fashionput.com/sitemap.xml
其实这样看来,Google从理论上只支持一个网站有5千万个网页,这听上去其实很大了,一般网站有5000个网址都算很庞大了,
别说五千万,不过对于我们下来的实验项目,目标是上亿的,比如QQ的问问系统,现在都有上亿的个问答,显然要是通过Sitemap,估计完成不了这个任务了。
how-google-sitemap-xml-limit
最重要的一点,如果不知道文件是否过大,可以使用谷歌浏览器 访问,如果可以访问,就说明没有问题
--end by itlife365
Tags: , ,
Jan 22
一个优秀的SEOer深知怎样设定有效的URLs,但Web开发人员、IT人员和管理者可能不理解这管URLs什么事儿。一个精心构造的网站URls对搜索引擎爬虫、SEO和用户友好度有着重要的影响。
在这篇文章中,我会分享一系列URLs选择的最佳方法,并一一解释。

但在开始这个系列之前,送你一句公认的格言:除非它们坏了,否则不要更改你的URLs。如果你的网站被搜索引擎抓取和收的还不错,而且用户正在没有困难的情况下点击这些URLs,尽管它们又长又难看。无论如何,在这种情况下保持现状。搜索引擎优化提高的潜力小于潜在风险,有些事物在网页或搜索引擎的末端会产生故障。如果你是URLs坏掉了,下面是一些改善它们的方法。

让URLs尽可能短
对可用性的影响:据一些研究报告,人们更喜欢短的URL。搜索用户更有可能点击简短的URLs。Google的Maile Ohye写道,一个长URL “被用户点击的机会大大降低”,在搜索引擎结果页面(SERPs) 。Marketing Sherpa study证实,用户经常更多的点击短URLs。

对SEO的影响:功能差的网站只有很少的站外链接,未必看到爬虫抓取网站深处的内容。搜索引擎的爬虫会更频繁的访问和再次访问与根目录接近的内容,这些都是有着短URLs的页面。此外,出于显而易见的原因,其他的网站管理员和博客大多使用短 URLs作为页面链接;作为一个发布者,我信赖短URLs好过长的,而且往往避免链接到长的URLs,我不确定动态的能够残留到永久。

从URLs删除会话ID。
对抓取的影响:搜索引擎爬虫很少检索一个URL的会话ID ,因为有一个重要的可能,这个内容可能是另外一个URL的副本。像会话ID那样的长参数,也应予以避免。

在URLs中限制变量和参数
对抓取的影响:在某次会议上,Google的 Matt Cutts说过,URLs中的参数数量,限制在2个或3个为最佳。”在Google网站管理员中心的文章里也引用了上述观点,URLs太多参数时,有可能是网络请求生成的其它复制网址,所以爬虫会尽可能避免抓取它们。对可用性的影响:综上所述,用户更喜欢短的URL 。

在URLs中包含关键字
对SEO的影响:URL中的关键词有助于告诉爬虫网页与哪些内容有关。例如: www.domain.com/green-widgets.html 显然与绿色小工具有关,而另外一个URLs,如www.domain.com/product.php?ID=23476234则缺乏含义。URL中的关键词就像给爬虫的另外一个信号。

对可用性的影响:Marketing Sherpa study (和许多观点一样)指出,用户更喜欢用简短,明确的URL ,这会帮助他们在点击之前就能预先了解这些网页的内容。

使用连字符-分隔关键字
对搜索引擎优化的影响:爬虫承认连字符是一个空格。下划线和其他符号可能无法被爬虫识别。Matt Cutts在最近的一段视频中讲到,在分隔关键字时,连字符是最佳方法。

免责声明:不要过度使用。

一个像electronic-green-widget-repair-store.html的文件名,看上去像垃圾和不可信赖的信息。

URL规范化
对一个搜索引擎爬虫来讲,www.domain.com与domain.com并不相同。你的网站不应该在这两个地址中同时可用:选择一个(规范化域名)使用,并在所有时间使用这个。确保第二个域名使用301重定向到主域名。

额外提示:不知道该选择带www版本还是不带www的版本?有两个主要因素供你考虑:

哪个域名得到最多的站外链接?
在你自己的页面上,哪个域名更容易地改变(考虑内部链接,流量来源等等) ?
例如:如果你有大量站外链接指向domain.com ,而且很容易转换它的内部链接,还有把来自www.domain.com的流量转换到domain.com ,接下来你应该知道怎么做。

对搜索引擎优化的影响:选择一个主域名将有助于避免重复内容。这也将有助于集中你的站外链接“果汁”如果你的主页在domain.com和www.domain.com同时可用,运气好的话两个都获得了链接,那你的主页不能充分吸收所有站外链接的好处。

如果URLs发生改变,使用301重定向方法,将旧的URL指向到新URL
如果你必须更改你的URLs,使用301重定向从每个旧URLs指向到相匹配的新URL,可以尽量减少影响。不要用301将所有旧URLs重定向到新首页;这既对搜索引擎爬虫不友好对用户也不友好。

对搜索引擎优化的影响:使用301重定向是告诉爬虫,旧的URLs已被新网址永久取代。这样做的影响是,所有的站外链接“果汁”将通过此方法完成新旧URLs的过渡,使它具有更好的机会取代旧的网址,在搜索引擎结果中更干净。

对可用性的影响: 301重定向也将帮助你的网站访客直接到达新URL。

再提醒一句
彻底改变URL结构绝不应掉以轻心。我建议客户不要改变URLs,除非它们完全损坏。当你改变URLs后,你可能预料到这得忍受在搜索引擎中可见度的短期损失,即使当它们改变后能获取更多的搜索引擎友好度。从长远来看,如果你的URL结构做了正确改善,你终将会恢复网站在搜索引擎的可见度,甚至超过先前。目前没有办法来估计可能花费的时间。

URL 例子
下面就让我们来看看使用上述最佳做法的URL例子:
普通: http://www.domain.com/Shopping/Categories/Apparel_Clothing/
较好: http://www.domain.com/shopping/clothing.html
最佳:http://www.domain.com/clothing/

糟糕:http://www.domain.com/?cat=3423&pid=45345345&sessID=325646VGHD36523746&ref=56756
普通:http://www.domain.com/?cat=3423&pid=45345345

Tags: ,
Dec 4

慎用伪原创及采集功能,只有内容才留住访客
Good website content to keep visitors
   做站长的都知道,原创的重要性,原创是搜索引擎最喜欢的,对网站的收录、收入都是相当的不错。
   但是不少新的站长建站,图一时的安逸舒服省功夫又能赚到钱。从培训机构中或者其他地方,一般都是用些程序自动采集自动伪原创自动更新,然后挂上广告联盟的代码。用这种心态这种方法建站做不长远,网站的寿命也很短,做了一年半载的网站也没多少忠实用户。
   网站和商城店铺一样,更看重的是网站的回头客,被网站的质量做好了。流量自热而然就来了

   如果通过伪原创的网站,流量随着百度的排名高低飘忽不定,时高时低,而且做到一定程度自然会被百度K了,每天零零星星的几点流量,网站的寿命也将近结束。如果运气好,在流量高峰期或许能赚到点钱。
   如果不懂的操作,对seo方面不够了解,或许连空间域名的费用都赚不回来,很多新手到这个时候就可能半途而废。

   所以站长建站得有个良好的心态,就算你不懂优化,不去刻意的做什么推广,踏踏实实的做好内容,百度也会看得到,自然会给你带来一些流量。一不小心用户来了,发现你的网站上,有很多他感兴趣的内容,自然会添加一个收藏,下次再来访。我们也是一个普普通通的网民,我们对待其他网站也是这样。从百度上搜索到该网站了,发现该网站上有不少自己感兴趣的内容,自然也会添加收藏,或者记下域名或站点名称,方便下次来访。反而,那些广告一大堆,进去弹窗,还连续弹好几个,退出又弹的网站,一般不会再次来访了。因为用户的体验不好,造成的用户反感。

   很多站长伪原创(不知道什么是伪原创??),采用同义词或者拼音等替换对文章进行伪原创的方法让文章的整体内容阅读起来感到很难理解。且先不说百度到底是否判定给篇文章属于原创文章还是复制粘贴而来的文章,能不能获得流量排名。不知道采用该方法的站长有没有读过进行同义词替换后的文章,可读性极差,用词方面都是乱七八糟的,采集回来,虽然版权留下了,不清楚的朋友阅读了该篇文章还以为作者小学没毕业。就像做生意比的是服务,比得是质量。做网站也是,用户体验和内容一样重要,内容丰富,网站让访客看起来舒服,用起来方便。

  采集虽然能让你省了不少功夫,但这只是给互联网制造更多垃圾。但如果你做的网站需要整理很多内容,就希望有自己的的特色,而不是把别人的网站重新复制一遍。少量采集可以丰富一下网站的内容。如果是以采集为主的网站,寿命也是有限的。

  如果你一个人精力有限,你可以更新少量文章,不是更新的越多,收录的越多流量来的也越多。只要你的文章能给人带来帮助,做好相关优化,排名自然也会得到提升。就像我的简单街网站(www.jiandanjie.com)和IT学习网(www.itlife365.com)一样,上线一个月零几天,文章也不到一百篇。平均每天也是三篇文章左右。但现在搜索简单街购物,百度已经稳居第一了,怎么在简单街购物省钱,百度排名第二。还有不少关键词都在首页前三。现在直接输入域名访问的访客比搜索引擎来的访客还多。每天都用心的更新着网站,整理和分享更多大家感兴趣的内容,

   在此所以希望用心做站的朋友慎用伪原创及采集,认认真真的做一个能给访客带来帮助的网站,这里有他们感兴趣的内容,这样的网站随着时间的推移,就会有越来越多的忠实访客了。
Good website content to keep visitors ,you know

Nov 28
    学习了火车采集器的操作流程,原来发布到web网站需要购买才行,郁闷了
    看了一个晚上看了火车采集器的3个视频教程,大致了解了火车采集器的操作流程,
下载了免费版之后,在选择采集发布到网站的时候,被提示告知不支持,真是郁闷了
您选择了发布内容,但没选中【Web发布到网站】,【保存为本地文件】,【导入本地数据库】中的任何一步骤,任务启动失败
任务开始运行
正在初始化配置,请稍等...
当前任务中下列功能在该版本中不支持,请修改规则或者升级到高级版本:使用正文提取
Nov 12
最近把简单街的网站整理一下,因为有多个系统合成的,每个子系统都有自己的sitemap.xml
想把所有的sitemap.xml文件都整合一个文件。于是收集学习了sitemap.xml 的用法。
sitemaps.org制定了网站地图的标准格式,方便各大搜索引擎使用,更加方便网站使用。有了标准,就意味着可以为多个搜索引擎制作一组网站地图即可,而不需要分开。提交了网站地图给搜索引擎,蜘蛛会比较高效地抓取页面,但是并非一定会全部收录。
Google 可支持多种格式的网络站点地图,但建议您根据站点地图协议创建站点地图,这是因为相同的文件也可能会提交给其他搜索引擎,例如 Bing 和 Yahoo!,这些搜索引擎都是 sitemaps.org 的成员。
sitemap分为2种形式:
1、sitemap.html : 这种主要是针对用户而言,让用户能够快速的寻找到自己所需的东西,也是方便搜索引擎来有效的爬取网页内容,提高网站质量。
2、sitemap.xml  : 这种格式主要是谷歌自己推出的一种网站地图写法,你可以通过相关规范写出网站地图 然后通过“谷歌管理员工具”提交,这样谷歌的蜘蛛就能有目的的高效的快速的来访问网站,但是 提交的内容 谷歌蜘蛛没有保证一定都会收录!这个误区 请大家要区分开来。

sitemaps文件的限制:
     必须是utf-8的编码格式
     每个sitemap.xml文件包含的URL建议不超过5万个URL
     单个sitemap.xml文件不能超过10M大小

目前Google Yahoo和Ask.com支持的最新sitemaps标准是0.9版本。sitemaps文件必须为utf-8的编码格式,每个sitemaps文件只能有一个<urlset>的顶级标签。
   每个<url>标签是对一个URL的描述:
    <loc>是URL的绝对地址,必须用http或https开头
    <lastmod>是该URL的最后一次修改时间,使用YYYY-MM-DDThh:mmTZD 格式,如果不会输出时间格式,可以不写该项,属于可选;
    <changefreq>表示该URL的更新频率,可以设置为daily weekly always,<changefreq>表示该URL的更新频率,可以设置为daily(每天) weekly(每星期) always(始终) monthly(月) never(从不,对于存档的使用该项) hourly(小时) 注意:不含括号内的内容,属于可选;
    <priority>是该URL在整个站点的权重,是1.0~0.1之间的数值,属于可选。

引自Google帮助的实例:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"
        xmlns:image="http://www.sitemaps.org/schemas/sitemap-image/1.1"
        xmlns:video="http://www.sitemaps.org/schemas/sitemap-video/1.1">
  <url>
    <loc>http://www.example.com/foo.html</loc>
    <image:image>
       <image:loc>http://example.com/image.jpg</image:loc>
    </image:image>
    <video:video>    
      <video:content_loc>http://www.example.com/video123.flv</video:content_loc>
      <video:player_loc allow_embed="yes" autoplay="ap=1">http://www.example.com/videoplayer.swf?video=123</video:player_loc>
      <video:thumbnail_loc>http://www.example.com/thumbs/123.jpg</video:thumbnail_loc>
      <video:title>简单街导航</video:title>  
      <video:description>简单街导航</video:description>
    </video:video>
  </url>
</urlset>

Google的实例往往都是很高级的,有所有考虑到的可能,下面则是精简后普通的示例:

<?xml version='1.0' encoding='UTF-8'?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.jiandanjie.com/</loc>
<lastmod>2013-12-22T10:00:01+08:00</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
</urlset>

另外,sitemap.xml同sitemaps.xml的效果是一样的,所以不必区分。
除了XML格式的网站地图格式,谷歌(Google)还支持以下两种格式:
1、RSS、mRSS 和 Atom 1.0;
2、文本格式。
以上两种都必须是UTF-8格式。具体的请查看谷歌帮助。

在线的sitemaps生成工具:
     XML-sitemap.com 大型网站生成容易超时
     Webmaster 工具

常用的sitemap提交地址:

向Google提交网站地图Sitemap: 通过网址http://www.google.com/webmasters管理提交;
向Yahoo!提交网站地图Sitemap: 通过网址http://siteexplorer.search.yahoo.com管理提交;
向MSN提交网站地图Sitemap: 用URL直接提交:http://api.moreover.com/ping?u=http://your.domainname/sitemap.xml。这是向MSN直接提交网站地图的后门URL。
向ASK提交网站地图Sitemap: 直接提交。http://submissions.ask.com/ping?sitemap=http://your.domainname/sitemap.xml。
向百度Baidu提交网站地图Sitemap: 没办法,现在百度不支持Sitemap。但可通过http://www.baidu.com/search/url_submit.html来提交你的网址。百度会自行搜索,更新速度很快。
向搜搜soso提交网站地图Sitemap,搜搜不支持Sitemap。但可通过http://www.soso.com/help/usb/urlsubmit.shtml来提交你的网址。
向搜狗sogou提交网站地图Sitemap,搜狗不支持Sitemap。但可通过http://www.sogou.com/feedback/urlfeedback.php来提交你的网址。
向有道youdao提交网站地图Sitemap,有道不支持Sitemap。但可通过http://tellbot.youdao.com/report来提交你的网址。
Tags:
分页: 1/7 第一页 1 2 3 4 5 6 7 下页 最后页