一般来说,url中的数字#是锚点的标记。当网址打开时,访问者的视线会定位在指定的位置,这样访问者就可以直接看到网页中间的一段内容。自从推特开始以来,#就被附加到新的——主题上。许多网站管理员直接添加参数后的 # 标志和参数是有效的,也就是说,# 标志被删除,不删除,打开的页面是完全不同的。
目前百度对带#号的URL收录策略是自动去掉#号后面的内容,仅仅对#前面的URL进行建库。所以使一些站长认为有意义的页面有价值,百度却无法收集,随后影响新链接的抓取和整体SEO效果。
所以站长在建站的时候对#号的使用一定要慎谨,不建议在有独特内容价值的url上使用#号。
case1:y.qq.com/#type=toplist p=top_2
说明:百度仅对去掉“#type=toplist&p=top_2”后的y.qq.com捕获,导致爬虫得到的页面与浏览器打开的页面不一致;高级页面不能包括在内,也不能跟随页面上的新链接。
case2:lvyou.baidu.com/changbaishan#/scene-remark-anchor
说明:虽然该url有着极优质的点评工作内容、用户管理可以同时通过网络访问该地址获得需要大量有用数据信息,但被百度建库的lvyou.baidu.com/changbaishanh并没有一个针对这些景点管理评论以及相关研究关键词可以进行分析优化,导致其很难在“长白山环境怎么样”之类的长尾query下有好的表现。该页面所有点评内容都是通过JS异步加载实现的,导致百度根本不知道该页面上有这么优质的原创内容,这些内容自然也无法通过搜索引擎获得流量。