建站知识
|
建站知识百度VIP大讲堂QA:抓取、建库、解析答:对IP,但1000万是我举例,不是实际的数据,这个数据不会分享出来的。 问:现在我的网站被很多蜘蛛爬,我想只让百度蜘蛛爬,百度蜘蛛IP多少?能设白名单么? 答:百度蜘蛛IP是不断变的,现在网上的确有一些白名单的说法,暂时是有较的,但不保证今后不会变,所以建议站点还是通过ua进行判断,我们百度站长平台上有相关的文章,你可以找一下。 问:如果我写robots只想禁掉动态链接的话,会不会影响动态参数前面正常链接的抓取? 答:不会的,你原来的页面还在,肯定会抓。 问:比如我们一个域名www.abcde.com,我们想把带?号的url全部禁掉,首页我们不要禁掉,怎么弄? 答:?前面有个*,后面再有个*就可以了。 问:我想了解,如果我现在收录有5万,大概多长时间才能把我原来收录5万重新抓取一遍? 答:不同站点不好说,一个是你站点做的很好,知名度很响更新很快质量很好就会快;如果你的站点默默无闻,贡献很少,可能就会很慢。 (接上个问题) 问:就是差不多的情况,大概。 答:这个没有人能估出来。 问:百度站长平台上有数据提交的工具,我们实时提交,你们也会实时抓取吗? 答:不会,他会有一层判断。现在只是通知你提交成功,后面什么时候抓,什么时候建库没有,我们正在研究要不要把这个分享出来。 问:我网站有一些列表页,都没有链接,担心百度抓不到 答:现在百度站长平台的站内搜索工具有一个绿色收录通道,在那里提交种子页,我们就知道的。 (接上个问题) 问:提交种子页面必须要用站搜? 答:是的。 问:如果说页面里url特别多的话,蜘蛛会不会有选择性的进行抓取? 答:不会,他都会一个不漏给你提出来,但会把JS、CSS这样的链接给过滤掉。但请注意,全部抓取过来之后会进行筛选,并不是所有都会建库。 问:现在很多网站都有自己的站内搜索,都会产生站内搜索结果页,百度不喜欢搜索结果页的话,我们用这个会不会对我们有影响?只是不喜欢还是对我们网站会有惩罚 答:蜘蛛会去抓,抓完之后重要是提取里面的链接。如果只有一两条这样的页面质量不好问题不大,如果整体质量较差,有可能受到惩罚。 录入时间:2014/12/16 Hits:9807 |