建站知识
|
建站知识百度VIP大讲堂(上海站)QA集锦——抓取建库篇来源:http://zhanzhang.baidu.com/wiki/346 首先,小编要对各位站长朋友说声抱歉,VIP大讲堂上海站已经过去N久,QA内容今天才发布出来。各位站长参加VIP大讲堂,除了聆听官方声音外,更重要的是可以与百度专家进行面对面的沟通。VIP大讲堂上海站请出了百度spider专家孙权,这是他第一次走出来与站长进行培训交流,课程中抖出干货无数,各位无法参与现场培训的站长除了申请观看培训现场视频外,还可以通过QA记录看看自己心中的疑问是否已被解答。 由于现场QA环节火爆热烈内容超多,故本次仅放出spider抓取建库部分,其它内容请静待下期。 问:为什么收录量像坐过山车一样的,还有为什么有些网页今天在明天就没了? 问:我们站点使用CDN加速会不会比较容易造成蜘蛛无法抓取?因为有时候修改掉他绑定的什么东西。 问:你们百度自己也有一个CDN加速,对抓录排名有没有影响? 问:刚才您说IP上的站点数不能太多,那CDN这种情况怎么办? 问:还是IP上站点数量的问题,如果是主域跟二级域名呢?也受数量限制? 问:多个域名,他有相同的一些内容,怎么建库? 问:刚才讲的IP如果是多域名的话,好几百个IP域名,现在我们也用了CDN,按照刚才的说法,单个IP最多抓多少?1000万是说对站点还是对IP? 问:现在我的网站被很多蜘蛛爬,我想只让百度蜘蛛爬,百度蜘蛛IP多少?能设白名单么? 问:如果我写robots只想禁掉动态链接的话,会不会影响动态参数前面正常链接的抓取? 问:比如我们一个域名www.abcde.com,我们想把带?号的url全部禁掉,首页我们不要禁掉,怎么弄?? 问:我想了解,如果我现在收录有5万,大概多长时间才能把我原来收录5万重新抓取一遍? (接上个问题) 问:百度站长平台上有数据提交的工具,我们实时提交,你们也会实时抓取吗? 问:我网站有一些列表页,都没有链接,担心百度抓不到 (接上个问题)
问:现在很多网站都有自己的站内搜索,都会产生站内搜索结果页,百度不喜欢搜索结果页的话,我们用这个会不会对我们有影响?只是不喜欢还是对我们网站会有惩罚 问:新出的时效性文章当时没有被收录,后期是否还会被收录? 问:站点每天最高爬虫多少次? 推荐链接:枣庄seo 录入时间:2014/12/6 Hits:4153 |