大家好!我是青云学社的创始人青云,今天给大家分享百度抓取的规则及百度分词算法原理,这个还是非常重要的,如果你不理解百度的分词原理,就不能很好的seo优化关键词布局!
1:百度抓取的规则
百度可以抓取:标签中的文字,图片替代文字,链接错锚文本,文字
百度不能抓取:JavaScript程序,falsh,图片,视频
2:百度分词算法原理
英文分词:因为英文句子的单词有空格,所以,英文分词原理就是每个单词的集合
中文分词:
第一种是基于的词典匹配,一个句子中的词语与词条进行匹配,分为正向匹配和逆向匹配
第二种是基于统计,大量分析文字样本,计算出字与字相邻出现的概率,字与
字相邻出现的次数越多,就越可能认为一个词。
中文分词的准确性会影响到你网站的排名,所以我们要提示搜索引擎,这几字
是一个词语。
做法:关键词放在页面标题,关键词做H1标签,对关键词加粗加黑
在百度进行分词的时候,会去掉停止词,有一些词出现的频率很高,比如:的,地,得,啊,哈,呀,从而,以等等,这些助词,感叹词,副词或介词是没有实质意义的,被称为停止词,这些词对页面意思没有什么影响。
搜索引擎在索引内容之前,会去掉这些停止词,更突出页面主题,减少计算量。
所以,为什么说,名词有助于排名,因为名词对于内容主题有很大意义,百度会以名词建立文章的相关性!