11首先请求这个页面,然后过滤到所有的html标签,只保留文本信息,我们可以看到正文信息集中在一下位置:
f使用Excel分析行数与每行的字符的关系可以发现:
很明显,正文内容集中在65100行之间的位置上,而这个区间的字符数也是比较密集的。
再来一篇网易的文章
张小龙神话已破灭马化腾该接管微信了,httptech163com131230109HB88VE600094NRGhtml
f还是先看下过滤html标签后的正文部分:
再来一个Excel的分析结果:
f正文部分集中在279282行之间,从图上看,也正是这么几行的文本密度特别高。
最后分析一篇搜狐的新闻
李克强天津调研考察的几个瞬间,http
ewssohucom20131229
392604462shtml还是先看下过后标签后的正文:
再看下Excel的分析结果:
f而搜狐的这篇文章正文部分主要集中在200255行之间。其余的文本全部是杂乱的标签文本。抱歉,漏了很重要的一点说明:为什么分析的时候要把html标签过滤掉呢?过滤html标签是为了降低干扰,因为我们关注的是正文内容,如果带着这样的标签spa
style