全球旧事资料 分类
有重复元素,稳不稳定?如果希望在O
的时间内排序完,可不可以做到,用什么方法?二个有序的文件如何合并成一个大的有序的文件?内存分配有几种方法,它们之间有什么区别?如果要用C语言打开一个3G的文件进行操作,可以直接打开吗?(俺答不能)那最大能直接打开的文件的大小是多少?你用什么方法可以做到打开它?用li
ux命令如何查看一个线程的状态?如何测试你的实习项目(我以前做过的一个项目,是java写得一个航空订票系统)?假设服务器上有一个web应用,如何保证它的安全性?你性格有哪些方面适合做测试工作?在项目当中,遇到问题的时候,比如出现了bug,你通常如何做?PS面试的时候,考细心,周全百度二面:首先就是对我的简历重点进行追问然后是哈希表与二叉树的区别然后问了一下搜索引擎的结构最后问了1000万个文档里面,如何快速找出10个相似的文档。。就几个问题,花了半个小时。PS俺发现,面试的时候考算法考得最多了,尤其是排序百度喜欢问大数据量处理方面的问题搜索引擎,俺在腾讯和百度都问到了,不知道是不是人品的原因。。1000万个网页里面,如何快速找出10个相似的网页?1从网页集合中抓取一些网页文档,手工建立一个训练文档集,里面是已经分类好的文档。
f具有相似内容的网页归为一类。从训练文档中提取对类别敏感的关键字
个,用这
个关键字衡量每一个文档,使之转化为向量。在剩下的文档中随机选择一个文档,计算其向量和每一个训练文档向量的距离,然后采用KNN分类算法进行相似文档归类。2先建立两个倒排索引表,第一个是关键字(关键字是有较好的区分度的)对网页文档,第二个是网页文档对关键字。从网页集合中任选一个网页文档,先从第一个倒排索引表中取得它的关键字集合,然后用每一个关键字在第一个倒排表中检索文档,再针对每一个关键字检索出来的文档进行一个交,交之后剩下的文档即为该文档的相似文档。如果求交集之后的文档数量太少或者觉得太苛刻,可以放宽到只包含一部分关键字,而不需要包含所有的关键字。3任选一个文档,再从网页集合中选择9个文档建立一个堆,堆中每个元素的权值为该文档与选定的文档的相似度(相似度的计算参考第一种方法或用其它的方法),依次遍历1000万个文档,计算它们与选定文档的相似度,如果小于堆中某一元素的相似度,则从堆中删除最大的元素,将该文档加入堆中,并重新调整一下堆。当遍历完网页集合中的所有文档之后,最终会剩下9个文档r
好听全球资料 返回顶部