搜索引擎高级开发工程师
职位描述:
- 流行的搜索引擎(lucene)的深入使用和改进。
- spider的性能, 架构讨论。
网试题目:
1. Spider简述你所了解的url去重方法
2. 搜索
简述tf-idf
简述你所了解的网页正文提取方法
3. Luncene
- 找出下段代码中的错误(目录dir初始化为空)
IndexWriter indexer = new IndexWriter("dir",new StandardAnalyzer());
Document doc = new Document();
doc.add(new Field("test","test",Store.No,Index.NO));
indexer.addDocument(doc);
IndexReader reader = IndexReader.open("dir");
reader.deleteDocument(0); - 简述lucene索引文件.tii 和 .tis的区别
- 描述一下lucene在实时性方面的优缺点, 在目前流行网站中lucene应用的效果如何(比如tudou.com)?

