人力资源

搜索引擎高级开发工程师

职位描述:

  • 流行的搜索引擎(lucene)的深入使用和改进。
  • spider的性能, 架构讨论。

网试题目:

1. Spider
    简述你所了解的url去重方法
2. 搜索
    简述tf-idf
    简述你所了解的网页正文提取方法
3. Luncene
  • 找出下段代码中的错误(目录dir初始化为空)
    IndexWriter indexer = new IndexWriter("dir",new StandardAnalyzer());
    Document doc = new Document();
    doc.add(new Field("test","test",Store.No,Index.NO));
    indexer.addDocument(doc);
    IndexReader reader = IndexReader.open("dir");
    reader.deleteDocument(0);
  • 简述lucene索引文件.tii 和 .tis的区别
  • 描述一下lucene在实时性方面的优缺点, 在目前流行网站中lucene应用的效果如何(比如tudou.com)?