基于关键词的博客搜索

程序的关键部分基本完成了，先停下来吧，如果朋友有什么要求，再继续写。
总体的设计就是3部分，

根据输入的博客地址去抓取博客
这里和我一开始的构思有点不同。因为这里的应用比较具体，只需要搜索某个人的博客内容，所以，我只需要抓取博客的html，其余的网页内容可以忽略。所以，这里我不需要用那些通用的网页爬虫，或者说不能用那些通用的网页爬虫，因为不满足我的需求。要做通用的博客抓取并不容易，我需要根据各个博客的不同情况来抓取博客。现在实现了baidu，sina，sohu三种博客的抓取。
基本的博客下载流程：

分析博客地址的正确性，初始化用户名，本地存放路径，博客系统所用编码等信息。
分析博客索引页面的页面数目。一般的博客系统页面上都会有页面列出此博客的所有文章，而一页显示不完的时候需要有多页显示。这其中的每一页就是博客索引页面。程序首先要分析出博客索引页面一共有多少页。
得到索引页面数之后，就可以根据规则构造出所有的博客索引页面网址。
比如百度的就很简单，http://hi.baidu.com/$username/blog/index/$i，但是这个页面有很多冗余的内容，比如部分的博客内容。sina的就好一点，有个xml的，http://blog.sina.com.cn/sns/service.php?m= aList&uid=$uid&sort_id=0&page=$i
在索引页面分析出所有博客文章的网址，然后下载所有的博客html。

建立索引
下载完博客之后，就可以建立索引然后搜索了，用到了lucene。真是太好用了。而且对于简单的应用需求，我不需要去考虑复杂的中文分词。我用了一种基于词库的分词方法，做了小改动，只对词库中有的词进行索引，不在词库中的词都忽略掉。同时，建立索引的时候需要保存关键词在文章中出现的频率，因为搜索的时候要用到。
搜索
输入词库中存在的关键词进行搜索。输出的结果就是一篇篇的博客，对于每篇博客，都同时输出关键词在这篇博客里面出现的次数。次数是在IndexReader里面可以得到的。这里并没有实现最终的需求，只能搜索一个关键词，而且没有根据关键词出现的次数进行结果过滤。不过，要实现的话应该不难，先放着了。

收获：

良好的框架设计很重要。比如博客抓取，每种博客都有各自特殊的情况，但又有共通的部分，流程基本是固定的。我在基类里面写好流程，调用抽象方法去做实际的事情。那么在各个具体的博客抓取类中，只需要实现这些抽象方法就行了。由于在基类里面细分的很好，每个抽象方法要做的事情都很简单，明确，方法之间关联不大。这样写起代码来也很方便。所以扩展博客抓取的功能也就比较容易。

最后，lucene真的很好用。

Last modified on 2008-01-21