从论坛中提取文章
一些论坛中有许多很好的长篇文章, 但是常常被作者分成了许多个贴子, 而且中间还可能夹杂着一些读者的回帖...
如果希望从网站中自动抽取出这些帖子再重新整理成一篇完整的文章, 可以通过这些规则来解析HTML:
1. 首先要能获得帖子的标题, 作者, 首次发帖时间, 作者的email, 网站以及论坛名称等信息.
2. 一个thread的第一个发贴人通常是这个长篇文章的作者. 我们一般只需要抽取这个作者写的东西
3. 即使是作者写的帖子, 但如果这个帖子的内容少于100字(或者其他设定的字数)并且不包含任何图片(flash等), 那么这个帖子是水贴, 不用抽取.
4. 如果回贴的标题与原标题相同(包括Re:xxx之类), 那么就不需要抽取. 如果不同, 那么需要抽取出来, 当作小标题来用.
5. 长帖子在抽取的时候要能够自动翻页, 得到后面的内容
6. 如果帖子中包含图片, 那么也要能够一起抽取出来
7. 要避免页面上的其他结构, 以及签名图等的干扰.

