网页内容分析。借助互联网爬虫抓取的网页, 主如果静态网页。 为提升索引的精确度, 本系统使用了第三方的HTMLParser分析网页。 其用法是继承HTMLParser的基类Extractor来达成对HTML文件的分析。处置后是以文本文件格式存储的, 以便之后分词和打造索引用。