互联网挖掘

Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息。Web挖掘通常分为三类:Web内容挖掘、Web结构挖掘和Web使用记录挖掘。

与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。

典型Web挖掘的处理流程如下:

  • 查找资源:任务是从目标Web文档中得到数据,值得注意的是有时信息资源不仅限于在线Web文档,还包括电子邮件、电子文档、新闻组,或者网站的日志数据甚至是通过Web形成的交易数据库中的数据。
  • 信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。例如从Web文档中自动去除广告连接、去除多余格式标记、自动识别段落或者字段并将数据组织成规整的逻辑形式甚至是关系表。
  • 模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。
  • 模式分析:验证、解释上一步骤产生的模式。可以是机器自动完成,也可以是与分析人员进行交互来完成。

实验室致力于将Web挖掘技术应用在新一代搜索引擎、互联网内容安全、企业知识管理等领域,目前进行Web内容挖掘方面的分析与研究,主要涉及到网络爬虫和文本挖掘相关技术,并研究其在互联网内容安全中的应用,例如Web敏感话题发现、Web热点话题追踪等。