我爱辅助论坛

 找回密码
 【点我注册】

QQ登录

只需一步,快速开始

查看: 997|回复: 3

数据挖掘

[复制链接]
发表于 2015-7-20 10:08:48 | 显示全部楼层 |阅读模式
crawler:挖掘器(爬虫),从队列中提取url,抓取并描述页面,提取页面的URL,将URL加入队列。
indexer:索引器,把文档分成一个个关键词(hits)索引,分成一个个的barrel存入anchors file.
URLresolver:URL解析器,读取anchors file并设置docID,建立docID的数据库,这个库是用来计算PR的。
sorter:分类器,读取按照docID分类的barrel,再次按照inverted index(word到doc的对应)的wordID分类,然后返回inverted index和PR。

发帖求助前要善用论坛搜索功能,那里可能会有你要找的答案;

如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子标题加上【已解决】

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【好评】【金币】,加分不会扣除自己的积分,做一个热心并受欢迎的人!

 楼主| 发表于 2015-7-20 10:15:10 | 显示全部楼层
classification has a label, but clustering just divides the similar doc together.
quality ranking 对不同的网页评级,对于keyword重复的垃圾页面进行降级。

发帖求助前要善用论坛搜索功能,那里可能会有你要找的答案;

如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子标题加上【已解决】

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【好评】【金币】,加分不会扣除自己的积分,做一个热心并受欢迎的人!

回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-7-20 10:32:55 | 显示全部楼层
lecture1

发帖求助前要善用论坛搜索功能,那里可能会有你要找的答案;

如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子标题加上【已解决】

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【好评】【金币】,加分不会扣除自己的积分,做一个热心并受欢迎的人!

回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-7-20 11:11:16 | 显示全部楼层
boolean IR
向doc查询keyword,能找到的为true,也就是只有相关和不相关两种结果。
anchor text
目标链接的相关描述及上下文信息。

发帖求助前要善用论坛搜索功能,那里可能会有你要找的答案;

如果你在论坛求助问题,并且已经从坛友或者管理的回复中解决了问题,请把帖子标题加上【已解决】

如何回报帮助你解决问题的坛友,一个好办法就是给对方加【好评】【金币】,加分不会扣除自己的积分,做一个热心并受欢迎的人!

回复 支持 反对

使用道具 举报

QQ|小黑屋|我爱辅助 ( 辽ICP备19006053号-1 )

GMT+8, 2025-5-1 22:41 , Processed in 0.036131 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表