最近在做爬虫时的一点点心德,记录下来。
文档相似度计算,一般常用的就是余弦定理,代表性介绍的文章有:
google黑板报的数学之美系列十二 -- 余弦定理和新闻的分类(这个是网上的一遍原文转载,google的黑板报被河蟹了)
把文档量化然后通过余弦定理计算相似度,主要适用于爬虫的聚类统计,和文档分类,是一种比较简单的分类算法:
/**
* 计算文档相似度
*
* @param doci
* 准备比较的文档
* @param docj
* 样例文档
* @return
*/
public double calculateSimilary(Document doci, Document docj) {
Map<String, Integer> ifreq = doci.documentFreq();//文档词项词频
Map<String, Integer> jfreq = docj.documentFreq();
double ijSum = 0;
Iterator<Entry<String, Integer>> it = ifreq.entrySet().iterator();
while (it.hasNext()) {
Map.Entry<String,Integer> entry = it.next();
if(jfreq.containsKey(entry.getKey())) {
double iw = weight(entry.getValue());
double jw = weight(jfreq.get(entry.getKey()));
ijSum += (iw * jw);
}
}
double iPowSum = powSum(doci);
double jPowSum = powSum(docj);
return ijSum / (iPowSum * jPowSum);
}
/**
* @param document
* @return
*/
public double powSum(Document document) {
Map<String, Integer> mapfreq = document.documentFreq();
Collection<Integer> freqs = mapfreq.values();
double sum = 0;
for(int f : freqs) {
double dw = weight(f);
sum += Math.pow(dw, 2);
}
return Math.sqrt(sum);
}
/**
* 计算词项特征值
* @param wordfreq
* @return
*/
public double weight(float wordfreq) {
return Math.sqrt(wordfreq);
}
通过计算,两文档的余弦值越接近1,文档相似度越高。
当余弦值为1是,文档重叠。
其他java类:
public interface Document {
/**
* 获取文档词频
* @param content
* @return {@link Map}
*/
public Map<String, Integer> segment();
public Map<String, Integer> documentFreq();
}
public class DocumentIpml implements Document {
private String content;
private IKSegmentation ikSegmentation;
private Logger logger = Logger.getLogger("DocumentIpmlLogger");
private Map<String, Integer> dfreq;
public DocumentIpml(String cont) {
this.content = cont;
}
public Map<String, Integer> documentFreq() {
if(dfreq == null || dfreq.isEmpty()) {
dfreq = segment();
return dfreq;
}
return dfreq;
}
public Map<String, Integer> segment() {
if(this.content == null || content.isEmpty()) {
logger.log(Level.WARNING, "document content can not be empty");
return null;
}
if(ikSegmentation == null)
ikSegmentation = new IKSegmentation(new StringReader(content), true);
else
ikSegmentation.reset(new StringReader(content));
Lexeme lexeme = null;
Map<String, Integer> mapfreq = new HashMap<String, Integer>();
try {
while((lexeme = ikSegmentation.next()) != null) {
if(!mapfreq.containsKey(lexeme.getLexemeText())) {
mapfreq.put(lexeme.getLexemeText(), 1);
continue;
}
int freq = mapfreq.get(lexeme.getLexemeText());
mapfreq.put(lexeme.getLexemeText(), ++freq);
}
} catch (IOException e) {
logger.log(Level.SEVERE, "", e);
return null;
}
return mapfreq;
}
}
实现结果:
1.txt和2.txt的相似度为:0.32460869971007195
1.txt和3.txt的相似度为:0.21837417258281094
1.txt和94.txt的相似度为:0.1805190131222515
1.txt和77.txt的相似度为:0.14018416797440844
txt6和77.txt的相似度为:0.1979109275388269
这几遍文档在附件中。
如果对文档相似度计算方式有更好的做法,欢迎指导:
我的邮箱:
liuziheng5726@gmail.com
分享到:
相关推荐
利用编辑距离计算文档的相似度,先将word文档解压缩,然后进行对比计算文档的相似度
大一的课程设计,中英文文档相似度计算。
XML文档结构相似度计算方法,计算机工程系
文本相似度主要应用于学术论文查重检测、搜索引擎去重等领域, 而传统的文本相似度计算方法中的特征.项提取与分词环节过于冗杂, 而且元素的随机挑选也会产生权重的不确定性. 为了解决传统方法的不足, 提出一种.基于...
人工智能大作业_基于同义词林的语义相似度计算 词义相似度计算在很多领域中都有广泛的应用,例如信息检索、 信息抽取、文本分类、词义排歧、基于实例的机器翻译等等。国内很 多论文主要是基于同义词林和知网来计算的...
利用WordNet计算词语语义相似度的jar包,包括基于路径和基于IC的计算语义相似度的两类算法。
用2.7版本Python实现比较2个文档的相似度计算,采用余弦相似度方法,main函数中的fileName1和fileName2是自己构造的数据集,把这几个文档放在一起就可以运行。
传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大多通过词汇串联等形式...
一种XML文档结构相似度计算方法,田伟,吴鹏,在对XML(eXtensible Markup Language)文档进行数据挖掘时,要解决的一个基本的问题就是XML文档的结构的表示和相似度计算,本文提出一种带�
毕业设计:python文本相似度计算系统(源码 + 数据库 + 说明文档) 第二章 可行性分析 7 2.1 业务流程可行性分析 7 2.2 经济可行性 7 2.3 技术可行性 8 2.4 运行可行性 8 第三章 需求分析 8 3.1 文本相似度的应用 8 ...
Gensim计算文档相似度的方法讲解,python代码实现
相似度计算方法的文档。
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和...另一方面,利用特征项在特征选择阶段的权重对TDIDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。
文档用于计算文本自动分类中词语的相似度计算,在舆情分析领域很有用哦
实验验证了新构造的核函数在文本文档相似度计算中的表现,实验结果表明S_Wang核其相似度计算精度和综合指标均分别优于Cauchy核、潜在语义核(LSK)以及CLA复合核。S_Wang核适用于文本相似度计算。
文档所给的是余弦相似度计算代码,在文本分类中用来计算相似度值,以此对文本分类
在计算文档相似度时,综合考虑特征词的语义关系以及在文档中的分布情况,引入加权语义网,提高了文档相似度计算精度;在计算兴趣度权值时,引入有效信息的概念及量化方法,以解决用户兴趣类权值计算过于主观的问题,...
5. **应用与扩展**:建立好的文本相似度计算系统可以应用于各种领域,如文档检索、信息过滤、推荐系统等。同时,项目还可以进一步扩展,例如引入更多的数据源、尝试不同的模型和算法、结合其他自然语言处理任务等。 ...