`
henry2009
  • 浏览: 91074 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论
文章列表
如题,大家有什么好的高见,欢迎留言~~
@echo off for /l %%i in (1,1,24) do cd.> D:\样例文档\%%i.txt cmd  简单生成一堆空文档!
前些日子在程序中用到select ... for update的语句,但是发觉,着语句用着就是不爽。感觉整个程序有点慢。郁闷之中,就找了点大学时候的概念好好恶补恶补。 ==================================================== 数据库中乐观锁与悲观锁的 ...
      在爬虫的过程中,我们常常会遇到主题内容相同的网页,例如转载网页等等。由于标题不一样,内容有细微的偏差,也许我们的爬虫会误认为两个网页是不同的。这个时候,我们就必须对网页内容过滤消重。几乎所有的消重技术都基于这样一个基本思想:为每个文档计算出一组指纹(fingerprint),若两个文档拥有一定数量的相同指纹,则认为这两个文档的内容重叠性较高,也即二者是内容转载的。(具体详细内容在搜  索  引  擎 — 原理、技术与系统一书中有详细介绍)。   根据书中的算法描述,简单写了一个,网页消重的java代码,做一下代码笔记。 以下是算法中的主要部分:具体算法,在搜  索  引 擎 — ...
原文转载自http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx 根据上面所说,我写了一个页面降噪的测试类,确实有效,不过对于不同网页,可能结果有偏差,特别网页文字比较少的,例如图片于文字混合的主题正文页面,等等。 package com.test.net; import java.io.BufferedReader; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import ...
最近在做爬虫时的一点点心德,记录下来。 文档相似度计算,一般常用的就是余弦定理,代表性介绍的文章有: google黑板报的数学之美系列十二 -- 余弦定理和新闻的分类(这个是网上的一遍原文转载,google的黑板报被河蟹了)   把文档量化然后通过余弦定理计算相似度,主要适用于爬虫的聚类统计,和文档分类,是一种比较简单的分类算法: /** * 计算文档相似度 * * @param doci * 准备比较的文档 * @param docj * 样例文档 * @return */ public doub ...

持久化list

    博客分类:
  • java
简单的做了持久化list的操作,方便网络传输数据,待时日可扩展为持久化队列系统或nosql数据库。为自主开发的的nosql作准备,以此为记: package com.test.list; import java.io.ByteArrayInputStream; import java.io.ByteArrayOutputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.ObjectInp ...

合并排序

    博客分类:
  • java
合并排序属于稳定排序的一种,也是一种外部排序。一般用户文件排序,空间复杂度为O(n) package algorithms; /** * 合并排序 * @author heng * @date 2010-6-26 */ public class MergeSort { public static void main(String[] args) { int[] x = { 10, 2, 33, 44, 0, 55, 1, 8, 7, 6, 20, 19, 35 }; MergeSort ms = new MergeSort(); Syste ...
算法的时间复杂度 2007年12月02日 星期日 01:17 定义:如果一个问题的规模是n,解这一问题的某一算法所需要的时间为T(n),它是n的某一函数 T(n)称为这一算法的“时间复杂性”。 当输入量n逐渐加大时,时间复杂性的极限 ...
广州到现在还是一个大工地,每个晚上都在整,嘈得没办法睡觉~~ 可恶,这样下去怎么搞亚运!   (javaeye写好的东西能不能不发布出去~)
循环链表 package algorithms; /** * 链表  * @author henry * @date 2010-06-04 1:06:22 */ public class MyLinkedList { private static MyNode myNode; private static int size = 0; public MyLinkedList() { // TODO Auto-generated constructor stub myNode = new MyNode(); } /** * ...
二分查找,和快排。过几天比较下快排和插入排序,两个的效率。 package algorithms; /** * 快排,递归二分查找 * @author henry * @date 2010-06-04 1:04:10 */ public class RbSearch { public static int[] a = { 11, 22, 44, 5, 0, 3, 9, 10, 45 }; /** * 二分查找 * * @param left * @param middle * @param right * @par ...
/** * Returns a DocIdSet with documents that should be * permitted in search results. */ @Override public DocIdSet getDocIdSet(IndexReader reader) throws IOException { final TermEnum enumerator = query.getEnum(reader);//把过滤好的数据倒排出来 try { // if ...
优先队列的java实现 注:当时写好之后忘了检查,这个优先队列有点缺陷~~~嘻嘻,不过我在工作环境中已经作了修改 package test; import java.util.Comparator; /** * @作用:优先队列 * @author henry * @date 2010-4-30 */ public class PriQueue<E> { private static int DEFAULT_CAPECITY = 11; private Object[] objs; private Comparator<? su ...
A highly scalable, eventually consistent, distributed, structured key-value store. http://incubator.apache.org/cassandra/Data Presentations Cassandra Sigmod
Global site tag (gtag.js) - Google Analytics