当前位置: 代码迷 >> Lucene的解决方案
 
  • 对于解析html成tag树的讨论

    关于解析html成tag树的讨论这段时间在做搜索引擎,决定采用Lucene.net。但是在网页抓取,解析方面一直很难找到比较理想的东西,后来自己写了个,经过测试www.sina.com.cn以及www.csdn.net等众多网站首页,完全能够实现将Html解析成tag数。具体可以看我的文章:里面罗列了核心思想和算法《解析Html生成标签数》但是不知道是否还有其他比较理想的算法。希望各位讨论讨论,给...

    294
    热度
  • 新手,带有正则表达式的代码运行到没有反应了

    新手求助,带有正则表达式的代码运行到没有反应了我想实现能从网页源码中抽出完整的汉字句子来存放在本地,然后用lucene来建立索引,但是一直没有想出来能够匹配完整汉字句子的正则表达式,我试着写了一个,但是运行到一半就没反应了,希望有人能帮我解答一下,另外还想求一个能匹配完整汉字句子包括标点符号什么的,或者有没有别的实现方法。代码和我实验的网页源码写在下面:Javacodeimportjava.io....

    79
    热度
  • java连接mysql异常

    java连接mysql错误源码就是很简单的连接代码,没有错误。应该是驱动有问题ERROR:indexpathnotspecifiedUsage:javaorg.apache.lucene.index.CheckIndexpathToIndex[-fix][-segmentX][-segmentY]-fix:actuallywriteanewsegments_Nfile,removinganypro...

    42
    热度
  • 请问本地文件路径搜索有关问题

    请教本地文件路径搜索问题本帖最后由Crazyboy_1987于2013-11-2418:59:58编辑我现在的需求是:我要去本地磁盘的一个指定文件夹搜索一个文件(比如文件名是:myName.txt)是否存在,如果存在我就做一些事情,如果不存在我就做另外一给些事情。前提是,指定文件夹下会有较多文件问题是:1.用file.isDirectory()方法,这个方法效率如何?如果指定文件夹中有很多很多文件...

    91
    热度
  • 老掉牙紫竹精确搜索1.01版发布,增加了SWT制作的客户端程序(Eclipse源代码项目)

    老紫竹精确搜索1.01版发布,增加了SWT制作的客户端程序(Eclipse源代码项目)2009-02-12v1.01----------------*修正BUG-090209-1658,对url的一个处理bug,会导致可以重复加入相同url的索引数据*增强了帖子链接验证功能,加入的url必须严格按照规定的格式进行提交。减少重复帖子出现*增加了BlogJava.net的匹配字符串*增加了cnblog...

    113
    热度
  • 当JAVA WEB服务器端有一个执行时间长的方法,应该如何避免

    当JAVAWEB服务器端有一个执行时间长的方法,应该如何处理?背景:开发一个web版的爬虫系统,没用heritrix,nutch等开源框架,采用的是jsp+servlet。目标:根据指定网址和关键词,爬出与关键词相关的链接还有内容,并将与关键词相关的那部分文本和url存到数据库当中(已使用jsoup除去html标记和js,css之类的,只存文本)。用户jsp页面输入url,keywords提交po...

    49
    热度
  • 学习现时很迷茫,不知道继续学什么

    学习现在很迷茫,不知道继续学什么?毕业有一年了,现在在一个小公司工作,做JAVA企业开发这块,也是公司里的技术大拿。每天就是写写业务逻辑、有什么技术难点攻克一下、新项目做做架构设计。每天下班后我就会自己学点别的东西,但是很迷茫,不知道学什么。问以前的老师,老师让我学一些web服务,规则引擎还有其他一些东西,主要是想让我涉猎范围大一些,了解的多了能在工作中有机会用到。我自己也都学了,了解、会用、知道...

    172
    热度
  • 学 JAVA的人都是神人

    学JAVA的人都是神1.你需要精通面向对象分析与设计(OOA/OOD)、涉及模式(GOF,J2EEDP)以及综合模式。你应该十分了解UML,尤其是class,object,interaction以及statediagrams。2.你需要学习JAVA语言的基础知识以及它的核心类库(collections,serialization,streams,networking,multithreading,...

    406
    热度
  • 千万数量级的数据库,全文索引很慢,怎么进行优化

    千万数量级的数据库,全文索引很慢,如何进行优化?在SQLSERVER2008,有一个表,里面有大概1000W的数据,对该表建立全文目录,分别执行下面两个语句,每个语句都连续执行10次,并统计执行时间。语句1,返回1条记录:select*from数据表wherecontains(*,'北京创新乐知信息技术有限公司')连续执行十次需时6秒左右语句2,返回3条记录:select*from数据表where...

    92
    热度
  • 明天就回家了 突然想写写这一年的关键词,该怎么处理

    明天就回家了突然想写写这一年的关键词从10月开始J2EE,在校生,做过一年多android....这三个多月一直很努力吧,平均每天有13个小时左右吧在弄J2EE,别的不多说,开这贴就为了让大家写写这一年的关键词。只和技术相关。顺便散分~我先来:SSHextjsjquerymysqlmavenanthtml5sakai以及刚开始的ofbiz------------------------------...

    88
    热度
  • 除了SSH组合,你还会用什么?解决办法

    除了SSH组合,你还会用什么?平时工作,除了SSH还会用点什么?现在公司新项目用Groovy/Grails,因为快。公司旧的系统没有用struts,都是Seam,SpringMVC,Tiles,JSF/Facelets之类的。hibernate也用,不过只限于insert/update/simplesearch。主业务搜索已经彻底把hibernate除掉了,数据多150万+,hibernate太慢...

    350
    热度
  • 找工作,大家帮帮忙啊该如何解决

    找工作,大家帮帮忙啊开发JAVA快1年半了想换换环境有意向的公司留下email我发简历多谢color='#e78608'>------解决方案--------------------性别:男出生年月:1985.11.5工作年限:1年半Email:web_work_love@126.com自我评价 经过一年半的软件开发,熟悉Java,J2EE和Java开源框架,使我了解了更多的技术,也得到了充分的运...

    148
    热度
  • 刚刚淘宝网电话面试的几个小问题

    刚刚淘宝网电话面试的几个问题1.JDK1.5中如何创建一个线程池2.有没有研究过其他框架(SSH除外),比如缓存Cache。3.有没有做过优化的工作(没有具体谈是什么方便的,应该包括代码的和数据库的)有知道的帮回复下,做个总结color='#e78608'>------解决方案--------------------------------------------------------1.在JD...

    8716
    热度
  • 推荐本java菜鸟的好书看看

    推荐本java初学者的好书看看推荐本java初学者的好书看看color='#e78608'>------解决方案--------------------------------------------------------http://www.chinatarena.com/shipin?bdclkid=LXD_J5fpmC61E_iIduGdGat13wDK0gscM9Vj9DGBTGTP//...

    9720
    热度
  • nutch启动时错误,寻

    nutch启动时异常,寻高手指点2011-03-1418:47:05,593INFOcrawl.Crawl-crawlstartedin:crawled2011-03-1418:47:05,593INFOcrawl.Crawl-rootUrlDir=multiurls.txt2011-03-1418:47:05,593INFOcrawl.Crawl-threads=52011-03-1418:47...

    9614
    热度
  • asp.net 大数据处理

    求助asp.net大数据处理?有张表有两三千万条数据,又要用模糊查询,该怎么办呢?color='#e78608'>------解决方案--------------------------------------------------------1.存储过程(分页也就是一页的记录)color='#e78608'>------解决方案---------------------------------...

    6857
    热度
  • 【岁末版务活动】2009年度最后一次抢楼送书活动第一环节结束,正在进行楼层统计。该怎么解决

    【岁末版务活动】2009年度最后一次抢楼送书活动第一环节结束,正在进行楼层统计。转眼间,2009年就要过去了。在这一年了,非常高兴,通过CSDN,认识了很多新的朋友。还有很多很多。。为了纪念这不平常的一年,本版举行年度最后一次抢楼送书活动。1:本次送出书籍是我自己之前买的,因为基本没怎么看,所以基本都是很新。如果您嫌弃的话,请直接无视。2:为了活跃气氛,特意增加两套《2009年程序员合订本》参与抽...

    8761
    热度
  • 【100分】求比较经典的AJAX,JavaScript,JQuery,CSS视频教程/电子课程

    【100分】求比较经典的AJAX,JavaScript,JQuery,CSS视频教程/电子教程最好是视频教程,最好有详细的下载地址,比较偏重于入门级或中级的color='#e78608'>------解决方案--------------------------------------------------------我有CSS的,不过不在网上,给个邮箱吧color='#e78608'>-----...

    1843
    热度
  • 配备GateIn Portal为oracle10g或Sql Server2008

    配置GateInPortal为oracle10g或SqlServer2008?又要开发portal了,最近下载了GateInwithJBossAS5.1.0JDK6(zip)进行试用,可是按照GateIn的官方文档进行数据库配置,在oracle10g下试了几次都不成功,于是换成了SqlServer2008,结果很快成功了,于是得到启发,可能是数据库原因,查了下问题,才知道oracle10g下有个序...

    2
    热度
  • Android 应用程序引用第三方jar有关问题

    Android应用程序引用第三方jar问题今天在Android项目中添加第三方PoiJar包,有好多个,编译没问题,一运行直接导致Eclipse卡死.请问各位Android项目对第三方Jar包大小有限制吗?Google会这样设计吗??又不太说得通,有些Apk100多M,照样跑得没点问题...费解啊,费解!color='#FF8000'>------最佳解决方案-------------------...

    37
    热度