当前位置: 代码迷 >> Java相关 >> 依据特征词对文本进行读取
  详细解决方案

依据特征词对文本进行读取

热度:67   发布时间:2016-04-22 20:58:06.0
根据特征词对文本进行读取
二、注意事项
1.无论采用何种给药途径,用青霉素类药物前必须详细询问患者有无青霉素类过敏史、其他药物过敏史及过敏性疾病史,并须先做青霉素皮肤试验。

如何根据“注意事项“这个特征词将词后面以数字开头的这段话提取出来?
------解决思路----------------------
目标:抽取部分文本

已有条件:文本前有数字,数字前有“注意事项”

缺乏条件:文本后有什么限制???

注意点:“注意事项”是一行

方案:
1、逐行读取文本文件
2、当前行含有字符串“注意事项”,则继续
3、若下一行以数字开头,则取该数字后的文本


------解决思路----------------------
用正则表达式匹配呗
------解决思路----------------------
逐行读取,第一行有“1.”

第二行没有,继续读取

整个过程是:读取完第一行,继续读取下去,直至有一行文本,有满足停止读取的条件(

最终文本形式是“第一行文本 + 第二行文本 + 第三行文本 + ....+最后一行文本”

不过何时停止提取,帖子没给出...所以问了“文本后有什么限制”)


------解决思路----------------------
我只想说,正则表达式也要有个临界点,表示结束呀。。。

你不能匹配 1. 2. 后面所有的文本呀
------解决思路----------------------
是不是提取的文本以1. 开头, 碰到2.进行下一次提取?

如果如此,则判断下,遇到下一个 数字开头文本,进行第2次提取

以此类推
  相关解决方案