2019-05-05 21:36 VincentWei
在邮箱场景中,光抽取人名是不够的,你要知道对应到具体人名类型的哪个实体,发件人,收件人,还是抄送人,等等 BiLSTM-CRF,就算是BERT-BiLSTM-CRF也不一定能够保证,在语料训练不够充分的情况下,能够精准的识别,这时候,往往要有补救措施,有的时候,最直接直白,简单的方式,在没有很好的办法下,在实践中往往可以尝试采纳,等待新技术有所突破,再替换 现在采用的笨方法,就是根据自然语言依存分析,找到语句结构的dependency,分析主谓宾,以谓语为主要识别点,进行语义识别,应为具体识别,往往是通过...
继续阅读 »2019-04-07 21:17 VincentWei
流程 NLU模块 注册组件 程序启动,首先加载预先定义的组件,注册到registry中。包括如下: component_classes = [ SpacyNLP, MitieNLP, SpacyEntityExtractor, MitieEntityExtractor, DucklingExtractor, CRFEntityExtractor, DucklingHTTPExtractor, BilstmCRFEntityExtractor, JiebaPsegExtractor, EntityEdit...
继续阅读 »2019-01-17 22:10 VincentWei
消除重复 代码需要消除重复,工作的习惯也要消除重复。不要拘于固有的工作状态,重复的工作状态往往使人陷入舒服的假象,陷入三年效应的危机。 提炼知识 首先我们学习的不是信息,而是知识。知识是有价值的,而信息则没有价值。只有通过自己的筛选,提炼,总结才可能将信息转变为知识。 成为习惯 知识是容易忘记的,只有将知识付诸于行动,并将其融汇到自己的工作状态中去,才能永久性地成为自己的财产。例如,快捷键的使用,不要刻意地去记忆,而是变成自己的一种工作习惯;不要去重复地劳动,使用 Shell 提供自动化程度,让 Shel...
继续阅读 »