image
VincentWei

天地间,浩然正气长存,为天地立心,为生民立命,为往圣继绝学,为万世开太平!

免责声明:网站内容仅供个人学习记录,禁做商业用途,转载请注明出处。

版权所有 © 2017-2020 NEUSNCP个人学习笔记 辽ICP备17017855号-2

短文本相似度尝试

VincentWei    2019年11月4日 22:11:08

1. 将架构思想映入算法,使得算法也有架构
2. 采用漏斗方式结构,层层过滤筛选
3. 具体步骤:
1)通过传统的距离,比如编辑距离,语义距离做计算,但要做纠正,解决比如,自体脂肪注射臀部 和 自体脂肪注射胸部, 一字之差,从编辑距离看很大,从语义上看差别很大,这时候能不能引入惩罚机制呢?
2)不仅仅引入距离,还引入文本指纹,先做hash,类似LSH,搜索一样,取小聚类集先换回,再判断
3)将得分高的,纳入结合做仲裁,实在模糊的,引入短文本相似深度学习算法,比如,基于交互的孪生网络,double embeding的DE-CNN,等相似网络,其大体架构 embedding+CNN+BiLSTM
4) 继续改进,将词向量输入,改为bert族向量,将BiLSTM改为Transformer+attention

总结,其核心在于定义“距离”,可以像这样定义序列话的层层距离筛选,但是缺点的无法并行,拉的太长难免有些慢,如果击穿的话,但大多数情况下,在浅层就已经被筛选出来,其次,还可以尝试,将距离从低位映射到高维,但是维度如何定义,值得思考!

不多说,也不能多说,点到为止!
最近更新: 2019年11月4日 22:11:08
浏览: 1.8K

[[total]] 条评论

添加评论
  1. [[item.time]]
    [[item.user.username]] [[item.floor]]楼
  2. 点击加载更多……
  3. 添加评论