image
VincentWei

天地间,浩然正气长存,为天地立心,为生民立命,为往圣继绝学,为万世开太平!

免责声明:网站内容仅供个人学习记录,禁做商业用途,转载请注明出处。

版权所有 © 2017-2020 NEUSNCP个人学习笔记 辽ICP备17017855号-2

RAG自适应切分器初探

Rule-based adaptive splitter这种切分器的核心思想是: 不依赖于固定的字符数,而是通过识别文本中的语义边界标记来进行切分 。这些标记通常是语言或格式中固有的、表示一个完整思想结束的信号。 一、 设计思路 我们将采用一种 分层优先级的规则引擎 来设计这个切分器。 定义语义边界规则 :我们将定义一系列规则,每条规则对应一种语义边界。这些规则可以用正则表达式来表示,以匹配复杂的模式。 设置规则优先级 :不是所有边界的语义强度都一样。例如,一个新章节的开始( ## 新章节 )比一个段落结...

继续阅读 »
分享到: