2025-10-28 17:00 VincentWei
Rule-based adaptive splitter这种切分器的核心思想是: 不依赖于固定的字符数,而是通过识别文本中的语义边界标记来进行切分 。这些标记通常是语言或格式中固有的、表示一个完整思想结束的信号。 一、 设计思路 我们将采用一种 分层优先级的规则引擎 来设计这个切分器。 定义语义边界规则 :我们将定义一系列规则,每条规则对应一种语义边界。这些规则可以用正则表达式来表示,以匹配复杂的模式。 设置规则优先级 :不是所有边界的语义强度都一样。例如,一个新章节的开始( ## 新章节 )比一个段落结...
继续阅读 »2025-10-09 16:09 VincentWei
继续阅读 »
2025-10-06 14:21 VincentWei
https://cdn.neusncp.com/public/file/20251006142131_MasthcS1.pdf
继续阅读 »2025-10-05 19:35 VincentWei
https://cdn.neusncp.com/public/file/20251005193541_3ViN7gsX.pdf
继续阅读 »