How Tokenizer Works

日语自然语言处理(Japanese NLP)前的重要步骤是对文本进行标记处理:也即是把文本段落基于Lattice-based方式通过遍历递归的方式拆分成独立的词组。采集所有可能的子字串(日语单词辞书包含的),然后通过Viterbi算法来找出最合适的链接路径。

概念1:所有的词都有一组数据表示属性,最重要的是前面四种:表现(即词本身的书写)、左文本ID、右文本ID、链接成本

概念2:在词语前后链接的时候拼接相近的左右ID,通过算法查询其链接成本

概念3:无法识别的词语处理也可以在一个集合中进行查询,以识别并跳过这些无效的组合单词的形式

概念4:计算组成句子的链接成本,最小的路径就是最合适的组成句子的方式