jieba 分词源码分析 一

jieba可能是市面上最好的分词工具了。花了大概一个星期, 研究了一下源码,也就是 jieba.cut 函数 追踪进去之后的过程。

大概的过程,就是首先根据代码目录下的dict.txt 和extra_dict 中的补充词典来来确定基本的语料库。以这些词为基础通过文本匹配来找到可能的词语数组,比如“爸爸妈妈”,通过与词典的词对比,就可能得到 “爸爸”, “妈妈”, “爸妈”, “爸爸妈妈” 四个选项, 然后通过 词频 来确定最终确定应该如何分词。如果出现陌生的词,词典之中没有的,则根据 finalseg 模块来确定 如何来分,比如“穆赫兰道”,词典中都不存在,根据finalseg的结果可能切分为“穆赫”,“兰道”, 有可能就是一个单独的“穆赫兰道”。

jieba 的 源码地址 :https://github.com/fxsjy/jieba  jieba/__init__.py

 

 

Leave a comment

Your email address will not be published.

*