此页面所有软件内容、截图、价格、介绍等均来源于互联网,地址均为第三方提供,请谨慎下载。
Neologism
这是一个无监督训练文本词库与分词
训练代码(文本是UTF-8格式)
if __name__ == '__main__': neologism_words = analysis(file='西游记.txt', thread_num=10, flag=True) for k, v in neologism_words.items(): print('key:{0} number:{1} frequency:{2} cond:{3} free:{4}'.format(k, v[0], v[1], v[2], v[3]))
接口参数
def analysis(file, thread_num=10, split_num=4, frequency=0.0001, cond=10, free=0.1, flag=False) """ :param file: 训练的文本 :param thread_num: 线程数 :param split_num: 匹配个数 :param frequency: 频率 :param cond: 凝聚度 :param free: 自由度 :param flag:是否是并且还是或者,默认是或者,满足一个就过滤 :return: 分析完毕的字典 """