微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

HanLP 自然语言处理

程序名称:HanLP

授权协议: Apache

操作系统: 跨平台

开发语言: Java

HanLP 介绍

HanLP: Han Language Processing

汉语言处理包

HanLP 是由一系列模型与算法组成的 Java 工具包,目标是普及自然语言处理在生产环境中的应用。HanLP
具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

HanLP 提供下列功能

  • 中文分词

    • 最短路分词

    • N-最短路分词

    • CRF分词

    • 索引分词

    • 极速词典分词

    • 用户自定义词典

  • 词性标注

  • 命名实体识别

    • 中国人名识别

    • 音译人名识别

    • 日本人名识别

    • 地名识别

    • 实体机构名识别

  • 关键词提取

  • 自动摘要

  • 短语提取

    • 基于互信息和左右信息熵的短语提取
  • 拼音转换

    • 多音字

    • 声母

    • 韵母

    • 声调

  • 简繁转换

    • 繁体中文分词

    • 简繁分歧词

  • 文本推荐

    • 语义推荐

    • 拼音推荐

    • 字词推荐

  • 依存句法分析

    • MaxEnt依存句法分析

    • CRF依存句法分析

  • 语料库工具

    • 分词语料预处理

    • 词频词性词典制作

    • BiGram统计

    • 词共现统计

    • CoNLL语料预处理

    • CoNLL UA/LA/DA评测工具

在提供丰富功能的同时,HanLP
内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料。

HanLP 官网

https://github.com/hankcs/HanLP

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐