微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

phpSplit PHP 中文分词包

程序名称:phpSplit

授权协议: GPL

操作系统: 跨平台

开发语言: PHP

phpSplit 介绍


PHPSplit 是一个基于PHP开发的中文分词库

居于Unicode编码词典的PHP分词器

  • 只适用于PHP5,必要函数 iconv

  • 本程序是使用RMM逆向匹配算法进行分词的,词库需要特别编译,本类里提供了 MakeDict() 方法

  • 简单操作流程: SetSource -> StartAnalysis -> GetResult

  • 对主词典使用特殊格式进行编码, 不需要载入词典到内存操作

使用

  • 首先 确保使用PHP为5.3+

  • 安装composer

    composer install

    require DIR .’/vendor/autoload.PHP’;
    $split = new Split();
    var_dump( $split->simple(“您好 PHPSplit”));
    $this->assertTrue(True);

    array(3) {
      [0] =>
      string(0) ”“
      [1] =>
      string(6) “您好”
      [2] =>
      string(8) “PHPSplit”
    }

分词结果后缀说明

名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w

同事增加了以下3类标记 专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz;
语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等;
*动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)

合计约40个左右。

欢迎大家完善

phpSplit 官网

https://github.com/Callwoola/php-split

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。

相关推荐