PHP

MYSQL

阿旭个人博客

阿旭个人博客,是一款小巧强大的php mysql个人博客系统,本站提供个人博客模板下载。个人博客注册和建立个人博客网站,就用阿旭php个人博客系统吧!
您的位置:首页>下载,PHP,程序,分词,>正文

PHP中文分词程序,汉语英语分词算法下载

  • Donny
  • 2018-05-14 10:56:55       被围观了
  • 下载,PHP,程序,分词,
  • PSCWS23

    纯 PHP 开发的 SCWS 第二版和第三版,仅支持 GBK 字符集,速度较快,推荐在全 PHP 环境中使用,已含专用 xdb 词典一部。

    [官网立即下载:pscws23-20081221.tar.bz2 (2.79MB)]

    AXUBLOG本地下载


    PSCWS2 和 PSCWS3 这两个类对应的文件分别为 pscws2.class.php 和 pscws3.class.php ,分别为

    第二版及第三版。在 PHP 代码中的调用方法如下:


    // 加入头文件, 若用第3版则文件名应为 pscws3.class.php

    require '/path/to/pscws2.class.php';


    // 建立分词类对像, 参数为词典路径

    $pscws = new PSCWS2('/path/to/dict/dict.xdb');


    //

    // 接下来, 设定一些分词参数或选项

    // 包括: set_dict, set_ignore_mark, set_autodis, set_debug ... 等方法

    //


    // 调用 segment 方法执行词汇切割, segment 的第二参数为回调函数, 这将使系统自动将切好的词

    // 组成的数组作为参数传递给该回调函数去执行,若为空则将词组成的数组返回。


    $res = $pscws->segment($string);

    print_r($res);


    或 (特别地,回调函数视情况会多次调用)


    function seg_cb($res) { print_r($res); }

    $pscws->segment($string, 'seg_cb');


    --- 类方法完全手册 ---

    (注: 构造函数可传入词典路径作为参数, 这与另外调用 set_dict 效果是一样的)


    class PSCWS2 { | class PSCWS3 {


    void set_dict(string dict_fpath);

    说明:设置分词引擎所采用的词典文件。

    参数:dict_fpath 为词典路径,内部会根据词典路径的后缀名采用相应的处理方式。

    返回值:无。

    错误:若有错误会给出 WARNING 级的错误提示。


    void set_ignore_mark(bool set);

    说明:设置分词结果是否忽略标点符号。

    参数:set 必须为布尔型的 true 或 false,分别表示要忽略和不忽略。

    返回值:无。


    void set_autodis(bool set);

    说明:设置分词算法是否启用自动识别人名。

    参数:set 必须为布尔型的 true 或 false,分别表示要识别和不识别。

    返回值:无。


    void set_debug(bool set);

    说明:设置分词过程是否输出分词过程的调试信息。

    参数:set 必须为布尔型的 true 或 false,分别表示要输出和不输出。

    返回值:无。


    void set_statistics(bool set);

    说明:设置分词过程是否记录各词汇出现的次数及位置。

    参数:set 必须为布尔型的 true 或 false,分别表示要记录和不记录。

    返回值:无。

    其它:在 segment() 方法执行结束后调用 get_statistics() 方法获取统计信息。


    Array &get_statistics(void);

    说明:返回上次 segment() 调用的分词结果的各词汇出现的次数及位置信息(引用返回)。

    参数:无。

    返回值:以词汇为键名,其值由次数(times)和(poses)位置列表数组组成。

    其它:该方法应该在 segment() 方法后调用,每次 segment() 调用前统计信息自动清零。


    mixed &segment(string text [, string cb]);

    说明:对字符串 text 执行分词。

    参数:text 为要执行分词的字符串;

    cb 是处理分词结果的回调函数名称,它接受由切好的词语组成的数组这一参数。

    返回值:当 cb 参数没有传入时,返回切好的词语组成的数组成(可以以引用方式返回),

    若采用回调函数处理分词结果,则直接返回 true。

    其它:cb 函数在一次 segment() 过程中可能是多次调用的。

    若没有传入 cb 参数,segment() 将会在 text 分词结果后再将结果一次返回,

    当 text 很长时速度较慢,建议将 text 按明显的换行标记切分后再依次调用

    segment() 方法进行切词以提高效率!

    };




    文章 PHP中文分词程序,汉语英语分词算法下载阿旭个人博客 网上收集或原创,转载请注明

    来源:http://www.axublog.com/post/PHP_zhong_wen_fen_ci_cheng_xu_5520/

    上一篇:小南斯求婚成功 女友Ins晒钻戒

    下一篇:暂无下一篇文章

    阿旭个人博客-创建于2017年5月- 沪ICP备16040435号

    About Sitemap Rss 文章归档 QQ群190498118