php截取utf8或gbk编码的中英文字符串的解决办法
内容摘要
这篇文章主要为大家详细介绍了php截取utf8或gbk编码的中英文字符串的简单示例,具有一定的参考价值,可以用来参考一下。
文章正文
这篇文章主要为大家详细介绍了php截取utf8或gbk编码的中英文字符串的简单示例,具有一定的参考价值,可以用来参考一下。
微博的发言有字数限制,其计数方式是,中文算2个,英文算1个,全角字符算2个,半角字符算1个。php中自带strlen是返回的字节数,对于utf8编码的中文返回时3个,不满足需求。mb_strlen 可以根据字符集计算长度,比如utf8的中文计数为1,但这不符合微博字数限制需求,中文必须计算为2才可以。google了下,找到一个discuz中截取各种编码字符的类,改造了下,已经测试通过.其中参数$charset 只支持gbk与utf-8。
代码如下:
1 2 3 | <code> $a = "s@@你好" ; var_dump(strlen_weibo( $a , 'utf-8' )); </code> |
结果输出为8,其中字母s计数为1,全角@计数为2,半角@计数为1,两个中文计数为4。源码如下:
代码如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 | <code> function strlen_weibo( $string , $charset = 'utf-8' ) { $n = $count = 0; $length = strlen ( $string ); if ( strtolower ( $charset ) == 'utf-8' ) { while ( $n < $length ) { $currentByte = ord( $string [ $n ]); if ( $currentByte == 9 || $currentByte == 10 || (32 <= $currentByte && $currentByte <= 126)) { $n ++; $count ++; } elseif (194 <= $currentByte && $currentByte <= 223) { $n += 2; $count += 2; } elseif (224 <= $currentByte && $currentByte <= 239) { $n += 3; $count += 2; } elseif (240 <= $currentByte && $currentByte <= 247) { $n += 4; $count += 2; } elseif (248 <= $currentByte && $currentByte <= 251) { $n += 5; $count += 2; } elseif ( $currentByte == 252 || $currentByte == 253) { $n += 6; $count += 2; } else { $n ++; $count ++; } if ( $count >= $length ) { break ; } } return $count ; } else { for ( $i = 0; $i < $length ; $i ++) { if (ord( $string [ $i ]) > 127) { $i ++; $count ++; } $count ++; } return $count ; } } </code> |
注:关于php截取utf8或gbk编码的中英文字符串的简单示例的内容就先介绍到这里,更多相关文章的可以留意
代码注释