php中substr截取中文字符出现乱码的解决方案
常用的解决字符串方法substr()
作用:取部份字符串
用法:string substr(string string, int start, int [length])
参数:string 字符串;start 开始位置;length 截取字符串长度
返回:字符串
注意:这些都是对单字节字符串比较适用,多字节字符串注意截取乱码。
说明:
substr函数在截取字符时是按字节来截取的,中文字符在GB2312编码时为2个字节,utf-8编码时为3个字节,
所以截取指定长度的字符串时如果截断了汉字,那么返回的结果显示出来便会出现乱码。
网上找了一下,主要有如下两种解法方法:
1、改用php自带的mb_substr()函数
string mb_substr ( string $str , int $start [, int $length [, string $encoding ]] )
类似substr()函数,只是计数按字符数来计,保证字符安全
使用mb_substr()函数可保证不会出现乱码,但缺点是长度统计变成了字符数统计,而不是按字节数统计。
用于显示时,同样长度的中文结果和英文结果会出现较大的显示长度的差别。
2、自建函数增强substr功能(此函数由网友通过UCHome 1.5中的getstr()函数修改而来。)
这里提供一个函数可较好地解决substr遇到中文字符的问题。中文字符按2个长度单位来计算,使得中英文混用环境下字符串截取结果最后的显示长度接近;舍弃最后一个不完整字符,保证不会出现显示上的乱码;且兼容了中文字符常用的utf-8编码和GB2312编码,有很好的通用性。
function getstr($string, $length, $encoding = 'utf-8') {
$string = trim($string);
if($length && strlen($string) > $length) {
//截断字符
$wordscut = '';
if(strtolower($encoding) == 'utf-8') {
//utf8编码
$n = 0;
$tn = 0;
$noc = 0;
while ($n < strlen($string)) {
$t = ord($string[$n]);
if($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) {
$tn = 1;
$n++;
$noc++;
} elseif(194 <= $t && $t <= 223) {
$tn = 2;
$n += 2;
$noc += 2;
} elseif(224 <= $t && $t < 239) {
$tn = 3;
$n += 3;
$noc += 2;
} elseif(240 <= $t && $t <= 247) {
$tn = 4;
$n += 4;
$noc += 2;
} elseif(248 <= $t && $t <= 251) {
$tn = 5;
$n += 5;
$noc += 2;
} elseif($t == 252 || $t == 253) {
$tn = 6;
$n += 6;
$noc += 2;
} else {
$n++;
}
if ($noc >= $length) {
break;
}
}
if ($noc > $length) {
$n -= $tn;
}
$wordscut = substr($string, 0, $n);
} else {
for($i = 0; $i < $length - 1; $i++) {
if(ord($string[$i]) > 127) {
$wordscut .= $string[$i].$string[$i + 1];
$i++;
} else {
$wordscut .= $string[$i];
}
}
}
$string = $wordscut;
}
return trim($string);
}
截取的其他方法:(下面的没有验证,不知道是否可以用)
http://study.qqcf.com/web/724/290448.htm