多个PHP中文字符串截取函数

字符串截取是一个非常常见的编程任务,而往往带中文的字符串截取会经常用到。虽然不难,但是自己写函数实现又耗费时间,这里介绍一个比较好用的字符串截取函数,能够胜任基本的需求了,代码如下:

  1. <?php
  2. function sysSubStr($string,$length,$append = false)
  3. {
  4. if(strlen($string) <= $length )
  5. {
  6. return $string;
  7. }
  8. else
  9. {
  10. $i = 0;
  11. while ($i < $length)
  12. {
  13. $stringTMP = substr($string,$i,1);
  14. if ( ord($stringTMP) >=224 )
  15. {
  16. $stringTMP = substr($string,$i,3);
  17. $i = $i + 3;
  18. }
  19. elseif( ord($stringTMP) >=192 )
  20. {
  21. $stringTMP = substr($string,$i,2);
  22. $i = $i + 2;
  23. }
  24. else
  25. {
  26. $i = $i + 1;
  27. }
  28. $stringLast[] = $stringTMP;
  29. }
  30. $stringLast = implode("",$stringLast);
  31. if($append)
  32. {
  33. $stringLast .= "...";
  34. }
  35. return $stringLast;
  36. }
  37. }
  38. //phpfensi.com
  39. $string = "简明现代魔法 —— 专注于互联网主流的各种技术";
  40. $length = "27";
  41. $append = true;
  42. echo sysSubStr($string,$length,$append);
  43. // 输出
  44. // 简明现代魔法 —— 专...
  45. ?>

截取GB2312中文字符串:

  1. <?php
  2. //截取中文字符串
  3. function mysubstr($str, $start, $len) {
  4. $tmpstr = "";
  5. $strlen = $start + $len;
  6. for($i = 0; $i < $strlen; $i++) {
  7. if(ord(substr($str, $i, 1)) > 0xa0) {
  8. $tmpstr .= substr($str, $i, 2);
  9. $i++;
  10. } else
  11. $tmpstr .= substr($str, $i, 1);
  12. }
  13. return $tmpstr;
  14. }
  15. ?>

截取utf8编码的多字节字符串:

  1. <?php
  2. //截取utf8字符串
  3. function utf8Substr($str, $from, $len)
  4. {
  5. return preg_replace('#^(?:[\x00-\x7F]|[\xC0-\xFF][\x80-\xBF]+){0,'.$from.'}'.
  6. '((?:[\x00-\x7F]|[\xC0-\xFF][\x80-\xBF]+){0,'.$len.'}).*#s',
  7. '$1',$str);
  8. }
  9. ?>

UTF-8、GB2312都支持的汉字截取函数:

  1. <?php
  2. /*
  3. Utf-8、gb2312都支持的汉字截取函数
  4. cut_str(字符串, 截取长度, 开始长度, 编码);
  5. 编码默认为 utf-8
  6. 开始长度默认为 0
  7. */
  8. function cut_str($string, $sublen, $start = 0, $code = 'UTF-8')
  9. {
  10. if($code == 'UTF-8')
  11. {
  12. $pa = "/[\x01-\x7f]|[\xc2-\xdf][\x80-\xbf]|\xe0[\xa0-\xbf][\x80-\xbf]|[\xe1-\xef][\x80-\xbf][\x80-\xbf]|\xf0[\x90-\xbf][\x80-\xbf][\x80-\xbf]|[\xf1-\xf7][\x80-\xbf][\x80-\xbf][\x80-\xbf]/";
  13. preg_match_all($pa, $string, $t_string);
  14. if(count($t_string[0]) - $start > $sublen) return join('', array_slice($t_string[0], $start, $sublen))."...";
  15. return join('', array_slice($t_string[0], $start, $sublen));
  16. }
  17. else
  18. {
  19. $start = $start*2;
  20. $sublen = $sublen*2;
  21. $strlen = strlen($string);
  22. $tmpstr = '';
  23. for($i=0; $i< $strlen; $i++)
  24. {
  25. if($i>=$start && $i< ($start+$sublen))
  26. {
  27. if(ord(substr($string, $i, 1))>129)
  28. {
  29. $tmpstr.= substr($string, $i, 2);
  30. }
  31. else
  32. {
  33. $tmpstr.= substr($string, $i, 1);
  34. }
  35. }
  36. if(ord(substr($string, $i, 1))>129) $i++;
  37. }
  38. if(strlen($tmpstr)< $strlen ) $tmpstr.= "...";
  39. return $tmpstr;
  40. }
  41. }
  42. $str = "abcd需要截取的字符串";
  43. echo cut_str($str, 8, 0, 'gb2312');
  44. ?>