php 中英文混合文本截取字符串函数

下面要提供两款php中英文混合文本截取字符串函数,这两款字符串截取函数都是自于不同的cms一款是dede字符串截取函数,一款是phpcms的,现在拿来给各位使用.

PHP代码如下:

  1. function str_cut($string, $length, $dot = '...')
  2. {
  3. $strlen = strlen($string);
  4. if($strlen <= $length) return $string;
  5. $string = str_replace(array(' ', '&', '"', ''', '“', '”', '—', '<', '>', '·', '…'), array(' ', '&', '"', "'", '“', '”', '—', '<', '>', '·', '…'), $string);
  6. $strcut = '';
  7. if(strtolower(charset) == 'utf-8')
  8. {
  9. $n = $tn = $noc = 0;
  10. while($n < $strlen)
  11. {
  12. $t = ord($string[$n]);
  13. if($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) {
  14. $tn = 1; $n++; $noc++;
  15. } elseif(194 <= $t && $t <= 223) {
  16. $tn = 2; $n += 2; $noc += 2;
  17. } elseif(224 <= $t && $t < 239) {
  18. $tn = 3; $n += 3; $noc += 2;
  19. } elseif(240 <= $t && $t <= 247) {
  20. $tn = 4; $n += 4; $noc += 2;
  21. } elseif(248 <= $t && $t <= 251) {
  22. $tn = 5; $n += 5; $noc += 2;
  23. } elseif($t == 252 || $t == 253) {
  24. $tn = 6; $n += 6; $noc += 2;
  25. } else {
  26. $n++;
  27. }
  28. if($noc >= $length) break;
  29. }
  30. if($noc > $length) $n -= $tn;
  31. $strcut = substr($string, 0, $n);
  32. }
  33. else
  34. {
  35. $dotlen = strlen($dot);
  36. $maxi = $length - $dotlen - 1;
  37. for($i = 0; $i < $maxi; $i++)
  38. {
  39. $strcut .= ord($string[$i]) > 127 ? $string[$i].$string[++$i] : $string[$i];
  40. }
  41. } //开源代码phpfensi.com
  42. $strcut = str_replace(array('&', '"', "'", '<', '>'), array('&', '"', ''', '<', '>'), $strcut);
  43. return $strcut.$dot;
  44. }

方法二:

中文截取2,单字节截取模式,如果是request的内容,必须使用这个函数,代码如下:

  1. function cn_substrr($str,$slen,$startdd=0)
  2. {
  3. $str = cn_substr(strips教程lashes($str),$slen,$startdd);
  4. return addslashes($str);
  5. }
  6. //中文截取2,单字节截取模式
  7. function cn_substr($str,$slen,$startdd=0)
  8. {
  9. global $cfg_soft_lang;
  10. if($cfg_soft_utf-8')
  11. {
  12. return cn_substr_utf8($str,$slen,$startdd);
  13. }
  14. $restr = '';
  15. $c = '';
  16. $str_len = strlen($str);
  17. if($str_len < $startdd+1)
  18. {
  19. return '';
  20. }
  21. if($str_len < $startdd + $slen || $slen==0)
  22. {
  23. $slen = $str_len - $startdd;
  24. }
  25. $enddd = $startdd + $slen - 1;
  26. for($i=0;$i<$str_len;$i++)
  27. {
  28. if($startdd==0)
  29. {
  30. $restr .= $c;
  31. }
  32. else if($i > $startdd)
  33. {
  34. $restr .= $c;
  35. }
  36. if(ord($str[$i])>0x80)
  37. {
  38. if($str_len>$i+1)
  39. {
  40. $c = $str[$i].$str[$i+1];
  41. }
  42. $i++;
  43. }
  44. else
  45. {
  46. $c = $str[$i];
  47. }
  48. if($i >= $enddd)
  49. {
  50. if(strlen($restr)+strlen($c)>$slen)
  51. {
  52. break;
  53. }
  54. else
  55. {
  56. $restr .= $c;
  57. break;
  58. }
  59. }
  60. }
  61. return $restr;
  62. }
  63. //utf-8中文截取,单字节截取模式
  64. function cn_substr_utf8($str, $length, $start=0)
  65. {
  66. if(strlen($str) < $start+1)
  67. {
  68. return '';
  69. }
  70. preg_match_all("/./su", $str, $ar);
  71. $str = '';
  72. $tstr = '';
  73. //为了兼容mysql教程4.1以下版本,与数据库教程varchar一致,这里使用按字节截取
  74. for($i=0; isset($ar[0][$i]); $i++)
  75. {
  76. if(strlen($tstr) < $start)
  77. {
  78. $tstr .= $ar[0][$i];
  79. }
  80. else
  81. {
  82. if(strlen($str) < $length + strlen($ar[0][$i]) )
  83. {
  84. $str .= $ar[0][$i];
  85. }
  86. else
  87. {
  88. break;
  89. }
  90. }
  91. }
  92. return $str;
  93. }//开源代码phpfensi.com

上面二款字符串截取函数有一个相同点,他就是全部支持中英文混体文本,也都是判断asc码值进行区别那个是汉字,那个是中文,以及是utf8还是gbk等.