php正则匹配获取指定url网页页面超级链接地址

2014-09-20 20:08•正则表达式•阅读 15978

php正则匹配获取指定url网页页面超级链接地址

在数据采集与页面分析中，常需要抓取给定url页面的内容，或者第二、第三层次深度页面内容。

这里是一个测试例子的实现，仅供参考。

代码如下：

/*

匹配给定页面链接

return:array match[link,content,all]

*/

function match_links($host, $document) {

$pattern = '/<a(.*?)href="(.*?)"(.*?)>(.*?)</a>/i';

preg_match_all($pattern, $document, $m);

return $m;

preg_match_all("'<s*as.*?hrefs*=s*(["'])?(?(1)(.*?)1|([^s>]+))[^>]*>?(.*?)</a>'isx",$document,$links);

while(list($key,$val) = each($links[2])) {

if(!empty($val))

if(preg_match("/http/",$val)){

$match['link'][] = $val;

}

else {

$match['link'][] = $host . $val;

}

}

while(list($key,$val) = each($links[3])) {

if(!empty($val))

if(preg_match("/http/",$val)){

$match['link'][] = $val;

}

else {

$match['link'][] = $host . $val;

}

}

while(list($key,$val) = each($links[4])) {

if(!empty($val))

$match['content'][] = $val;

}

while(list($key,$val) = each($links[0])) {

if(!empty($val))

$match['all'][] = $val;

}

return $match['link'];

}

/*

从给定url中获取页面文本内容

*/

function get_content_from_url($url) {

$str = @file_get_contents($url);

if(mb_check_encoding($str, "GBK"))

$str = iconv("GBK","UTF-8", $str);

$str = strip_tags($str); // 过滤html标签

/*

$str = preg_replace( "@<script(.*?)</script>@is", "", $str );

$str = preg_replace( "@<iframe(.*?)</iframe>@is", "", $str );

$str = preg_replace( "@<style(.*?)</style>@is", "", $str );

$str = preg_replace( "@<(.*?)>@is", "", $str );

*/

//过滤非汉字字符

preg_match_all('/[x{4e00}-x{9fff}]+/u', $str, $matches);

$str = join('，', $matches[0]);

if(!$str)

return NULL;

return $str;

}

function get_content($url,$depth) {

if(!$url || $depth < 1)

return false;

while($depth > 1){

$str = @file_get_contents($url);

if(!$str)

return false;

$parseurl = parse_url($url);

if($parseurl['host'])

$host = $parseurl[scheme] . "://" . $parseurl['host'];

$arrlink = match_links($host,$str);

$arr_url = array_unique($arrlink);

$depth--;

foreach($arr_url as $url){

$content .= get_content($url, $depth); //递归调用

}

}

$content .= get_content_from_url($url);

return $content;

}

赞 (0)

关于url地址传参数时字符串有回车造成页面脚本赋值失败的解决方

上一篇9-24

php 获取页面中指定内容的实现类

下一篇 2-13

在字符串中把网址改成超级链接
在字符串中把网址改成超级链接在字符串中把网址改成超级链接$string="连接http://www.phpx.com站点";//连接后需要有个空格或回车。$string=eregi_replace("http://([^,\r\n]*)",…
•流程控制语句
2015-02-1310127
解析php通过cookies获取远程网页的指定代码
解析php通过cookies获取远程网页的指定代码代码如下:functionSteal($url,$post_data=""){//$header[]="Accept:text/vnd.wap.wml,*.*";$user_agent="M…
•Php 与 Smarty
2015-03-1213493
phpwind验证码代码讲解
phpwind验证码代码讲解采集器，通常又叫小偷程序，主要是用来抓取别人网页内容的。关于采集器的制作，其实并不难，就是远程打开要采集的网页，然后用正则表达式将需要的内容匹配出来，只要稍微有点正则表达式的基础，都能做出自己的采集器来的。前几天…
•php日期
2015-04-2219205
php 使用 curl_multi 方法批量获取网页内容
<?php/*php使用curl_multi方法批量获取网页内容*/functioncurl_multi_get($urls=array()){$mh=curl_multi_init();foreach($urlsas$i=>$url){$conn[$i]=curl_init($url);curl_setopt($conn[$i],CURLOPT_USERAGENT,"Moz
•php高级应用
2014-12-12673
php匹配字符中链接地址程序代码
php匹配字符中链接地址程序代码判断一个字符串是否含有超级链接代码如下$str="ssdsf<atarget='_blank'href='http://www.45it.net/'>sdf</a>sdfss";if(…
•php类库
2015-10-1718007
php正则提取图片地址
php正则提取图片地址最近在开发程序的时候需要获取提取内容中的图片地址，这里简单分享下方法，需要的朋友可以参考下迷上了正则，不断尝试着新花招，首先感谢TNA的非完全输出RSS，然后再次感谢SH的强迫性学习。没有TNA，我不会去看正则，更不知…
•正则表达式
2015-12-0719572
php获取网页标题和内容函数
php获取网页标题和内容函数有时候我们需要获取网页的标题与内容，就是个采集函数，这里简单分享下，方便需要的朋友代码如下:functiongetPageContent($url){//$url='http://www.ttphp.com;$p…
•php函数
2016-02-1314628
PHP实例函数：获取淘宝商品价格
PHP实例函数：获取淘宝商品价格这几天在看正则表达式的时候突然觉得正则表达式非常有意思啊，做了很多有意思的东西。突发奇想的觉得可以用正则表达式获取淘宝宝贝页面中的价格，所以就做了这一个函数了，调用时只需要填写入淘宝的链接就可以返回当前宝贝页…
•php函数
2016-04-0815816