php抓取网站图片并保存本地服务器实例

本例子是使用了file_get_contents()函数来抓取图片内容然后再使用fopen保存到本地服务器了,然后再进行地址url替换这样就实现了一个完整的页面采集功能并保存地址到本地的做法了,下面来看看例子.

首先举个例子吧,代码如下:

  1. <?php
  2. $text=file_get_contents("http://www.phpfensi.com");
  3. //取得所有img标签,并储存至二维阵列match
  4. preg_match_all('/<[img|IMG].*?src=[\'|\"](.*?(?:[\.gif|\.jpg]))[\'|\"].*?[\/]?>/', $text, $match);
  5. //打印出match
  6. $houzhui = "./tp/".time().rand(10000,50000).".".png;
  7. $yuanname = getImage($match[1][2],$houzhui,tp);
  8. //下载图片方法
  9. function getImage($url,$filename='',$type=0){
  10. if($url==''){return false;}
  11. if($filename==''){
  12. $ext=strrchr($url,'.');
  13. if($ext!='.gif' && $ext!='.jpg'){return false;}
  14. $filename=time().$ext;
  15. }
  16. //文件保存路径
  17. if($type){
  18. $ch=curl_init();
  19. $timeout=5;
  20. curl_setopt($ch,CURLOPT_URL,$url);
  21. curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
  22. curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
  23. $img=curl_exec($ch);
  24. curl_close($ch);
  25. }else{
  26. ob_start();
  27. readfile($url);
  28. $img=ob_get_contents();
  29. ob_end_clean();
  30. }
  31. $size=strlen($img);
  32. //文件大小
  33. $fp2=@fopen($filename,'a');
  34. fwrite($fp2,$img);
  35. fclose($fp2);
  36. return $filename;
  37. }
  38. ?>

案例分析,核心代码如下:

  1. $text=file_get_contents("http://www.phpfensi.com");
  2. //取得所有img标签,并储存至二维阵列match
  3. preg_match_all('/<[img|IMG].*?src=[\'|\"](.*?(?:[\.gif|\.jpg]))[\'|\"].*?[\/]?>/', $text, $match);

这个正则就是直接获取所有图片不管是http或直接是/aa/aa.gif文件都会自动抓保存到地址了,不过这个会有一些问题图片地址未进行补全了,如我们一个 /a/a/a.gif这样我们是找不到图片的,必须是http://www.phpfensi.com /a/a/a.gif 这样才可以下载到了,所以我们有必要进行两个处理方法一个是在原基本上处理,代码如下:

  1. //文件保存路径
  2. if($type){
  3. $ch=curl_init();
  4. $timeout=5;
  5. curl_setopt($ch,CURLOPT_URL,$url);
  6. curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
  7. curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
  8. $img=curl_exec($ch);
  9. curl_close($ch);

上面的$url参数进行地址补全,如我采集的是http://www.phpfensi.com那么地址自动补全为绝对路径了,另一种办法就是使用修改正则表达式,代码如下:

  1. preg_match_all("/(src|SRC)=[\"|'| ]{0,}(http:\/\/(.*)\.(gif|jpg|jpeg|png))/isU",$body,$img_array);

这样就只获取以http开头的图片文件了哦.