PHP 中的生成器(Generator)详解

谈到驾驶,速度并非一切。但在网络上,速度变得与众不同。你的应用程序越快,用户体验越好。这篇文章是关于 PHP 生成器的,那么我们为什么要讨论速度呢?你很快就会发现,生成器在速度和内存的管理上发挥着巨大的作用。

PHP 生成器是什么?

生成器是在 PHP 5.5 版本中添加的,它提供了一种简单的方法来遍历数据,而不需要在内存中构建数组。是不是有点疑惑?那举一个例子,展示使用生成器是一个好方式。

首先,创建一个 generator.php 文件,它将贯穿我们整个例子。创建文件之后,我们添加一段代码。

  1. <?php
  2. function getRange ($max = 10) {
  3. $array = [];
  4. for ($i = 1; $i < $max; $i++) {
  5. $array[] = $i;
  6. }
  7. return $array;
  8. }
  9. foreach (getRange(15) as $range) {
  10. echo "Dataset {$range} <br>";
  11. }

我们可以在创建 generator.php 文件所在目录中快速启动一个内置的 PHP 服务器:

php -S localhost:8000

如果用浏览器打开 http://localhost:8000/generator.php ,我们应该看到这样的结果:

微信截图_20200511103244.png

这段代码的自解释性并不是太好。让我们稍微改动一下代码:

  1. <?php
  2. foreach (getRange(PHP_INT_MAX) as $range) {
  3. echo "Dataset {$range} <br>";
  4. }

现在,上面的这段代码能够生成的最大值是 PHP_INT_MAX (也就是 PHP 能够生成的最大值). 当我们这样修改后刷新浏览器,我们注意到这次有一些不一样。这段生成器脚本抛出了一条 warning 信息 .

微信截图_20200511103258.png

有点遗憾的是 PHP 耗尽了内存。你能够想到的解决方法可能包括增加 php.ini 文件中 memory_limit 的上限。不过平心而论,这个脚本既不高效又占用内存,我们需要的是一个高效且占用内存低的脚本。

使用生成器

让我们在上面定义相同的函数,用相同的值 PHP_INT_MAX 调用它,然后再次运行。但是这一次我们将创建一个生成器函数。

  1. <?php
  2. function getRange ($max = 10) {
  3. for ($i = 1; $i < $max; $i++) {
  4. yield $i;
  5. }
  6. }
  7. foreach (getRange(PHP_INT_MAX) as $range) {
  8. echo "Dataset {$range} <br>";
  9. }

解析 getRange 函数,这次,我们只循环遍历值和 yield 输出。 yield 与返回值类似,因为它也是从函数返回一个值,但唯一的区别是 yield 只会在需要时返回一个值,并且不会尝试将整个数据集保留在内存中。

如果您转到浏览器,您应该会看到页面上显示的数据。给定适当的时间,浏览器最终显示数据。

注意: 生成器只能在函数中使用。

为什么要使用生成器

有时候,我们可能会遇到想要解析一个庞大的数据集(也可能是日志文件),也可能对一个大型数据库的结果集执行计算,等等情况。我们不想让这些数据全部加载到内存中。我们应该尽可能的保存相应的内存状态。数据不一定要很大 —— 无论数据有多小,生成器都是有效的。别忘了,我们的目的是使用更少的内存来尽可能快的处理数据。

返回键值对

有时候,我们的数据是基于 key-value 时才更有说服力。使用生成器时,我们可能会生成下面这样的键值对。

  1. <?php
  2. function getRange ($max = 10) {
  3. for ($i = 1; $i < $max; $i++) {
  4. $value = $i * mt_rand();
  5. yield $i => $value;
  6. }
  7. }

然后,我们可以使用这个键值对,就像使用任意的数组一样。

  1. <?php
  2. foreach (getRange(PHP_INT_MAX) as $range => $value) {
  3. echo "Dataset {$range} has {$value} value<br>";
  4. }

传递参数到生成器中

生成器也能接收传参。这意味这生成器允许我们向其中注入参数,作为一个命令或者其他作用。例如,我们向生成器发送一个值,让它停止执行或者修改输出结果。使用上面的 getRange 函数,我们可以实现这一点。

  1. <?php
  2. function getRange ($max = 10) {
  3. for ($i = 1; $i < $max; $i++) {
  4. $injected = yield $i;
  5. if ($injected === 'stop') return;
  6. }
  7. }

要发送注入这个值,我们可以这样做。

  1. <?php
  2. $generator = getRange(PHP_INT_MAX);
  3. foreach ($generator as $range) {
  4. if ($range === 10000) {
  5. $generator->send('stop');
  6. }
  7. echo "Dataset {$range} <br>";
  8. }

注意: 在生成器中使用 return ,会跳出生成器。

不要滥用生成器

虽然使用 PHP_INT_MAX 有点过了。但对我来说, PHP_INT_MAX 即 2147483647 也就是:

二十亿四千七百四十万四千八万三千六百四十七

生成器使内存使用更高效。但如果滥用,一样会造成内存相关的问题。

总结:生成器提供了难以忽视的显著性的能提升。大多数的时候,我们不需要高配置的服务器来运行代码。我们只需要做一点重构,生成器是非常有用的,我们应该多多使用它们。