PHP脚本的执行细节


众所周知,计算机的CPU只能执行二进制的机器码,每种CPU都有对应的汇编语言,汇编语言编译器将汇编语言翻译成二进制的机器语言,然后CPU开始执行这些机器码。汇编语言作为机器语言与程序设计者之间的一个层,给我们带来了很多方便,程序员不需要用晦涩的01数字来书写程序,当然人们并不满足这样的一个进步,于是在汇编语言之上又多了一个层——C语言,C语言更贴近人类熟悉的“自然语言”,程序设计者可以通过C语言编译器将C源代码文件编译成目标文件(二进制文件,中间会先翻译成汇编语言,然后由汇编语言生成机器码),然后将各个目标文件连接在一起就组成了一个可执行文件。正如有人说过的一句名言“计算机科学领域的任何问题都可以通过增加一个间接的中间层来解决”(“Any problem in computer science can be solved by another layer of indirection.”) PHP语言就是在C语言之上的一个层,PHP引擎是由C语言来实现的,因此PHP语言这一个在C之上抽象出来的层使用起来比C更简单方便,入门门槛更低。


那么,PHP语言究竟如何被执行呢?


PHP语言到C语言之间的转换如果使用“翻译”这个词是不够准确的,因为引擎不是将PHP语言转换成C语言,然后将转换后的C语言编译链接执行。引擎在解析PHP代码的时候通常是分为两个部分,编译和执行:

编译阶段:引擎把PHP代码转换成op code中间代码

执行阶段:引擎解释并执行编译阶段产生的op code


关于op code会有专门的文章来介绍,现在网络上也已经有很多相关内容的文章,总之PHP代码会被编译成_zend_op_array的形式,这是一个结构体,其中包括很多相关属性,以及最重要的成员zend_op *opcodes,即opcode的数组。执行阶段引擎会按照顺序执行各个opcode。


目前5.3.2版本的PHP中,opcode一共有154种,可以在{PHPSRC}/Zend/zend_vm_opcodes.h看到这些opcode的宏定义。op的结构定义为:

struct _zend_op {
    opcode_handler_t handler;
    znode result;
    znode op1;
    znode op2;
    ulong extended_value;
    uint lineno;
    zend_uchar opcode;
};

其中的成员opcode就对应154个opcode宏定义中的一个,每一个op根据opcode和操作数的类型不同都会对应一个相关的执行句柄(opcode_handler_t handler),执行句柄是一个函数指针,op的执行执行句柄都定义在{PHPSRC}/Zend/zend_vm_execute.h中,这个文件可以通过一个PHP脚本({PHPSRC}/Zend/zend_vm_gen.php)来生成,这个PHP脚本用来生成zend_vm_opcodes.h和zend_vm_execute.h两个文件,zend_vm_execute.h的内容会根据生成时的参数不同而不同,这里主要是可以定置zend 引擎对op的分发方式,比如用CALL,SWITCH,GOTO,默认的是用CALL,也就是函数调用,所以这里就以函数调用来简单的介绍下这个文件的功能(文件极大,有近36000行,所以不要仔细啃),在这个文件中所有定义为 static int ZEND_FASTCALL 并且以 ZEND_* 开头的函数就是op的句柄,此文件中第一个函数execute是执行op的主方法,以这里作为入口执行一连串的op。可以说整个PHP的功能特性都是通过这些op句柄完成的(当然这些句柄会间接调用其他模块中的功能),那么这154个opcode如何对应到这些static int ZEND_FASTCALL  ZEND_*的执行句柄的呢?同样在这个文件中,可以看到zend_init_opcodes_handlers函数,这个函数初始化一个 static const opcode_handler_t labels[]数组,这个 labels数组就是handlers的一张表,这个表有近4000个项,有一个算法将一个opcode映射到这个表中的一个元素,算法同样在zend_vm_execute.h中可以找到,靠近文件结尾zend_vm_set_opcode_handler和zend_vm_get_opcode_handler就是这个算法的实现。


那么引擎是如何通过这些op handler实现PHP语言的特性的呢?这里我举一个最简单的例子,考虑下面只有一行的PHP代码:

<?php
    $a = 123;
?>

通过某种方法(以后再介绍这些方法)我们可以知道这行代码主要生成一个zend_op,其主要成员值为:

opcode = 38  (对应#define ZEND_ASSIGN  38)

op1       = $a ($a变量实际上是以cv形式存在,以后介绍)

op2       = 123 (以const常量形式存在)

handler = ZEND_ASSIGN_SPEC_CV_CONST_HANDLER(得到这个handler的名字不是一件容易的事,以后给出方法)


opcode ZEND_ASSIGN的意思是将一个常量赋值给一个cv(compiled variable),这个cv其实就是$a变量的一种存在形式。在zend_vm_execute.h中搜索到ZEND_ASSIGN_SPEC_CV_CONST_HANDLER的定义,其主要功能就是取op2的值123,将其赋值给op1的变量,当然这个过程比想象中的要复杂一些,会有变量的初始化,变量的写时赋值等过程,以后会介绍每一个过程。这样这条PHP语句的功能就完成了。可以看出,op handler只是按照一些固定的方式来对操作数op1 op2(可能还有result)进行操作,handler不理会这些操作数中的具体值,这些值是在编译阶段生成op的时候确定的,比如如果$a = 123 改成 $a =456,那么生成的op中op2就是456了,handler始终按照固定的方式来处理。


因此我们能知道,PHP的执行过程是先通过编译器将PHP代码编译成op code,然后然后zend虚拟机按照一定顺序执行这些opcode,具体是将每个opcode分发给特定的op code handler。


操作码OpCode 


运行一段PHP代码主要有两个阶段:编译和执行。 当然编译过程中还包括词法分析语法分析不同阶段和细节,这里我们将其作为一个整体。在这两个阶段之间,PHP代码会被编译成op code,可以将其认为是引擎的一个中间语言,编辑阶段把PHP源码生成op code,然后在执行阶段执行这些op code。这篇文章将简单的介绍op code。


PHP代码编译之后会生成许多的op,每一个op都是一个zend_op类型的c变量。相关的定义可以在{PHPSRC}/Zend/zend_compile.h中看到:

struct _zend_op {  
    opcode_handler_t handler;  
    znode result;  
    znode op1;  
    znode op2;  
    ulong extended_value;  
    uint lineno;  
    zend_uchar opcode;  
};  
  
typedef struct _zend_op zend_op;

 

简单的说说这几个字段:


1. result,op1,op2

这三个字段都是znode类型,它们是op的操作数和操作结果载体,当然并不是每个op都需要使用这三个字段,根据op的功能不同,会使用其中某些字段。比如类型为ZEND_ECHO的op值需要使用op1,功能就是将op1中的相应的值输出。一会再单独介绍znode类型。


2. opcode

opcode的类型为zend_uchar,zend_uchar实际上就是unsigned char,此字段保存的整形值即为op的编号,用来区分不同的op类型,opcode的可取值都被定义成了宏,可以在{PHPSRC}/Zend/zend_vm_opcodes.h中看到这些宏的定义,类似如下:

#define ZEND_NOP                               0  
#define ZEND_ADD                               1  
#define ZEND_SUB                               2  
#define ZEND_MUL                               3  
#define ZEND_DIV                               4  
#define ZEND_MOD                               5  
#define ZEND_SL                                6  
#define ZEND_SR                                7  
#define ZEND_CONCAT                            8  
#define ZEND_BW_OR                             9  
#define ZEND_BW_AND                           10  
//......

 

3. handler

op的执行句柄,其类型为opcode_handler_t,opcode_handler_t的类型定义为typedef int (ZEND_FASTCALL *opcode_handler_t) (ZEND_OPCODE_HANDLER_ARGS); 这个函数指针为op定义了执行方式,每一种opcode字段都对应一个种类的handler,比如opcode= 38 (ZEND_ASSIGN), 那么其对应的handler对应的就是static int ZEND_FASTCALL  ZEND_ASSIGN_**种类的handler,根据op操作数类型的不同,可以确定到这个种类中的某一个具体的函数,比如如果$a = 1;这样的代码生成的op,操作数为const和cv,最后就能确定handler为函数ZEND_ASSIGN_SPEC_CV_CONST_HANDLER,这些handler函数都定义在{PHPSRC}/Zend/zend_vm_execute.h中,此文件可以由一个PHP脚本生成,其中也定义了通过op来映射得到其hander的算法。


4. lineno

op对应源代码文件中的行号。


5. extended_value

扩展字段暂时不介绍


操作数znode简介 

操作数字段是这个类型中比较重要的部分了,其中op1,op2,result三个操作数定义为znode类型,znode相关定义在此文件中:

typedef struct _znode {  
    int op_type;  
    union {  
        zval constant;  
  
        zend_uint var;  
        zend_uint opline_num; /*  Needs to be signed */  
        zend_op_array *op_array;  
        zend_op *jmp_addr;  
        struct {  
            zend_uint var;  /* dummy */  
            zend_uint type;  
        } EA;  
    } u;  
} znode;

 

znode类型中定义了两个字段:


1. op_type

这个int类型的字段定义znode操作数的类型,这些类型的可取值的宏定义在此文件中

#define IS_CONST    (1<<0)  
#define IS_TMP_VAR  (1<<1)  
#define IS_VAR      (1<<2)  
#define IS_UNUSED   (1<<3)    /* Unused variable */  
#define IS_CV       (1<<4)    /* Compiled variable */

IS_CONST:表示常量,例如$a = 123; $b = "hello";这些代码生成OP后,123和"hello"都是以常量类型操作数存在。

IS_TMP_VAR:表示临时变量,临时变量一般在前面加~来表示,这是一些OP执行过程中需要用到的中间变量,例如初始化一个数组的时候,就需要一个临时变量来暂时存储数组zval,然后将数组赋值给变量。

IS_VAR: 一般意义上的变量,以$开发表示,此种变量本人目前研究的较少,暂不介绍

IS_UNUSED : 暂时不介绍,从名字来看应该是标识为不使用

IS_CV:这种类型的操作数比较重要,此类型是在PHP后来的版本中(大概5.1)中才出现,CV的意思是compiled variable,即编译后的变量,变量都是保存在一个符号表中,这个符号表是一个哈希表,试想如果每次读写变量的时候都需要到哈希表中去检索,势必会对效率有一定的影响,因此在执行上下文环境中,会将一些编译期间生成的变量缓存起来,此过程以后再详细介绍。此类型操作数一般以!开头表示,比如变量$a=123;$b="hello"这段代码,$a和$b对应的操作数可能就是!0和!1, 0和1相当于一个索引号,通过索引号从缓存中取得相应的值。


2. u

此字段为一个联合体,根据op_type的不同,u取不同的值。比如op_type=IS_CONST的时候,u中的constant保存的就是操作数对应的zval结构。例如$a=123时,123这个操作数中,u中的constant是一个IS_LONG类型的zval,其值lval为123。


PHP里的opcode


opcode是计算机指令中的一部分,用于指定要执行的操作, 指令的格式和规范由处理器的指令规范指定。 除了指令本身以外通常还有指令所需要的操作数,可能有的指令不需要显式的操作数。 这些操作数可能是寄存器中的值,堆栈中的值,某块内存的值或者IO端口中的值等等。


通常opcode还有另一种称谓:字节码(byte codes)。 例如Java虚拟机(JVM),.NET的通用中间语言(CIL: Common Intermeditate Language)等等。


PHP中的opcode则属于前面介绍中的后着,PHP是构建在Zend虚拟机(Zend VM)之上的。PHP的opcode就是Zend虚拟机中的指令。


在PHP实现内部,opcode由如下的结构体表示:

struct _zend_op {
    opcode_handler_t handler; // 执行该opcode时调用的处理函数
    znode result;
    znode op1;
    znode op2;
    ulong extended_value;
    uint lineno;
    zend_uchar opcode;  // opcode代码
};


和CPU的指令类似,有一个标示指令的opcode字段,以及这个opcode所操作的操作数,PHP不像汇编那么底层, 在脚本实际执行的时候可能还需要其他更多的信息,extended_value字段就保存了这类信息, 其中的result域则是保存该指令执行完成后的结果。


例如如下代码是在编译器遇到print语句的时候进行编译的函数:

void zend_do_print(znode *result,const znode *arg TSRMLS_DC) {
    zend_op *opline = get_next_op(CG(active_op_array) TSRMLS_CC);
 
    opline->result.op_type = IS_TMP_VAR;
    opline->result.u.var = get_temporary_variable(CG(active_op_array));
    opline->opcode = ZEND_PRINT;
    opline->op1 = *arg;
    SET_UNUSED(opline->op2);
    *result = opline->result;
}

这个函数新创建一条zend_op,将返回值的类型设置为临时变量(IS_TMP_VAR),并为临时变量申请空间, 随后指定opcode为ZEND_PRINT,并将传递进来的参数赋值给这条opcode的第一个操作数。这样在最终执行这条opcode的时候, Zend引擎能获取到足够的信息以便输出内容。


下面这个函数是在编译器遇到echo语句的时候进行编译的函数:

void zend_do_echo(const znode *arg TSRMLS_DC) {
    zend_op *opline = get_next_op(CG(active_op_array) TSRMLS_CC);
 
    opline->opcode = ZEND_ECHO;
    opline->op1 = *arg;
    SET_UNUSED(opline->op2);
}

可以看到echo处理除了指定opcode以外,还将echo的参数传递给op1,这里并没有设置opcode的result结果字段。 从这里我们也能看出print和echo的区别来,print有返回值,而echo没有,这里的没有和返回null是不同的, 如果尝试将echo的值赋值给某个变量或者传递给函数都会出现语法错误。


PHP脚本编译为opcode保存在op_array中,其内部存储的结构如下:

struct _zend_op_array {
    /* Common elements */
    zend_uchar type;
    char *function_name;  // 如果是用户定义的函数则,这里将保存函数的名字
    zend_class_entry *scope;
    zend_uint fn_flags;
    union _zend_function *prototype;
    zend_uint num_args;
    zend_uint required_num_args;
    zend_arg_info *arg_info;
    zend_bool pass_rest_by_reference;
    unsigned char return_reference;
    /* END of common elements */
 
    zend_bool done_pass_two;
 
    zend_uint *refcount;
 
    zend_op *opcodes;  // opcode数组
 
    zend_uint last,size;
 
    zend_compiled_variable *vars;
    int last_var,size_var;
 
    // ...
}


如上面的注释,opcodes保存在这里,在执行的时候由下面的execute函数执行:

ZEND_API void execute(zend_op_array *op_array TSRMLS_DC) {
    // ... 循环执行op_array中的opcode或者执行其他op_array中的opcode
}

前面提到每条opcode都有一个opcode_handler_t的函数指针字段,用于执行该opcode, 这里并没有给没有指定处理函数,那在执行的时候该由哪个函数来执行呢? 更多信息请参考后面的详细介绍。


PHP有三种方式来进行opcode的处理:CALL,SWITCH和GOTO,PHP默认使用CALL的方式,也就是函数调用的方式, 由于opcode执行是每个PHP程序频繁需要进行的操作,可以使用SWITCH或者GOTO的方式来分发, 通常GOTO的效率相对会高一些,不过效率是否提高依赖于不同的CPU。


解释器的执行过程


这里将介绍引擎内部执行一个PHP脚本的流程,以CLI SAPI为例子来对流程中核心的部分做简单介绍,省去一些初始化及清理操作。


CLI(Command Line Interface)即PHP的命令行模式,现在此SAPI是默认安装的,我们在服务器上安装完PHP之后,一般会生成一个可执行文件,假设此文件为/usr/local/bin/php ,那么我们在SHELL下可以用以下命令来执行一个PHP脚本:

/usr/local/bin/php -f test.php

这个命令将执行当前目录下的test.php脚本,我们暂且不关心test.php具体内容,只关心一下这个执行的内部过程是怎么样的。


CLI的主源代码文件在{PHPSRC}/sapi/cli/php_cli.c,整个过程就从这个文件中的 main()函数执行,整个函数比较长,主要可以分为以下几个阶段:

解析命令行参数

初始化环境

编译执行PHP代码

清理环境并返回退出


在第1个阶段中,解析-f参数为执行一个PHP文件,-f后面的test.php就是需要被执行的文件。

这里我们将关注第3个阶段,如何执行test.php中的PHP代码。


最终是通过php_execute_script(&file_handle TSRMLS_CC)来执行PHP的脚本,这个函数定义在{PHPSRC}/main/main.c,原型为

PHPAPI int php_execute_script(zend_file_handle *primary_file TSRMLS_DC)

file_handle的类型为zend_file_handle,这个是zend对文件句柄的一个封装,里面的内容就是和test.php相关的了。


php_execute_script最终是调用的zend_execute_scripts,这个函数定义在{PHPSRC}/Zend/zend.c,原型为:

ZEND_API int zend_execute_scripts(int type TSRMLS_DC, zval **retval, int file_count, ...)

此函数具有可变参数,可以一次执行多个PHP文件,在此函数中最核心的是调用zend_compile_file和zend_execute,zend_compile_file是一个函数指针,其声明在{PHPSRC}/Zend/zend_compile.c:

ZEND_API zend_op_array *(*zend_compile_file)(zend_file_handle *file_handle, int type TSRMLS_DC);

在引擎初始化的时候,会将compile_file函数的地址赋值给zend_compile_file,compile_file函数定义在{PHPSRC}/Zend/zend_language_scanner.c,通过声明可以看到这个函数以zend_file_handle指针作为参数,返回一个指向zend_op_array的指针。


zend_execute也是一个函数指针,其声明在{PHPSRC}/Zend/zend_execute.c:

ZEND_API extern void (*zend_execute)(zend_op_array *op_array TSRMLS_DC);

同样在引擎初始化的时候,会将execute函数的地址赋值给zend_execute,execute的定义在{PHPSRC}/Zend/zend_vm_execute.h。


通过声明知道zend_execute以一个指向zend_op_array结构的指针作为参数,这个指针即前面zend_compile_file的返回值,zend_execute就开始执行op_array中的op code,在执行op code的过程中,就实现了PHP语言的各种功能。


到这里主要的执行工作基本就完成。


PS:为什么要把zend_execute和zend_compile_file定义为函数指针?


在引擎初始化(zend_startup)的时候,将zend_execute指向了默认的execute,zend_compile_file指向了默认的compile_file。我们可以在实际编译和执行之前将zend_execute和zend_compile_file重写为其他的编译和执行函数,这样就为我们扩展引擎留下了钩子,比如一个比较有名的查看PHP的op code的扩展vld(http://www.derickrethans.nl/projects.html#vld),此扩展就是在每次请求初始化的钩子函数(PHP_RINIT_FUNCTION)中,将zend_execute和zend_compile_file替换成自己的vld_execute和vld_compile_file,这两个函数其实是对原始函数进行了封装,添加了输出opcode信息的附加功能,因为引擎初始化是发生在模块请求初始化之前,而模块请求初始化又是在编译和执行之前,所以这样的覆盖能达到目的。