PYTHON虛擬機的字節碼設計方法是什么

發布時間：2023-05-09 16:02:28 來源：億速云閱讀：219 作者：iii 欄目：開發技術

這篇文章主要介紹“PYTHON虛擬機的字節碼設計方法是什么”的相關知識，小編通過實際案例向大家展示操作過程，操作方法簡單快捷，實用性強，希望這篇“PYTHON虛擬機的字節碼設計方法是什么”文章能幫助大家解決問題。

PYTHON 字節碼設計

在本篇文章當中主要給大家介紹 cpython 虛擬機對于字節碼的設計以及在調試過程當中一個比較重要的字段 co_lnotab 的設計原理！

一條 python 字節碼主要有兩部分組成，一部分是操作碼，一部分是這個操作碼的參數，在 cpython 當中只有部分字節碼有參數，如果對應的字節碼沒有參數，那么 oparg 的值就等于 0 ，在 cpython 當中 opcode < 90 的指令是沒有參數的。

PYTHON虛擬機的字節碼設計方法是什么

opcode 和 oparg 各占一個字節，cpython 虛擬機使用小端方式保存字節碼。

我們使用下面的代碼片段先了解一下字節碼的設計：

import dis
def add(a, b):
    return a + b
if __name__ == '__main__':
    print(add.__code__.co_code)
    print("bytecode: ", list(bytearray(add.__code__.co_code)))
    dis.dis(add)

上面的代碼在 python3.9 的輸出如下所示：

b'|\x00|\x01\x17\x00S\x00'
bytecode: [124, 0, 124, 1, 23, 0, 83, 0]
5 0 LOAD_FAST 0 (a)
2 LOAD_FAST 1 (b)
4 BINARY_ADD
6 RETURN_VALUE

首先需要了解的是 add.code.co_code 是函數 add 的字節碼，是一個字節序列，list(bytearray(add.__code__.co_code)) 是將和這個序列一個字節一個字節進行分開，并且將其變成 10 進制形式。根據前面我們談到的每一條指令——字節碼占用 2 個字節，因此上面的字節碼有四條指令：

PYTHON虛擬機的字節碼設計方法是什么

操作碼和對應的操作指令在文末有詳細的對應表。在上面的代碼當中主要使用到了三個字節碼指令分別是 124，23 和 83 ，他們對應的操作指令分別為 LOAD_FAST，BINARY_ADD，RETURN_VALUE。他們的含義如下：

LOAD_FAST：將 varnames[var_num] 壓入棧頂。
BINARY_ADD：從棧中彈出兩個對象并且將它們相加的結果壓入棧頂。
RETURN_VALUE：彈出棧頂的元素，將其作為函數的返回值。

首先我們需要知道的是 BINARY_ADD 和 RETURN_VALUE，這兩個操作指令是沒有參數的，因此在這兩個操作碼之后的參數都是 0 。

但是 LOAD_FAST 是有參數的，在上面我們已經知道 LOAD_FAST 是將 co-varnames[var_num] 壓入棧，var_num 就是指令 LOAD_FAST 的參數。在上面的代碼當中一共有兩條 LOAD_FAST 指令，分別是將 a 和 b 壓入到棧中，他們在 varnames 當中的下標分別是 0 和 1，因此他們的操作數就是 0 和 1 。

字節碼擴展參數

在上面我們談到的 python 字節碼操作數和操作碼各占一個字節，但是如果 varnames 或者常量表的數據的個數大于 1 個字節的表示范圍的話那么改如何處理呢？

為了解決這個問題，cpython 為字節碼設計的擴展參數，比如說我們要加載常量表當中的下標為 66113 的對象，那么對應的字節碼如下：

[144, 1, 144, 2, 100, 65]

其中 144 表示 EXTENDED_ARG，他本質上不是一個 python 虛擬機需要執行的字節碼，這個字段設計出來主要是為了用與計算擴展參數的。

100 對應的操作指令是 LOAD_CONST ，其操作碼是 65，但是上面的指令并不會加載常量表當中下標為 65 對象，而是會加載下標為 66113 的對象，原因就是因為 EXTENDED_ARG 。

現在來模擬一下上面的分析過程：

先讀取一條字節碼指令，操作碼等于 144 ，說明是擴展參數，那么此時的參數 arg 就等于 (1 x (1 << 8)) = 256 。
讀取第二條字節碼指令，操作碼等于 144 ，說明是擴展參數，因為前面 arg 已經存在切不等于 0 了，那么此時 arg 的計算方式已經發生了改變，arg = arg << 8 + 2 << 8 ，也就是說原來的 arg 乘以 256 再加上新的操作數乘以 256 ，此時 arg = 66048 。
讀取第三條字節碼指令，操作碼等于 100，此時是 LOAD_CONST 這條指令，那么此時的操作碼等于 arg += 65，因為操作碼不是 EXTENDED_ARG 因此操作數不需要在乘以 256 了。

上面的計算過程用程序代碼表示如下，下面的代碼當中 code 就是真正的字節序列 HAVE_ARGUMENT = 90 。

def _unpack_opargs(code):
    extended_arg = 0
    for i in range(0, len(code), 2):
        op = code[i]
        if op >= HAVE_ARGUMENT:
            arg = code[i+1] | extended_arg
            extended_arg = (arg << 8) if op == EXTENDED_ARG else 0
        else:
            arg = None
        yield (i, op, arg)

我們可以使用代碼來驗證我們前面的分析：

import dis
def num_to_byte(n):
    return n.to_bytes(1, "little")
def nums_to_bytes(data):
    ans = b"".join([num_to_byte(n) for n in data])
    return ans
if __name__ == '__main__':
    # extended_arg extended_num opcode oparg for python_version > 3.5
    bytecode = nums_to_bytes([144, 1, 144, 2, 100, 65])
    print(bytecode)
    dis.dis(bytecode)

上面的代碼輸出結果如下所示：

b'\x90\x01\x90\x02dA'
0 EXTENDED_ARG 1
2 EXTENDED_ARG 258
4 LOAD_CONST 66113 (66113)

根據上面程序的輸出結果可以看到我們的分析結果是正確的。

源代碼字節碼映射表

在本小節主要分析一個 code object 對象當中的 co_lnotab 字段，通過分析一個具體的字段來學習這個字段的設計。

import dis
def add(a, b):
    a += 1
    b += 2
    return a + b
if __name__ == '__main__':
    dis.dis(add.__code__)
    print(f"{list(bytearray(add.__code__.co_lnotab)) = }")
    print(f"{add.__code__.co_firstlineno = }")

首先 dis 的輸出第一列是字節碼對應的源代碼的行號，第二列是字節碼在字節序列當中的位移。

上面的代碼輸出結果如下所示：

源代碼的行號字節碼的位移
6 0 LOAD_FAST 0 (a)
2 LOAD_CONST 1 (1)
4 INPLACE_ADD
6 STORE_FAST 0 (a)
7 8 LOAD_FAST 1 (b)
10 LOAD_CONST 2 (2)
12 INPLACE_ADD
14 STORE_FAST 1 (b)
8 16 LOAD_FAST 0 (a)
18 LOAD_FAST 1 (b)
20 BINARY_ADD
22 RETURN_VALUE
list(bytearray(add.__code__.co_lnotab)) = [0, 1, 8, 1, 8, 1]
add.__code__.co_firstlineno = 5

從上面代碼的輸出結果可以看出字節碼一共分成三段，每段表示一行代碼的字節碼。現在我們來分析一下 co_lnotab 這個字段，這個字段其實也是兩個字節為一段的。比如上面的 [0, 1, 8, 1, 8, 1] 就可以分成三段 [0, 1], [8, 1], [8, 1] 。這其中的含義分別為：

第一個數字表示距離上一行代碼的字節碼數目。
第二個數字表示距離上一行有效代碼的行數。

現在我們來模擬上面代碼的字節碼的位移和源代碼行數之間的關系：

[0, 1]，說明這行代碼離上一行代碼的字節位移是 0 ，因此我們可以看到使用 dis 輸出的字節碼 LOAD_FAST ，前面的數字是 0，距離上一行代碼的行數等于 1 ，代碼的第一行的行號等于 5，因此 LOAD_FAST 對應的行號等于 5 + 1 = 6 。
[8, 1]，說明這行代碼距離上一行代碼的字節位移為 8 個字節，因此第二塊的 LOAD_FAST 前面是 8 ，距離上一行代碼的行數等于 1，因此這個字節碼對應的源代碼的行號等于 6 + 1 = 7。
[8, 1]，同理可以知道這塊字節碼對應源代碼的行號是 8 。

現在有一個問題是當兩行代碼之間相距的行數超過一個字節的表示范圍怎么辦？在 python3.5 以后如果行數差距大于 127，那么就使用 (0, 行數) 對下一個組合進行表示，(0, x_1), (0, x_2) ... ，直到 x_1 + ... + x_n = 行數。

在后面的程序當中我們會使用 compile 這個 python 內嵌函數。當你使用Python編寫代碼時，可以使用compile()函數將Python代碼編譯成字節代碼對象。這個字節碼對象可以被傳遞給Python的解釋器或虛擬機，以執行代碼。

compile()函數接受三個參數：

source: 要編譯的Python代碼，可以是字符串，字節碼或AST對象。
filename: 代碼來源的文件名（如果有），通常為字符串。
mode: 編譯代碼的模式。可以是 'exec'、'eval' 或 'single' 中的一個。'exec' 模式用于編譯多行代碼，'eval' 用于編譯單個表達式，'single' 用于編譯單行代碼。

import dis
code = """
x=1
y=2
""" \
+ "\n" * 500 + \
"""
z=x+y
"""
code = compile(code, '<string>', 'exec')
print(list(bytearray(code.co_lnotab)))
print(code.co_firstlineno)
dis.dis(code)

上面的代碼輸出結果如下所示：
[0, 1, 4, 1, 4, 127, 0, 127, 0, 127, 0, 121]
1
2 0 LOAD_CONST 0 (1)
2 STORE_NAME 0 (x)

3 4 LOAD_CONST 1 (2)
6 STORE_NAME 1 (y)

505 8 LOAD_NAME 0 (x)
10 LOAD_NAME 1 (y)
12 BINARY_ADD
14 STORE_NAME 2 (z)
16 LOAD_CONST 2 (None)
18 RETURN_VALUE

根據我們前面的分析因為第三行和第二行之間的差距大于 127 ，因此后面的多個組合都是用于表示行數的。

505 = 3(前面已經有三行了) + (127 + 127 + 127 + 121)(這個是第二行和第三行之間的差距，這個值為 502，中間有 500 個換行但是因為字符串相加的原因還增加了兩個換行，因此一共是 502 個換行)。

具體的算法用代碼表示如下所示，下面的參數就是我們傳遞給 dis 模塊的 code，也就是一個 code object 對象。

def findlinestarts(code):
    """Find the offsets in a byte code which are start of lines in the source.
    Generate pairs (offset, lineno) as described in Python/compile.c.
    """
    byte_increments = code.co_lnotab[0::2]
    line_increments = code.co_lnotab[1::2]
    bytecode_len = len(code.co_code)
    lastlineno = None
    lineno = code.co_firstlineno
    addr = 0
    for byte_incr, line_incr in zip(byte_increments, line_increments):
        if byte_incr:
            if lineno != lastlineno:
                yield (addr, lineno)
                lastlineno = lineno
            addr += byte_incr
            if addr >= bytecode_len:
                # The rest of the lnotab byte offsets are past the end of
                # the bytecode, so the lines were optimized away.
                return
        if line_incr >= 0x80:
            # line_increments is an array of 8-bit signed integers
            line_incr -= 0x100
        lineno += line_incr
    if lineno != lastlineno:
        yield (addr, lineno)

PYTHON 字節碼表

操作	操作碼
POP_TOP	1
ROT_TWO	2
ROT_THREE	3
DUP_TOP	4
DUP_TOP_TWO	5
ROT_FOUR	6
NOP	9
UNARY_POSITIVE	10
UNARY_NEGATIVE	11
UNARY_NOT	12
UNARY_INVERT	15
BINARY_MATRIX_MULTIPLY	16
INPLACE_MATRIX_MULTIPLY	17
BINARY_POWER	19
BINARY_MULTIPLY	20
BINARY_MODULO	22
BINARY_ADD	23
BINARY_SUBTRACT	24
BINARY_SUBSCR	25
BINARY_FLOOR_DIVIDE	26
BINARY_TRUE_DIVIDE	27
INPLACE_FLOOR_DIVIDE	28
INPLACE_TRUE_DIVIDE	29
RERAISE	48
WITH_EXCEPT_START	49
GET_AITER	50
GET_ANEXT	51
BEFORE_ASYNC_WITH	52
END_ASYNC_FOR	54
INPLACE_ADD	55
INPLACE_SUBTRACT	56
INPLACE_MULTIPLY	57
INPLACE_MODULO	59
STORE_SUBSCR	60
DELETE_SUBSCR	61
BINARY_LSHIFT	62
BINARY_RSHIFT	63
BINARY_AND	64
BINARY_XOR	65
BINARY_OR	66
INPLACE_POWER	67
GET_ITER	68
GET_YIELD_FROM_ITER	69
PRINT_EXPR	70
LOAD_BUILD_CLASS	71
YIELD_FROM	72
GET_AWAITABLE	73
LOAD_ASSERTION_ERROR	74
INPLACE_LSHIFT	75
INPLACE_RSHIFT	76
INPLACE_AND	77
INPLACE_XOR	78
INPLACE_OR	79
LIST_TO_TUPLE	82
RETURN_VALUE	83
IMPORT_STAR	84
SETUP_ANNOTATIONS	85
YIELD_VALUE	86
POP_BLOCK	87
POP_EXCEPT	89
STORE_NAME	90
DELETE_NAME	91
UNPACK_SEQUENCE	92
FOR_ITER	93
UNPACK_EX	94
STORE_ATTR	95
DELETE_ATTR	96
STORE_GLOBAL	97
DELETE_GLOBAL	98
LOAD_CONST	100
LOAD_NAME	101
BUILD_TUPLE	102
BUILD_LIST	103
BUILD_SET	104
BUILD_MAP	105
LOAD_ATTR	106
COMPARE_OP	107
IMPORT_NAME	108
IMPORT_FROM	109
JUMP_FORWARD	110
JUMP_IF_FALSE_OR_POP	111
JUMP_IF_TRUE_OR_POP	112
JUMP_ABSOLUTE	113
POP_JUMP_IF_FALSE	114
POP_JUMP_IF_TRUE	115
LOAD_GLOBAL	116
IS_OP	117
CONTAINS_OP	118
JUMP_IF_NOT_EXC_MATCH	121
SETUP_FINALLY	122
LOAD_FAST	124
STORE_FAST	125
DELETE_FAST	126
RAISE_VARARGS	130
CALL_FUNCTION	131
MAKE_FUNCTION	132
BUILD_SLICE	133
LOAD_CLOSURE	135
LOAD_DEREF	136
STORE_DEREF	137
DELETE_DEREF	138
CALL_FUNCTION_KW	141
CALL_FUNCTION_EX	142
SETUP_WITH	143
LIST_APPEND	145
SET_ADD	146
MAP_ADD	147
LOAD_CLASSDEREF	148
EXTENDED_ARG	144
SETUP_ASYNC_WITH	154
FORMAT_VALUE	155
BUILD_CONST_KEY_MAP	156
BUILD_STRING	157
LOAD_METHOD	160
CALL_METHOD	161
LIST_EXTEND	162
SET_UPDATE	163
DICT_MERGE	164
DICT_UPDATE	165

關于“PYTHON虛擬機的字節碼設計方法是什么”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識，可以關注億速云行業資訊頻道，小編每天都會為大家更新不同的知識點。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

PYTHON虛擬機的字節碼設計方法是什么

PYTHON 字節碼設計

字節碼擴展參數

源代碼字節碼映射表

PYTHON 字節碼表

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

PYTHON虛擬機的字節碼設計方法是什么

PYTHON 字節碼設計

字節碼擴展參數

源代碼字節碼映射表

PYTHON 字節碼表

猜你喜歡

最新資訊

相關推薦

相關標簽