中文编程
首发于中文编程

为「木兰」编程语言添加对中文命名标识符的支持

基于 @肖剑 的逆向工程 (如很多人已经知道的, 当然是 Python 代码, 很不错, 嗯).

开始对「木兰」编程语言进行分析。首先打算摸索它的基本功能。前文戳破针对「木兰」编程语言的拙劣谣言已经进行了少量代码测试.

但, 可惜木兰尚未支持中文命名标识符, 打算先改进一下, 以便编写更易维护的测试代码. 测试代码打算先在逆向工程中运行(主力机器是 Mac),待基本确定范围后,再在 exe 中确认一遍。

运行 ulang-0.2.2.exe 后, 如果输入下面代码:

年 = year()

会报错"LexingError".

在我 fork 出的逆向工程中运行 "python -m ulang" 可以启动同样的交互环境 ulang's REPL. 但同样的代码报错不同, 似乎信息更多一些:

> 年 = year()
SyntaxError: File "<STDIN>", line 1:1, unknown token is found here
年 = year()
^

回头可以研究一下报错机制, 为何 exe 和逆向的不同.

早先回答时猜想是由于"实现的前端在词法分析这步拦住了"中文命名, 于是查看逆向代码中, 果然看到`parser/lexer.py`中关于标识符的正则表达规则中, 只允许英文/数字/下划线:

lg.add('IDENTIFIER', '\\$?[_a-zA-Z][_a-zA-Z0-9]*')

接下去就熟门熟路, 添加上中文字符的 unicode 范围:

lg.add('IDENTIFIER', '\\$?[_a-zA-Z\u4e00-\u9fa5][_a-zA-Z0-9\u4e00-\u9fa5]*')


再从逆向工程中运行:

$ python3 -m ulang
Welcome to ulang's REPL..
Type 'help' for more informations.
> 年 = year()
> 年
2020


嗯, 告别过去, 不错的第一步.

逆向工程地址: github.com/MulanRevive/

发布于 2020-01-24

文章被以下专栏收录

    在所有编程语言和领域中尝试编写中文代码,开发相关工具,总结经验,一致代码风格。包括中文命名,汉化现有语言,创造中文语法的编程语言等等。作为最熟悉的母语,用来编写代码会让代码更容易被自己和母语相同的其他开发者理解。基于英文的编程语言和框架中,使用中文命名有时有技术问题。希望这里为后人趟雷,填坑。多数现有API是英文的,这里也会对其中一些常用的进行汉化。当然,这里也会对基于中文的编程语言进行探讨。包括汉化基于英文的编程语言,以及创造新的编程语言。

    对「木兰」编程语言进行技术分析,围绕它公开的可执行文件进行功能、实现等不同层面上的研究。