漫画数据化——计算机科学在漫画领域的相关研究简介

日本漫画话题下的优秀答主

0 引子

“通过分析统计jump各畅销漫画的分镜、人设、台词，我总结出了流行漫画的理论，将其应用之后的成果就是《暗杀教室》。”^[1]——松井优征

第一次看到这段话时，我就像被雷劈中了。因为松井和荒木不同：荒木是通过jojo漫长的创作岁月归纳出了方法论，才写出了漫画术；而是松井则是先有了理论并加以实践，最终通过漫画的畅销证明了自己的理论——这种爽感大概和通过万有引力定律发现海王星一样，是令人无法抗拒的知性过程。更进一步的，松井还提到了对角色的身高进行了归纳整理，这似乎说明他的部分理论甚至是定量化的。

不管松井优征是不是在口胡，以这个时间点为界，我阅读漫画有意无意的想形成一套自己的判据方式，也会刻意去追寻定量化；比如，对漫画章节回数的划分，对周刊jump各类型漫画数目的统计，等等。不过针对漫画的成体系的方法论总因为水平不够而浅尝辄止。

直到最近开始阅读一些文献，我才发现许多一直想考察的内容已经有人专门研究过了。这就是我们今天要介绍的内容——计算机科学在漫画领域的应用。

诚然，知乎比我既了解计算机科学也熟悉漫画的大有人在，不过简介整个领域的文章却几乎没有。所以我只好越俎代庖一下，来简单聊聊计算机科学近年来在漫画领域的一些研究。这篇将对漫画内容分析、漫画内容与读者行为的关系、漫画内容的生成以及向其他媒介的转换^[2]^[3]^[4]三个主要研究领域进行简介。

后面至少还会写一篇文章具体讨论视线诱导，然后如果还有空闲，有机会的话大概会再详细探讨些别的内容。

比如：最近知乎有个问题探讨鸟山明和北条司的受众程度，在分析北条司的时候大多则提到了剧画的衰落。那么，什么是剧画？大多数人都能下个简单的定义：更写实化、符号化程度更低的漫画。

那么，写实化什么程度就算剧画了呢？量度又是怎样的呢？如果定量化，剧画的特征是什么？更进一步说，如何定义风格？这都是可以进一步思考的问题。而有研究已经涉及了这部分内容。

因为水平有限，本文可能存在诸多错误，请各位多批评；有些地方为了方便理解会难免废话，各位见谅；因为是简介，所以本文不涉及论文中提到的具体公式，如果感兴趣可以去看相关文章；最后，如果这篇文章能促使在这方面更擅长的人写点什么更硬核的内容，那我也算是抛砖引玉了。

1 漫画内容分析

漫画是什么？《理解漫画》一书中，将其定义为“有意识的排列并置图画及其他图像”。我个人换一种说法：“有意识排列的图像及文本的组合”，或者更简单的说，漫画=图+文字+有意识的排列。那么如果对漫画的内容进行分析，自然也是考察这些要素。

1.1 漫画的元素

我们可以把漫画的元素分的更细一些。如果只考察漫画的“画”，那么至少有文字、图像、图像布局三方面要素。

其中，涉及“文字”的部分包括：台词和拟声词；台词又可细分为有文本框的和没有文本框的台词；

同时，漫画还有许多“符号化”的语言，比如上图贝吉塔的汗珠，和各种可以表示角色心情的“符号”。

涉及“图像”的部分主要包括：人物、背景、效果线。更进一步的，又可以对人物的形态，面部要素等方面进行进行研究；图像的明暗对比涉及网点纸的叠加，故又可以考察网点纸的效果；效果线则起到视线诱导的作用^[5]。另外，彩漫中因为涉及色彩，所以其技法和黑白漫存在许多差异。

涉及图像布局的部分，即漫画每页各幅画的布局。像上面这页千佳的射击就采用了跨页和出血的效果；其他还有文字和人物的出格等和图像布局有关的内容。

当然，漫画每页的画面构成只是一部分内容，而像世界观、剧情、人设等难以量化的内容的讨论，我们就不在这里展开了。不过即使是分析以上这些看似简单的概念，也会遇到相关问题——人虽然可以轻易识别这些元素，但电脑要如何去提取这些元素呢？下面依次举例进行简要说明。

1.2 画面切割

首先我们考察元素中相对比较好提取的要素——漫画的分格。人的常规阅读漫画方式是和读书一样逐行的”Z字型“方式，但不同的分格手法会影响人的阅读顺序^[6]，这就是漫画采用多种分格布局的原因。

漫画每格画面之间一般存在着间隔，通过控制间隔大小可以营造停滞感等效果。而间隔往往是纯白或纯黑的，所以电脑可通过明暗关系的改变来判断各分格。

不过现实处理过程中自然不会像想象的那么简单，且不说以jojo分镜为代表的各种稀奇古怪的画面切割方式^[7]，即使是横平竖直的分格，当在分格中又出现新的分格（下图e^[8]）或破格导致画面相叠(下图h)的时候，该怎么办？

由此可见，单是简单的分格，到实际处理时都会遇到诸多问题。所以不妨先解决部分情况——比如出格（与上图h相关）的问题。比如，我们可以先把各分格全部涂黑，再通过出格部分占间隔的比例判断是否删去（比如设定当黑色部分<间隔线长度的0.2时，认为可以抹去）^[9]。

当然，我这里只是做了简单说明，近些年来各课题组针对该问题发展了一些方法。通过对分格的分析，根据漫画数据库，我们可以得到一些结论，比如各间隔方式的布局随年份变化的情况。从下图我们可以看出，美漫中跨单页的分格明显在逐年递增^[10]，而最近藤本树在《再见绘梨》中大量应用了该类型的分格布局方式——藤本树借鉴美漫的“证据”找到了(oﾟωﾟo)。

1.3 文本提取

在区分出分格布局的基础上，就可以考虑对文本内容进行提取了，知乎也有人做了类似的工具^[11]。以文本框提取为例，常见的判据有两类，分别是纹理（因为文本框内一般是纯色），以及大小宽度等数据。当然也可直接通过文字判据——这就类似一些图片翻译软件^[12]。

当然，也可以只分析特定的文本，比如《王者天下》中经常会出现只包含感叹号的文本框，故可以通过其数量波动判断故事场景的转换^[13]^[14]^[15]，如下右图，可通过感叹号的波动将第九卷拆分为三幕。

也可统计各文本框的形状，不同形状的文本框往往可以反映说话人不同的情绪^[16]，比如下图就统计了食戟之灵、妄想学生会、Billybat等漫画中各文本框形状的数目。具体我们不在这里展开了。

1.4 人物形象信息

荒木在自己的《漫画术》中认为，角色是漫画最重要的要素；近年热门漫画的一大优势也是角色的塑造。不过人物信息相对以上两者显然更难提取，所以经常需要采用机器学习的方法。常规提取人物信息的方法往往是基于现实中的人体^[17]，而漫画中的人体存在诸多夸张，也难免存在变形，所以实际的方法一般不能直接移植到漫画领域。

所以依旧可以选取较简单的情况进行分析，比如只提取面部信息；而眼睛则是人脸相对比较好提取的元素，因为眼睛一般都是圆形——由此可利用机器学习相关方法^[18]先确定眼睛的位置，再通过眼睛和头的对应比例以及各种轮廓线的检测从而由眼睛外延确定头像^[19]。

我们知道少年漫、少女漫的风格往往是不同的，不同作家也存在着风格差异。在提取完头像信息之后，就可以继续从头像中提取对应的信息，来调查各类漫画之间的差异。

下表选择了6种可以反映线条信息的变量：比如l1即为相邻线条之间的夹角；l2为各线段和水平线的夹角；l5则为具有相似方向的相邻线条数目。之后，文章分别提取了少年漫画杂志少年jump，magazine，sunday和少女杂志玛格丽特、别册friend、Sho-Comi中共240副头像的对应变量进行比较。

当然，变量可以随意选取，之后再通过数据处理筛选即可找到能用来反映差异的元素。比如下表就是以p值^[20]作为量度，当p值越小（即加粗的数据）时，该变量判断两者不同的说服力越强。

1.5 相关工具与小节

利用计算机分析漫画，既需要各种处理工具^[2]，也需要相关的数据库——比如eBDtheque^[21]，comics^[22]这两个数据库，可以直接提取一些信息。

这部分我们分三类漫画元素各自举了一些例子，其实其他可考察的对象还很多，比如之前提到的网点，就有文章尝试以网点的多少作为判断作者风格的量度之一。

以上提到的内容大体是只基于漫画进行分析，但是漫画是要有读者去读去进行互动的。所以接下来，我们在这基础上引入读者，看看读者对漫画会做出怎样的反应。

2 漫画内容与读者行为的关系

少年Jump一直赖以生存的一项指标就是其顺位制度；另一方面，有答主^[23]认为编辑需要为海贼和之国、火影四战、死神血战篇的诸多问题负很大责任，因为编辑作为作品的“第一位读者”，理应起到把关作用。那么如果能预测读者阅读漫画时的反应，对于创作漫画无疑是大有裨益的。

2.1 视线诱导

视线诱导不仅应用于漫画领域，在电影、美术作品、建筑领域、媒体界、设计界都有应用。漫画自然也不例外，视线诱导是控制漫画阅读节奏的核心要素。

想必各位看过许多视线诱导的标注，比如下图是我随手搜的龙珠视线诱导图^[24]；不过为什么视线诱导就是下面这样？为什么不是其他的连结方式？或者说线到底该怎么连？什么是好的视线诱导方式？

另外，我们连的线，真的是原版日漫的想体现的视线诱导吗？比如上图左上的拟声词，日本人会不会因为能够识别文字而在那里停留，而我们因为母语不是日语而导致视线诱导和日本人不同呢？^[25]我认为显然是会的。

最准确和严谨的办法自然是找一组人来看漫画做实验，通过眼球跟踪器追踪人眼球的活动，再进行处理将其映射到屏幕上，从而得到最终的视线诱导轨迹。比如下图是《王者天下》中的视线诱导图^[26]，由此，我们可以得到大量的样本，再通过机器学习的办法并进一步分析，即可得到视线诱导的影响因素。

知乎有涉及这方面内容的问题^[27]，我个人目前认为漫画视线诱导可以看作是作者通过控制画面不同位置信息的疏密来达到的，而人眼会倾向于关注短时能获取最多信息的地方。而好的视线诱导，至少要做到让读者把所有作者想提供的信息都收集到，更进一步则要让读者照作者的想法来调控阅读的速度。

更具体的视线诱导分析涉及速度线、文本框、明暗对比、条漫、彩漫等诸多因素，之后会写文章深入讨论。

2.2 生理信号

也有课题组对人阅读漫画时的情绪变化进行了研究。比如有课题组^[28]通过对人体脉搏，体温等数据的分析，可以准确预测受检测者阅读的漫画是什么类型漫画。

知乎有个问题是恐怖漫画如何营造电影或游戏中常出现的jump scare^[29](直译：吓你一大跳)，我认为这部分研究大概可以为解决该问题提供一些帮助。

2.3 小结

显然，还有许多人体信号可以监测，不过我觉得监测有些信号可能合理，但有些就未免有点大炮打蚊子的感觉。

和读者行为有关的内容不止这些；比如，如果用手机阅读，因为屏幕比较小，阅读漫画需要点击屏幕放大或下滑，由此漫画会和读者产生更多的互动；又比如，为了学生能高效愉快的学习，有许多人将课程或书籍做成了漫画形式^[30]。相关的漫画各位可能也见到过——比如欧姆社那套入门书籍。我认为这某种程度上可视为该领域的成果。这方面内容我们会在第三节中再次提及。

以上是从读者视角上考虑问题。自然也可以将视角放在创作者身上，看看计算机是怎样辅助创作者们制作漫画的。

3 与漫画内容生成相关的问题

板绘虽然相对手绘有些质感可能无法做到，但相对有着易修改，易存储，速度较快等优势。比如，浅野一二〇在《恶魔的破坏》中的巨大兵器就是通过各种零件的拼接制作出来的。近年来，一些涉及漫画自动化创作的工具逐渐被开发了出来，比如3D建模软件；各种漫画模板也陆续投入了应用，比如近年jump+的自制漫画软件。

另一方面，对“漫画”概念的“拓展”和媒介的变换也成为了热点话题，比如万恶的“讲漫”概念的提出^[31]。

不过总归，经济基础决定上层建筑，生产力决定生产关系，自动化工具带来的高效率会使作者有更多时间思考剧情，从而创作出更优质的内容。

3.1 内容生成

除了上面提到的3D建模，常见的还有AI上色^[32]，有些项目正在寻求商业化。下图是github上的万星项目^[33]^[34]，输入线稿后分三步添加色块、颜色渐变、阴影，最后得到成品。

不过注意一点，彩漫和黑白漫的技法有本质上的不同，这是在创作漫画中需要考虑的问题。

相关的还有照片变为漫画^[35]^[36]等项目，有的已经做成了app，这方面文章知乎就有。总之，只要有心找一找，不难看到AI作画方面的进展。下图就是AI创作的几幅作品^[37]。

3.2 媒介转换

有一些研究着眼于将漫画直接通过程序转换为动态漫画，比如下面这个视频就是通过计算机模拟摄像机运动的方法自动得到的一段灌篮高手的动态漫画^[38]。

https://www.zhihu.com/video/1506041145716686848

另外，考虑到盲人无法阅读漫画，所以现在也有研究致力于将漫画转换为盲文或者录音的形式。

3.3 小结

我其实对这部分的一些工作有些看法。暂且不谈帮助盲人阅读漫画的问题，我们究竟如何定义“漫画”？回到一开始的定义，漫画是“有意识排列的图像及文本的组合”。

那么讲漫似乎几乎没有有意识的图像布局，算漫画还是算视频？再比如下面这个“互动漫画”，可以通过移动屏幕调整观看漫画的视角，从而实现部分3D的效果^[39]。这种效果如果更进一步，比如通过视角隐藏线索，是不是就变成了游戏了？

这是需要重视的问题，因为如果不小心，漫画难免可能成为其他媒介的附庸。

另一方面，AI技术日新月异，这自然是好的，毕竟提高了效率，但这也导致了部分漫画家的划水，比如某天天看管人玩apex梦想“成为摄影家”的漫画家就总用3D模型直接描图。那么未来AI会不会逐步替代漫画家？我想还是不会的，就像《诗云》里讲的那样。虽然以上提到了各种漫画相关的研究，但追根到底，漫画毕竟是人创作的作品。总之，我期待技术逐步解放漫画家们的生产力，也相信和希望AI替代漫画家的那天在我有生之年不会到来。

结语

漫画研究涉及心理学、美学、建筑学等多个领域，本文只是简要对计算机科学在漫画领域的研究做个介绍。希望这篇文章可以对各位研究漫画提供新的视角。

毕竟，当你接受不了漫画表现论那一套学术性语言；认为齐泽克佶屈聱牙于是只好将文章放到收藏夹中吃灰；对东浩纪伊藤刚四方田犬彦表示虽觉厉但不明；对什么无调性世界什么大他者主客体的含义更是一头雾水；那么来看看基于数据分析的，可以证伪的IEEE论文也不失为另一条道路^[40]。因为，数据不会骗人^[41]。而就算艺术和科学在山麓分手，最终也会在山顶碰头。

溜了溜了。

参考

^少年jump50周年，NHK纪录片。
^^a^bAugereau O, Iwata M, Kise K. An overview of comics research in computer science[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2017, 3: 54-59.
^Augereau O, Iwata M, Kise K. A survey of comics research in computer science[J]. Journal of imaging, 2018, 4(7): 87.
^我这篇总体上是基于这两篇综述。
^其他涉及图像的还有诸如：色相、饱和度、动态模糊等方面的内容。
^Cohn N. Navigating comics: an empirical and theoretical approach to strategies of reading comic page layouts[J]. Frontiers in psychology, 2013, 4: 186.
^荒木割り https://moebius.exblog.jp/6209517/
^ Pederson K, Cohn N. The changing pages of comics: Page layouts across eight decades of American superhero comics[J]. Studies in Comics, 2016, 7(1): 7-28.
^Pang X, Cao Y, Lau R W H, et al. A robust panel extraction method for manga[C]//Proceedings of the 22nd ACM international conference on Multimedia. 2014: 1125-1128.
^Pederson K, Cohn N. The changing pages of comics: Page layouts across eight decades of American superhero comics[J]. Studies in Comics, 2016, 7(1): 7-28.
^https://zhuanlan.zhihu.com/p/27563287
^Piriyothinkul B, Pasupa K, Sugimoto M. Detecting text in manga using stroke width transform[C]//2019 11th International Conference on Knowledge and Smart Technology (KST). IEEE, 2019: 142-147.
^file:///C:/Users/yunsh/Desktop/manga/%E6%96%87%E6%9C%AC%E5%88%86%E6%9E%90-%E7%8E%8B%E8%80%85Histogram_of_Exclamation_Marks_and_Its_Application_for_Comics_Analysis.pdf
^我严重怀疑有一个实验组特别喜欢王者，一共看到了好几篇拿王者分析的文章。
^这篇其实还考察了奥特曼的漫画。
^Yamanishi R, Tanaka H, Nishihara Y, et al. Speech-balloon shapes estimation for emotional text communication[J]. Information Engineering Express, 2017, 3(2): 1-10.
^Cao Z, Simon T, Wei S E, et al. Realtime multi-person 2d pose estimation using part affinity fields[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 7291-7299.
^如SVM算法
^Chu W T, Chao Y C. Line-based drawing style description for manga classification[C]//Proceedings of the 22Nd ACM international conference on multimedia. 2014: 781-784.
^Li J, Yao L, Hendriks E, et al. Rhythmic brushstrokes distinguish van Gogh from his contemporaries: findings via automated brushstroke extraction[J]. IEEE transactions on pattern analysis and machine intelligence, 2011, 34(6): 1159-1176.
^https://ebdtheque.univ-lr.fr/database/?overview=1
^https://obj.umiacs.umd.edu/comics/index.html
^https://www.zhihu.com/question/530470941/answer/2468876777
^视线诱导 https://zhuanlan.zhihu.com/p/20441746
^Rohan O, Sasamoto R, O'Brien S. Onomatopoeia: A relevance-based eye-tracking study of digital manga[J]. Journal of Pragmatics, 2021, 186: 60-72.
^Rigaud C, Le T N, Burie J C, et al. Semi-automatic text and graphics extraction of manga using eye tracking information[C]//2016 12th IAPR Workshop on Document Analysis Systems (DAS). IEEE, 2016: 120-125.
^https://www.zhihu.com/question/502580823/answer/2249216543
^Sanches C L, Augereau O, Kise K. Manga content analysis using physiological signals[C]//Proceedings of the 1st International Workshop on coMics ANalysis, Processing and Understanding. 2016: 1-6.
^https://www.zhihu.com/question/50716876/answer/122352558
^Ramadhan R H, Ratnaningtyas L, Kuswanto H, et al. Analysis of Physics Aspects of Local Wisdom: Long Bumbung (Bamboo Cannon) in Media Development for Android-Based Physics Comics in Sound Wave Chapter[C]//Journal of Physics: Conference Series. IOP Publishing, 2019, 1397(1): 012016.
^所以“讲漫”什么时候上热搜？
^Casey E, Pérez V, Li Z. The Animation Transformer: Visual Correspondence via Segment Matching[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 11323-11332.
^https://github.com/lllyasviel/style2paints
^https://zhuanlan.zhihu.com/p/77620838
^https://zhuanlan.zhihu.com/p/76936166
^https://zhuanlan.zhihu.com/p/76936166
^https://archive.org/details/1111101000-robots
^Cao Y, Pang X, Chan A B, et al. Dynamic manga: Animating still manga via camera movement[J]. IEEE Transactions on Multimedia, 2016, 19(1): 160-172.
^http://andrebergs.com/protanopia/?msclkid=50e91b3bcd2511ec9570737ad11c5ee2
^我真的没有针对谁的意思。
^其实数据骗人的事情也多了。

编辑于 2022-05-07 08:31

漫画

计算机科学