一、 习作列表
只写开宝,1至6月合计45篇,短篇坑文6万余字。标题后为主要角色/cp关系。
1月
1.波心月影 花粗
2.Che Gelida Manina(你这冰凉的手) 小伽
3.镜中花 花
4.租房子 开小/花粗
5.吔我大波板糖啦! 粗花
6.Truly Madly Deeply 花甜
7.一个儿子 开宅
8.偷儿在此! 花小花
9.欢笑炒肉 花
2月
10.我多么喜欢欢笑炒肉 花
11.旧梗新玩 凯伽
12.下水道来客 花
13.我花我 花
14.PSR 花
3月
15.兔军官与小野狼 小伽
16.惊蛰 花粗花
17.奥卡姆剃刀 花
18.龙恶斗者勇 花开花
19.花与蛇 花小
20.Chiquitito(小男孩) 花
21.极光 花粗花
22.大黄象,小黄象 花&大大怪
23.兔人杀 小伽
24.钢铁直男贾荦与给圈名媛丁大国 罗大诱
25.Lzsb 罗大诱
26.花心磁力 花
4月
27.铁面人 罗大诱
28.欢笑炒肉2 花
29.王座 花粗花
30.Flipped 花甜
31.宅博士(外一则) 宅博士&大大怪
5月
32.那么也请容许我吹爆花心超人(广义的) 花
33.下海(广义的) 花小
34.校车(广义的) 花小
35.特攻(广义的) 小花
36.鸡阿姨 小伽
37.当xxcr看到黄金魔方非常心动但发现为拯救五百个阿婆及小女孩自己已经口袋空空的时候一只大明星高调路过 花小花
38.送别 花甜
39.やったぜ! 开花小
40.你都如何回忆我 花粗
41.欢笑炒肉3 花
6月
42.「我怎么可能和他出去玩啊!」 花小花
43.Chocomint 花小
44.莴苣公主 小花+粗花
45.花心超人把肉捧给粗心超人吃 花粗
二、角色共存关系:客观分析人物塑造与关系构建
1. 预处理
lofter有导出xml功能,该文件包含了创建博客至下载时间的所有博文及评论、点赞等。可以直接复制粘贴至word,然后用通配符删除不需要的内容,只留下正文。
使用中文NLP处理必用包jieba,达到分词效果;并使用load_userdict导入用户词典(只要建立一个包括重要人物名字的txt即可。如「花心超人」「甜心超人」等,否则jieba会自动将它们断成「花心」、「甜心」、「超人」三个词,这也是我之前做词频统计时「超人」一词最高频的原因。)
使用自带的stopwords,或导入中文暂停词表(网上可以搜索到,暂停词即「不久」、「除外」、「还是」等无差别连词)进行二次过滤。最后只留下大于2字的实义词汇。
2. 以句读切割,整理与某角色共同出现(co-occurrence)的高频词汇
先定义函数person_word,即整理出与指定的人名(e.g. 「花心超人」)同时出现在一行的词汇,形成词汇列表wordlist。
使用Wordcloud词云包制作每个wordlist的词云图,如下:
【甜心超人】
可以看出我很喜欢写花甜(行,下次把花心超人撇掉再分析。因为我写到哪里都是花心超人)。另外,厨房、泡泡、女孩子、买菜、包扎等词汇可以反映出这个爱做菜的医疗兵的特色;房间一词被反复使用,体现出我写文章格局不够大,喜欢把男女情爱扔到房间里写。下次有机会写野战。
【花心超人】
这不用说了,我儿子是被我写得最多的。cp向或cp向中,我写的花粗和花小平分秋色,夹杂和开心超人拌嘴或合作的情节(我一直觉得《龙恶斗者勇》很牛逼)。头发、镜子、主角等等都是他的常用物件或挂在嘴边的话,高频出现的「磁力」代表我总是为了不OOC而提起他的超能力(否则就和普通的黑皮傲娇无异)。
【粗心超人】
粗心超人的主要出现场合是帮BB个没完的花心超人修东西,或者和他抢洗手间,或者一脸祥和地被主角训斥。高频出现的词汇中有大量的「忘记」、「记忆」、「记得」等。可能因为原作的原因,粗心超人的刻画面非常狭窄,即使我试图将其拔高过,也与记忆能力脱不了干系。同时由于艰涩的《地球旅行》系列写作,和他紧密关联的还有一艘长途漂流的「飞船」和破破烂烂连不上线的「地图」。
【小心超人】
我写的伽叔叔相关大多用隐喻或对话,因此可以看到伽叔叔的名字只出现在非常小的角落。但是,这并不妨碍小心超人成为独立完整的个体,他熟练掌握「分身」「魔方」等技巧。我更感兴趣的是他作为独立的个人和伙伴们相处的矛盾冲突,以及他个人内心除了一心求战外的少年心事。他在和花心超人的日常中多有「身体」「皮肤」等身体接触。
写的开心超人实在太少,因此没有列入分析。对不起各位开厨。
3. Gephi人物关系网制作(这次没做)
曾在分析《守望先锋》同人本时使用过,同样是以行断句,但关键词变为两个(两个人名)。如果说以上的单人词频总结可称为supervised machine learning(指导式机器学习),则这种方法则略微偏向于unsupervised。通过文本输入及人名列表的指定,机器自动识别出两个同时出现的人名,并统计同时出现的频率。
Gephi是一个用于分析社会关系的可视化软件。当时的这段代码是一点一点抄袭老师的,有兴趣的读者可以github搜索Damian Trilling教授。
老师写这个本来是为了研究大选期间候选人之间的竞争互利,结果被我拿来搞cp……
三、产粮坑品评价:LDA主题模型分析
LDA(隐狄克雷分布)模型主要用于挖掘大型文本中潜藏的主题信息,属于典型的unsupervised machine learning,即把一本长篇小说交给机器,它会根据分词及词包匹配等,输出一串能够「凸显主题」的关键词。同时,再将整理出的关键词与原文比对,将分节后的原文与主题们选择性对应。
以下是从我的习作中分析出的25个主题(topic):
(几乎可以直接判断出哪些是H文哪些是(伪)儿童文学)
接着,把45篇习作一一编码(由于技术原因这次倒过来了,第45篇把肉捧给粗心超人吃变成了第1篇),再监测其与这些主题的契合度,最后作图。
格子颜色越深,表明该文章与该主题越契合。例如很快就可以找到话题19那里的三个大黑点,而事实也正是如此——那几篇都是罗大诱,即大大怪化名丁大国,伽叔叔化名贾荦的现代都市土味基佬感情故事。
相邻的话题18就有些尴尬,充分表现出我这个人坑品很差。话题18以「飞船」「地图」「通讯器」为主,是写花粗花地球旅行,结果勉勉强强每个月更新一篇,才去了两个地方就停下不更了。会在10月前写完的。
话题10以「甜心超人」为主。我也的确是最后这几个月才开始集中写花甜。
绵延不绝的话题6,几乎每篇都有,「花心超人」「磁力」「主角」而颜色都很淡。正所谓川菜不加花椒你就认不出那是川菜,我写花心超人不写他照镜子耍磁力就会ooc——开宝毕竟是四格子供番,人物标签化而易于理解,即使延伸或拔高也无法脱离人物本身的设定(如果有人写美娇娘小心超人或者没脾气的花心超人那真的牛批),这也使得主题研究变得容易。
不多赘述。
四、广告
可以帮你也分析一遍!