1 2 3 4 5 6 7 8 9 10 11 |
#-*- coding:utf-8 -*- from collections import Counter # 统计总汉字数,文本均以utf-8格式保存 TotalChar = [x for x in open("D:\Eric5\红楼梦.txt", "r", encoding="utf-8").read() if 19968<=ord(x)<=40869] # 统计不同汉字的重复次数 CountChar = Counter(TotalChar) print("总汉字数:", len((TotalChar))) print("不同汉字数:", len((CountChar))) print(CountChar) |
对我国四大名著的统计结果如下,并列出重复次数最多的前十个字:
《红楼梦》
总汉字数: 731598
不同汉字数: 4253
[('了', 21229), ('的', 15736), ('不', 15038), ('一', 12194), ('来', 11450), ('道', 11061), ('人', 10558), ('是', 10151), ('说', 9710), ('我', 9176)]
《西游记》
总汉字数: 584058
不同汉字数: 4458
[('道', 10994), ('不', 8827), ('一', 7910), ('了', 7690), ('那', 7494), ('我', 7138), ('是', 6463), ('来', 5935), ('他', 5729), ('个', 5683)]
《水浒传》
总汉字数: 705654
不同汉字数: 4074
[('了', 11459), ('道', 10433), ('一', 10029), ('来', 9798), ('人', 8828), ('不', 8351), ('个', 6577), ('是', 5942), ('上', 5754), ('去', 5496)]
《三国演义》
总汉字数: 483802
不同汉字数: 3926
[('曰', 8750), ('之', 7849), ('不', 6735), ('人', 5122), ('军', 4902), ('兵', 4662), ('大', 4165), ('一', 3991), ('马', 3881), ('将', 3787)]
均位列四大名著重复次数前十的字是:了、不、一。
前十中没有出现在其余三部前十的字是:
《红楼梦》:的、说
《西游记》:那、他
《水浒传》:上、去
《三国演义》:曰、之、军、兵、大、马、将
从上可以看到,《三国演义》用词带有鲜明的战争色彩(军、兵、马、将)。
可以统计英文字频的吗?
Absolutely yes.