Looks like the Great Firewall or something like it is preventing you from completely loading www.skritter.com because it is hosted on Google App Engine, which is periodically blocked. Try instead our mirror:

legacy.skritter.cn

This might also be caused by an internet filter, such as SafeEyes. If you have such a filter installed, try adding appspot.com to the list of allowed domains.

Chinese word frequency based on film titles

Mandarinboy   June 7th, 2011 1:35a.m.

Via a contact at CCTV i got hold of a couple of thousands subtitles for films, dramas and TV shows. I parsed them in my programs and got a very nice list of words and frequencies. Around 60.000.000 words in total where parsed. Once done the same friend told me that a team from a Belgium university had done something similar as part of an academic study. They harvested some 33.500.000 words. I found that study and compared those two lists and for the first 2-3000 words or so there is a close to exact match. A word can be a few numbers up or down in the list but it is the same word and the differences is seldom more than 5 numbers up or down in the lists. The Belgian team used native Chinese to verify their lists and compared it to other sources etc. For the remaining words there is still a close similarity but the variations can be a few hundred places up and down. The conclusion is that this frequency list much better meets the real life usage of Chinese than the traditional ones. Their report on the study can be found here http://expsy.ugent.be/subtlex-ch/Cai%20&%20Brysbaert%202010%20Plos%20One.pdf It is in fact very interesting reading. I am at Shanghai Airport right now and the bandwidth do not allow me to upload the files as vocab lists but when I am back in Japan i will upload them and make them public. I am also on my way to do the same harvesting on newspapers. I am up to 15.000.000 words up till now. I did check the frequency i found so far against those lists as well. As expected most of the daily usage words are the same and in almost the same frequency. The big difference is that in newspapers there is much more talk about countries, company names, disasters, finance etc. I will make lists of those as well since they are perfect complements to the subtitles lists. There is not a large number of differences and the words are still highly frequent but in another context. One interesting note here is that most current Chinese frequency lists are based on literature. They are in fact not mirroring the daily usage of word as well as films or internet sources do.

Kai Carver   June 7th, 2011 7:13a.m.

interesting!

by the way clicking the link works better here: http://goo.gl/TJ0e6

or you can go to their web site to access the article and the word frequency files
http://expsy.ugent.be/subtlex-ch/

(I think this is a bug in the (otherwise excellent) Skritter forum software: in links, it shouldn't URL-encode already URL-encoded characters, ie replace characters like "%20" by "%2520")

葛修远   June 7th, 2011 7:50a.m.

Wow, this kind of stuff is gold-dust, I think. Not sure if we really want a word-list of 60m words though, 哈哈. I don't even know one million words in English, I imagine.

Still, a top 2k or something would be cool. There's already that top 2k from TV show subtitles. We've got to be grateful to CCTV for religiously subtitling everything I suppose.

Kai Carver   June 7th, 2011 8:01a.m.

just for fun, here's the top 500 from their list of the 100,000 most frequent words. Do you know them all? :-)

的 我 你 是 了 不 在 他 我们 好 有 这 就 会 吗 要 什么 说 她 想 一 很 知道 人 吧 那 来 都 个 能 去 没 和 他们 到 对 也 啊 还 把 让 做 给 一个 上 你们 过 没有 得 看 真 着 事 这个 怎么 现在 可以 点 呢 如果 只 别 哦 但 被 走 太 这样 里 跟 告诉 因为 自己 再 听 这里 快 谁 但是 多 用 时候 下 已经 谢谢 为什么 觉得 天 像 这么 它 从 先生 找 最 喜欢 可 为 大 可能 需要 是的 死 次 出 那么 干 那个 嘿 们 话 而 么 东西 应该 孩子 起来 所以 这些 才 两 错 还有 又 小 中 叫 嗯 该 等 问题 一起 拿 更 开始 帮 打 爱 带 时间 年 请 回 工作 然后 当 见 钱 噢 一样 事情 就是 吃 所有 开 一下 家 非常 看到 希望 那些 哪 当然 也许 行 朋友 妈妈 相信 前 嗨 认为 将 这儿 今天 明白 一直 看看 车 时 杀 地方 不过 呃 发生 几 回来 准备 找到 后 爸爸 一切 抱歉 比 感觉 些 只是 怎么样 出来 不要 对不起 问 离开 一点 一定 起 还是 发现 所 住 件 正 而且 并 必须 意思 放 不错 肯定 电话 为了 搞 棒 第一 妈 地 进 那样 大家 新 您 向 一些 三 那里 以为 高兴 嘛 老 位 过来 掉 先 等等 生活 之 买 种 医生 最后 之前 伙计 手 任何 很多 哪儿 这种 上帝 女人 名字 认识 坐 今晚 其他 喝 记得 家伙 与 或者 写 穿 弄 过去 哪里 啦 却 算 担心 继续 送 女孩 以 玩 亲爱 下来 成 条 够 父亲 以前 跑 月 早 美国 长 完全 宝贝 号 枪 狗 可是 世界 小时 重要 谈 别人 男人 头 机会 岁 出去 活 看见 者 打电话 喂 好像 得到 警察 完 张 儿子 之后 漂亮 分钟 接 场 再见 求 刚 如何 比赛 呀 情况 变 关系 真是 女士 本 马上 决定 见到 根本 关于 那儿 难 只要 里面 份 每 到底 了解 明天 站 结束 公司 成为 永远 帮助 来说 多少 哇 名 它们 总 确定 有人 清楚 晚上 安全 怎样 没什么 块 回家 留 周 愿意 计划 爸 俩 停 不能 他妈的 说话 另 心 花 她们 有些 门 感谢 谈谈 定 于 以后 管 照片 每个 欢迎 敢 兄弟 从来 总是 嘴 跳 拜托 女儿 抓 小姐 动 赢 消息 女 忙 或许 如此 队 无法 房子 拉 衣服 听说 救 参加 办法 睡 唯一 回去 人们 晚 该死 闭 选择 坏 原因 下去 受 连 好好 全 确实 挺 此 水 混蛋 杯 保证 学校 卖 信 接受 改变 舞 看来 高 麻烦 出现 打算 电影 试 身上 房间 美 不管 书 特别 注意 查 球 忘 甚至 保护 真正 结果 表现 拍 其实 小心 进来 路 呆 四 久 当时 或 懂 只有 怎么办 第 马 讲 绝对 长官 员 进去 至少 律师 喔 整个 听到

from the zipped utf8 file here: http://expsy.ugent.be/subtlex-ch/SUBTLEX_CH_131210_CE.utf8.zip

nick   June 7th, 2011 12:59p.m.

This is great, Mandarinboy! This is going to be way better than the traditional frequency lists.

The forum is urlizing URLs based on some code in the Django web framework, so it's not as easy for me to fix. It's probably already fixed in the latest version of Django, but we have an old version running.

Byzanti   June 7th, 2011 1:43p.m.

Looking forward to seeing this!

This forum is now read only. Please go to Skritter Discourse Forum instead to start a new conversation!