2014年高考作文,百度预测中了吗?

——主题锤子和素材钉子的军备竞赛
百度使用数据分析对2014高考作文题目预测这件事,值得再写篇文章 。 这是一次相当成功的预测,据有人分析,预测“命中了全国18卷中12卷作文方向” 。 其实在我看来还不止如此,甚至可以说全中 。 不过这些都不重要,重要的是,大数据的这种玩法,会给世界带来什么改变 。
【锤子和钉子】
中国高考作文的出题方法有个固定的套路:给你讲一段小故事,然后让你根据这个故事,想想自己受到什么启发,写篇文章 。 换句话说你的作文重点根本不是这个故事,故事只是你要写的主题的一个素材 。
同一个素材,各人思考角度不同,可以对应不同的主题 。 但更重要的是,不同的素材可以对应同样的主题 。
比如全国卷的一个题目是“不要给野生动物喂食,否则它会丧失自己的觅食能力” 。 出题者的意图显然不是让人写一篇关于野生动物喂养的科普文章 。
【2014年高考作文,百度预测中了吗?】一个角度是把自己想象成野生动物,主题是年轻人应该自己闯荡,不能依赖前人经验的灌输 。 这不就是百度预测“生命的多彩”中的“奋斗”、“自由”和“青春”吗?而使用同样的主题,只要把文章稍加修改,完全还可以对付上海市的作文题:“你可以选择穿越沙漠的道路和方式,所以你是自由的;你必须穿越这片沙漠,所以你又是不自由的 。 ”
另一个角度则是把自己想象成面对野生动物的人,那么主题就是要尊重自然,保护环境 。 这不就是百度预测“发展的困惑”中的“自然”、“环境”和“尊敬”吗?同样的主题下把文章稍加修改又可以对付辽宁省的作文题:“可惜漫天繁星没有了,沧海桑田转眼之间啊!当年那些祖先山洞边点燃篝火,看月亮初升天汉灿烂,他们欣赏的也许才是美景 。 ”
现在我们的关键问题来了 。 到底是主题多呢,还是素材多?答案当然是素材多 。 素材怎么编都可以,但全体高中生都能想明白和说明白的道理就那么几个 — 具体说来,据百度数据分析发现,只有六个方面而已 。
只要一个人熟读这六个方面各种可能主题的文章,掌握其写作套路,不管高考出什么素材都能应对自如 。
这就正如有句谚语说“如果你手里有一把锤子,你看什么东西都是钉子” 。 这句谚语本来是贬义的,意思是告诫人们不要把什么东西都往自己掌握的有限理论上套 。 比如近年来人们学会了进化心理学之后,就不管看到什么社会现象都想用进化心理学解释,以至于我现在一听进化心理学就浑身起鸡皮疙瘩 。
可是如果把这个锤子精神用在准备考试上,那是最好不过了 — 只不过你需要掌握的不是一把,而是六把锤子 — 有了这六把锤子就可以对付几乎所有的高考钉子 。 其实锤子精神还可以用在领导讲话上,任何事情都必须“高举中国特色社会主义伟大旗帜,以邓小平理论、“三个代表”重要思想为指导,深入贯彻落实科学发展观……”这方面目前一共有三把常用锤子,它们总是同时出现 。
那么百度发现这些锤子用的是什么技术呢?
【主题模型】
给你一篇文章,你怎么能看出来这篇文章是说什么的呢?具体说来,你怎么能让机器知道这篇文章是说什么的呢?这个思想叫做“主题模型(topic modeling)” 。
百度作文预测使用的主题模型技术叫做“隐含狄利克雷分布(Latent Dirichlet allocation,LDA)” 。 这是一个2003年才被提出的新技术,它的发明人之一正是刚刚加入百度,负责“百度大脑”项目的吴恩达 。
LDA的基本思想非常简单 。 计算机认为文章只不过是一些词汇的集合 。 而每个主题,也只是一些关键词的集合 。 计算机没必要“理解”每个主题或者每个词的意思,甚至根本不用管这些词出现的先后顺序 。

推荐阅读