数据挖掘和分析的参考资料

大数据(Big Data)这个概念似乎火红了一阵子,Data Scientist也成为了一个比较受人瞩目的职业头衔。数据分析的理论已经不是太新鲜的事情,但获取大数据的能力在互联网普及之后的这个年代,要胜过以往太多。处理大数据的挖掘和分析,如今是一个工程和科学理论紧密结合的工作。

更多的一点题外话是,有时候我们并不喜欢数据分析,因为数据分析并没有提供太多有价值的结果,甚至从直觉角度来看,数据分析的推论反而错的离谱。这恐怕是并没有找到正确的挖掘和分析方法,数据的样本和去噪也是很基础的重要问题,现在的一些公司,恐怕都还不一定会做正确的 A/B Testing和分析,更不用说面对海量的数据。如果方法正确,面对海量的数据,正确的分析应该是能给直觉带来更多的灵感。这件事情仔细想一下便会觉得十分有趣,毕竟如今还只是互联网的时代,而原来一直所说的物联网概念,才刚刚开始,那时候,会有更多的数据等待去挖掘和分析。

以下参考资料主要来源于几所美国知名高校的公开课程。另外,在这些课程的homework中,可以找到一些提供各种公开数据的网络服务,以及会发现,MapReduce和R语言,已经是数据挖掘和分析问题几乎标配的工具了。