鹦鹉学舌之数据挖掘1:什么是数据挖掘

数据挖掘:从大量数据中分析获得以前不知的、有效的、易被理解的信息,并用这些信息制定商业策略和决定的过程。(请注意,是过程,而不是技术,这一点很重要,往往决定数据挖掘项目的成败。)
下图是一个定义示例。
数据挖掘的几个关键特性:
1 large amount of data
2 discovering previously unkonwn, hidden information
3 making important business decision using the information
 
数据挖掘的概要:
1 数据:重要性不言而喻,套句话,Can’t live without them.
   a 数据收集依赖很多因素:数据挖掘的目的,存在的数据,数据结构,可用的数据源,收集更多数据的成本和好处。
   b 选择必要的数据是一个艰巨的过程:数据越多并不能使它们之间的关联关系更明显,有可能更弱化;属性越多,会导致建模所需要的数据准备的工作量更大;属性越多,会需要更大的数据库,性能更高的硬件,成本会更高。
  c 因此样本数据就是必须的,样本数据的要求:必须足够多的共性去体现现有的数据;必须能够被现有的硬件处理;高质量数据。
 
2 数据准备:what to do?(其实,这是最能体现人的创造性的地方。)
   a Deriving new attributes & Attributes transformations: 需要注意的是,关注平时不留意的地方。
  b Attribute Selection: 排除无效的属性,选择最有用的属性。(往往这一步是比较难的,和最后的结果质量有很强的关系。)
 
数据挖掘的进行方式:
1 查证驱动Verification-Driven Approach:boss脑袋一亮,觉得这个点子不错,嗯,用数据模型来验证一下吧。
2 发现驱动Discovery-Driven Approach:大家都不知道该怎么做,用数据挖掘一弄,原来还存在这样的商业模式,嗯,针对这种模块开发专门的需求和实现。
 
数据挖掘最吸引的地方是能建立预测性而不是回顾性的模型。
与统计分析相同之处:
1,仍是数据分析
2,试图发现模式
3,试图解释或预测
4, 使用多样性工具
 
不同之处:
1,无假定的模型
2,自动搜索可能的模型
3,算法是可升级的(scalable)
 
 
Advertisements
This entry was posted in 技术思考. Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s