Monthly Archives: June 2006

鹦鹉学舌之数据挖掘1:什么是数据挖掘

数据挖掘:从大量数据中分析获得以前不知的、有效的、易被理解的信息,并用这些信息制定商业策略和决定的过程。(请注意,是过程,而不是技术,这一点很重要,往往决定数据挖掘项目的成败。) 下图是一个定义示例。 数据挖掘的几个关键特性: 1 large amount of data 2 discovering previously unkonwn, hidden information 3 making important business decision using the information   数据挖掘的概要: 1 数据:重要性不言而喻,套句话,Can’t live without them.    a 数据收集依赖很多因素:数据挖掘的目的,存在的数据,数据结构,可用的数据源,收集更多数据的成本和好处。    b 选择必要的数据是一个艰巨的过程:数据越多并不能使它们之间的关联关系更明显,有可能更弱化;属性越多,会导致建模所需要的数据准备的工作量更大;属性越多,会需要更大的数据库,性能更高的硬件,成本会更高。   c 因此样本数据就是必须的,样本数据的要求:必须足够多的共性去体现现有的数据;必须能够被现有的硬件处理;高质量数据。   2 数据准备:what … Continue reading

Posted in 技术思考 | Leave a comment

06.06.06,祝朋友好运连连,六六大顺。

06.06.06,祝朋友好运连连,六六大顺。

Posted in Uncategorized | Leave a comment