数据仓库是什么,数据挖掘题目及答案
一、什么是数据仓库?它的主要特点是什么?数据仓库和KDD有什么联系?数据仓库是一种面向主题(Subject Oriented)、综合(Integrate)、相对稳定(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用来支持管理决策。特点:1、面向主题的操作型数据库的数据组织面向事务处理任务,各个业务系统相互分离,数据仓库中的数据按照一定的主题域进行组织。 2、集成数据仓库中的数据是在对原始分散的数据库数据进行提取和清洗的基础上,经过系统的处理、聚合和排序得到的。必须消除源数据中的不一致以确保数据仓库。其中的信息是关于整个企业的一致的全局信息。 3、比较稳定的数据仓库的数据主要用于企业决策分析。某条数据一旦进入数据仓库,一般会保留很长时间,即数据仓库中一般有大量的查询操作,而修改和删除操作很少,通常只是周期性的加载和刷新是必须的。 4、反映历史变化 数据仓库中的数据通常包含历史信息。系统记录企业从过去某个时间点(如数据仓库启动时间)到当前阶段的信息。通过这些信息,您可以对公司的发展历史和未来趋势进行定量分析和预测。
所谓的基于数据库的知识发现 (KDD) 是指从大量数据中提取有效、新颖、潜在有用且最终可理解的模式的非平凡过程。数据仓库为 KDD 提供数据环境,KDD 从数据仓库中提取有效、可用的信息 二、数据库有 4 个事务。让 minsup=60% 和 minconf=80%。 TID 日期项目_BOUGHTT100 3/5/2009 {A, C, S, L} T200 3/5/2009 {D, A, C, E, B} T300 4/5/2010 {A, B, C} T400 4/ 5/2010 {C, A, B, E} 使用 Apriori 算法查找频繁项集,列出所有关联规则。解:已知最小支持度为60%,最小置信度为80% 1) 第一步扫描事务数据库,计算D中包含的每一项出现的次数,生成候选1 – 项集的集合 C 1。 D TID 项目集 T100 {A, C, S, L} T200 {D, A, C, E, B} T300 {A, B, C} T400 {C, A, B, E}C1 项目集支持计数 {A} 4 {B} 3 {C} 4 {D} 1 {E} 2 {S} 1 {L} 1 2)第二步根据集合最小支持度从C 1 确定频繁1-项集L 1.
L1 itemset support count {A} 4 {B} 3 {C} 4 3)第三步从L 1 生成候选2-itemsets C 2数据仓库是什么,然后扫描事务数据库对C 2 itemsets被计算在内。 C2 itemset support count {A, B} 3 {A, C} 4 {B, C} 3 4) 第四步,根据最小支持度,从候选集C 2 L 中确定频繁2-itemsets 2. L2 itemset support count {A, B} 3 {A, C} 4 {B, C} 3 5) 第五步,从频繁2-itemsets L 2 生成候选3-itemsets C 3 ,生成的集合候选3-项集C 3 ={A,B,C},C 3 的子集都是频繁的,项集{A,B,C}的个数为3,即L 3 =C 3 ={ A,B,C},L 3 是频繁的 3 项集。频繁项集生成的关联规则如下: 对于频繁三项集 L 3 ,非空真子集为:{A},{B},{C},{A,B},{A,C} ,{B ,C},对应的置信度为:规则置信度 A->B&&C 3/4=75% B->A&&C 3/3=100% C->A&&B 3/4=75% A&&B->C 3/ 3 =100%A&&C->B 3/4=75% B&&C->A 3/3=100% 因为最小置信度为90%,所以所有关联规则为: B->A&&C , A&&B->C , B&&C-> A 三、 假设数据集 D 包含 9 个数据对象(由二维空间中的点表示):A1(3, 2) , A2(3, 9) , A3(8, 6) , B1(9, 5), B2(2, 4) , B3(3, 10), C1(2, 6), C2(9, < @6), C3(2, 2) 基于欧式距离的k-means方法聚类,取k=3,初始聚类质心为A1、B1、C1,求:(1)第一个循环结束时三个簇的质心。
(2)最后得到的三个簇。解:(1)第一个循环:d2 (A1, A1) =(3-3) 2 +(2- 2) 2 =0 d 2 (A1,B1)=(3-9)2 +(2-5) 2 =45 d2 (A1,C 1)@ >=(3-2) 2 +(2-6) 2 =17 由于d 2 (A1, A1) 最小,所以,A1->A1d2 (A2, A 是最小的,所以,A2->C1 d2 (A3, A1) =(8-3) 2 +(6-2) 2 =41 d2 (A3, B B1 d2 (B1, A1)=(9-3) 2 +( 5-2) 2 =45 d2 (B1, B1)=(9-9) 2 +(5-5) 2 =0 d2 (B1, CB1d2 (B2 , A1)=(2-3) 2 +(4-2) 2 =5d2 (B2, B1)=(2-9) 2 +( 4-5) 2 =50 d2 (B2, C1)=(2-2) 2 +(4-6) 2 =4 因为d 2 (B2, C1) 最小值, 所以, B2 ->C1 d2 (B3, A1)=(3-3) 2 +(10-2) 2= 64 d2 (B3, B1) =(3-9) 2 +(10-5) 2 =61 d2 (B3, C1)=(3- 2 +(10-6) 2 =17 由于d 2 (B3, C1) 最小,所以,B3 ->C1 d 2 (C1, A1)= (2 -3)2 +(6-2) 2 =17 d2 (C1, B1)=(2-9) 2 +(6-5) 2 = 50 d2 (C1, C1)=(2-2) 2 +(6-6) 2 =0 因为d 2 (C1, C1)是最小的, 所以, C1 ->C1 d2 (C2, A1)=(9-3) 2 +(6-2) 2 =50 d2 (C2, B1)= (9-9) 2 +(6-5) 2 =1 d2 (C2, C1)=(9-2) 2 +(6-6) 2 =49 因为 d 2 (C2, B1) 最小,所以,C2 -> B1 d2 (C3, A1)=(2-3) 2 +(2- A1 所以在第一个的末尾循环,第一类: A1, C3 ,质心为 O1 (2.5, 2 ) 第二类:B1, A3, C2 ,质心为 O2 (9, 5.67 ) 第三类班级: C1, A2, B2, B3, 质心为O3 (2.5, 7.25 ) (2) 第二循环结束数据仓库是什么,数据挖掘题目及答案,第一类:A1, B2, C3,质心为O1(2.33 ,3),第二类:A3,B1,C2,质心为O2(8.67,5.67),第三类: A2, B3, C1, 质心为O3 (2.67,8.33 )。
第三个循环结束,第一类:A1,B2,C3,质心为O1(2.33,3),第二类:A3,B1,C2,质心为O2 (8.67,5.67),第三类:A2,B3,C1,质心为O3(2.67,8.33)。结果和第二次循环结束的结果一样,所以最终的结果是:第一种:A1,B2,C3,质心为O1(2.33,3)数据仓库是什么,第二种: A3, B1 , C2, 质心为O2 (8.67,5.67 ), 第三类: A2, B3, C1, 质心为O3 (2.67,=0 所以属性 A 的期望熵为: E(S,A)=(3/7)E(Sa0)+ (3/7)E(Sa 1) @>+(1/7)E(Sa2)=0.3936 所以A的信息增益为:Gain(S, A)= E(S) – E( S, A) =0. 9852– 0. 3936=0.5916 同理: Values(B)={b0, b1, b2} , Sb0 ={S1, S4, S7} , ∣ Sb0 ∣=3,其中1属于c1,2属于c2,所以有E(Sb0)= – (1/3)log2(1/3) – ( 2/3)log2(2/3)=0.5283+0.3900=0.9183 Sb1= {S2, S5} , ∣ Sb1∣= 2 ,其中 2 属于 C1 类,所以 E(Sb1)= – (2/2)log2(2/2) –(0/2)log2(0 /2)=0 同样,E(Sb2)= – (1/2)log2( 1/2) – (1/2)log2(1/ 2)=1 所以属性 B 的期望熵为: E(S, B)=(3/7) E(Sb0)+ (2/7)E( Sb1)+(2/7)E(Sb2)=0.3936+ 0+0.2857=0.6793 所以信息增益B的增益为: Gain(S,B)= E(S) – E(S, B) =0. 9852 –0. 6793 =0.3059 因此,A的信息增益最大,设属性A为根节点的测试属性,对应每个值(a0,,a1,a2)在根节点下建立分支,形成偏决策树:a0 a1 a2对于 A=a0 和 A=a2 节点,其对应属性是唯一的,无需讨论,而对于 A=a1 节点,则需要进一步讨论。
因为只能讨论B属性,所以可以根据不同的取值得到最终的决策树:a0 a1 a2 b0 b1 b2 根据上面的决策树,可以看出第8个样本S8的类别为c2.@ > 五、 设话语全域 U={x1, x2 ,⋯, x6} ,属性集 A=C D,条件属性集 C={a, b, c},则决策属性集 D={d} ,决策表如下: 决策表 a b c d x 1 1 0 2 1 x 2 1 0 2 1 x 3 1 2 0 2 x 4 1 2 2 0 x 5 2 1 0 2 x 6 2 1 1 2 A S1,S2,S3 S4,S5 ,S6 S7 A B c2 c1 c1 c2 c2 问:决策表是一致决策表吗?使用分辨率矩阵来减少决策表。解:从决策表中,U/C={{x1, x2}, {x3}, {x4}, {x5}, {x6}} U/D={{x1, x2}, {x3, x5, x6}, {x4}} POS C (D)={x1, x2, x3, x4, x5, x6} 因为 k=| POS C (D)|/|U|=1 ,决策表是一致的决策面。决策表的分辨率矩阵为6阶方阵,其元素为1 2 3 4 5 6 1 2 3 {b,c} {b,c} 4 {b} {b} {c} 5 { a,b,c} {a,b,c} {a,b,c} 6 {a,b,c} {a,b,c} {a,b,c} 所以决策表的判别函数是: ρ=(b ∨c)(b ∨c)(b)(b)(c)(a ∨b∨ c)(a ∨ b∨ c)(a ∨ b∨c)(a ∨b∨ c )(a ∨ b∨ c)(a ∨b∨c)=bc 所以C的D约简为{b,c},C的D核为{b,c},约简决策表为:U b c d x1 0 2 1 x2 0 2 1 x3 2 0 2 x4 2 2 0 x5 1 0 2 x6 1 1 2
评论前必须登录!
注册