A. 什么是数据挖掘中的关联分析
关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测.它的目的是为了挖掘隐藏在数据间的相互关系 在数据挖掘的基本任务中关联(association)和顺序序贯模型(sequencing)关联分析是指搜索事务数据库(trarisactional databases)中的所有细节或事务,从中寻找重复出现概率很高的模式或规则。 其属于灰色理论中的一种分析方法。
B. 统计分析中的关联规则的支持度和置信度的阈值有什么方法计算吗,不要凭借经验给定
置信度类似于精确度。无法计算。
C. 分析本实验(杨氏模)不确定度产生的主要原因 指出实验中哪个量的测量对不确定度的影响较大 如何改进
测量误差对结果影响较大的量主要是钢丝直径、标尺读数,因为这些量的测量相对误差比较大。 提高光杠杆测量微小长度变化的灵敏度,主要需要
D. 灰色关联分析中绝对、相对、综合关联度的区别是什么
灰色关联分析理论及方法
对于两个系统之间的因素,其随时间或不同对象而变化的关联性大小的量度,称为关联度。在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之,则较低。因此,灰色关联分析方法,是根据因素之间发展趋势的相似或相异程度,亦即“灰色关联度”,作为衡量因素间关联程度的一种方法[16]。灰色系统理论提出了对各子系统进行灰色关联度分析的概念,意图透过一定的方法,去寻求系统中各子系统(或因素)之间的数值关系。因此,灰色关联度分析对于一个系统发展变化态势提供了量化的度量,非常适合动态历程分析。
灰色系统关联分析的具体计算步骤如下[17]:
(1)确定反映系统行为特征的参考数列和影响系统行为的比较数列
反映系统行为特征的数据序列,称为参考数列。影响系统行为的因素组成的数据序列,称比较数列。
(2)对参考数列和比较数列进行无量纲化处理
由于系统中各因素的物理意义不同,导致数据的量纲也不一定相同,不便于比较,或在比较时难以得到正确的结论。因此在进行灰色关联度分析时,一般都要进行无量纲化的数据处理。
(3)求参考数列与比较数列的灰色关联系数ξ(Xi)
所谓关联程度,实质上是曲线间几何形状的差别程度。因此曲线间差值大小,可作为关联程度的衡量尺度。对于一个参考数列X0有若干个比较数列X1, X2,…, Xn,各比较数列与参考数列在各个时刻(即曲线中的各点)的关联系数ξ(Xi)可由下列公式算出:
其中 ζ为分辨系数,0<ζ<1。
是第二级最小差,记为Δmin。 是两级最大差,记为Δmax。
为各比较数列Xi曲线上的每一个点与参考数列X0曲线上的每一个点的绝对差值。记为Δoi(k)。所以关联系数ξ(Xi)也可简化如下列公式:
(4)求关联度ri
因为关联系数是比较数列与参考数列在各个时刻(即曲线中的各点)的关联程度值,所以它的数不止一个,而信息过于分散不便于进行整体性比较。因此有必要将各个时刻(即曲线中的各点)的关联系数集中为一个值,即求其平均值,作为比较数列与参考数列间关联程度的数量表示,关联度ri公式如下:
(5)排关联序
因素间的关联程度,主要是用关联度的大小次序描述,而不仅是关联度的大小。将m个子序列对同一母序列的关联度按大小顺序排列起来,便组成了关联序,记为,它反映了对于母序列来说各子序列的“优劣”关系。若r0i>r0j,则称对于同一母序列优于,记为> ;若r0i表1 代表旗县参考数列、比较数列特征值。
E. 主导因子与相关动力因子的关联度量化分析
内、外动力地质作用是推动斜坡演变的主导因素,但是具体每一动力作用对斜坡变形失稳的贡献程度是不一样的,即不同动力作用与斜坡变形破坏的相关性不同。本文将与斜坡变形破坏有关的动力地质作用量化参数称为相关动力因子,在这些相关动力因子中,哪些与主导因子(这里设立为斜坡变形破坏密度)相关性最好,哪些与主导因子相关性稍差,弄清这些问题对于斜坡变形破坏的地质动力分区及危险性评价非常重要,但也存在一定的难度,因为动力因子与主导因子之间的联系并非简单的关联关系,同时存在交叉性作用,所以,需要借助一定的数学方法才能较好地回答这个问题。效果测度关联分析方法(EMA)是一种较好的信息数据处理模型,具有计算简捷快速、易于操作、普适性强、分析内容全面的优点,能充分利用计算出的关联度,使关联度分析定量化,并确定出各相关动力因子的关联度排序。
3.4.1 计算模型
采用效果测度分析模型进行金沙江虎跳峡河段斜坡变形破坏与相关动力因子的关联度量化分析,其基本原理是依据比较序列(辅助判据)曲线与参考序列(主判据)曲线的接近程度或偏离程度,比较序列曲线与参考序列曲线接近程度大的关联程度就大,反之则小。因此,由“曲线接近”思路而进行比较序列与参考序列的效果关系无量纲化,限制了无量纲化的多样性,使得各数据序列具有可比性,从而保证关联分析结果的唯一性(郑永胜等,1998)。具体计算方法如下:
(1)无量纲化
效果测度无量纲化就是根据参考序列与比较序列的效用关系进行无量纲化。无量纲化方法包括以下两种:
①对于比较序列取值越大,参考序列取值越大的效应关系,按下式进行无量纲化:
内外动力地质作用与斜坡稳定性
式中:N'i(k)为第i个比较序列第k个样本的无量纲化值;
maxNi(k)为第i个比较序列数据中的最大值。
②对于比较序列取值越小,参考序列取值越大的效应关系,按下式进行无量纲化:
内外动力地质作用与斜坡稳定性
式中:minNi(k)为第i个比较序列数据中的最小值。
参考序列N0(k)均按(3.4.1)式进行无量纲化。
(2)关联系数与关联度
以无量纲化后的参考序列作为测度标准,用无量纲化后的比较序列与参考序列的效果测度值,作为关联系数,其计算公式为:
内外动力地质作用与斜坡稳定性
将各因素比较序列关联系数的平均值称为关联度Ri,反映了各比较序列与参考序列的整体接近程度,即系统相关动力因子对主导因子影响程度的定性量化值。
内外动力地质作用与斜坡稳定性
(3)权重确定
利用计算出来的关联度可以方便、准确地确定因子权重,即将效果测度关联度归一化作为因子权重(张志龙等,2005),权重的确定可以定量地描述若干动力因子对主导因子的影响程度。
内外动力地质作用与斜坡稳定性
3.4.2 样本区划分与分区数据选取
鉴于虎跳峡河段河谷变形破坏的地段性差异分布的空间特征,将研究区划分为5段,以作为分区样本的基本单元。综合考虑影响斜坡变形与破坏的内、外动力作用要素,选取6个样本参数作为相关动力因子,即地壳抬升速率、断裂缓冲距离、地震基本烈度、多年平均降雨量、河床纵比降和风化速率。这里需要说明的是实际上每个动力地质作用要素对斜坡变形破坏的影响包括多个方面,如与降雨有关的参数包括降雨历时、降雨量、降雨强度等,与地震有关的参数包括地震烈度、震级、震中距、震源深度等,本文在选择相关动力因子时,主要是从空间(或区域)角度来考虑动力因子强度变化与斜坡变形破坏的相关关系,同时保证数据来源的可靠性和方便因子量化,如在区域斜坡变形破坏与降雨的相关性分析中,只能用到年平均降雨量。此外,各因子的取值分别按均值进行处理,其中风化速率以岩性抗风化能力差异划分很弱、弱、中等和强四个等级,并按对斜坡变形破坏的影响程度按从大到小分别赋值1、2、3和4。各样本区主导因子和相关动力因子的基础数据见表3.4.1。
表3.4.1 效果测度分析基础数据表
3.4.3 关联度量化分析
相对于主导因子N0而言,除N2(断裂缓冲距离)以外都是“越大越大”的效用关系,应采用(3.4.1)式进行无量纲化计算,而N2按(3.4.2)式进行计算,各数据序列的效果测度无量纲化值见表3.4.2,关联系数和关联度见表3.4.3。
表3.4.3中的相关动力因子关联排序为R2>R1>R3>R4>R5>R6,因无分辨系数的参与,计算的关联系数与关联度确定程度高,又因其计算步骤小,计算精度也高,其关联排序结果是可信的,各动力因子可作为后文斜坡灾害危险性分析的评价指标。
表3.4.2 效果测度分析的无量纲化值
表3.4.3 效果测度分析的关联系数与关联度
断裂缓冲距离关联度值排在首位,说明研究区断裂活动对河谷斜坡变形破坏体发育分布的影响是最大的,这与虎跳峡地区深大断裂发育,河流流向与构造线的一致性,以及斜坡变形破坏体空间分布受控于确定的活动断裂或构造体系的特征是相符的。研究区57%的斜坡变形破坏分布在距离主要断裂带500m的范围内,而发生在楚波-白汉场断裂和中甸-乔后断裂带上的斜坡变形破坏体占本区总数的31%,说明斜坡变形破坏体发育分布具有与断裂带空间延伸方向的一致性,因而断裂活动排在首位具有普遍意义,起码在本例中是如此。
在内动力作用活跃地区,对斜坡失稳破坏来说,地壳抬升一个重要的影响因子,它控制了变形破坏体的发育程度。在虎跳峡河段,地壳抬升速率越大,河流下切速率越快,从而引起河谷侧向卸荷作用越强,因卸荷引起环境应力场改变而促使岩土体结构松动甚至形成浅(表)生结构,导致斜坡表层岩土体越容易遭到剥蚀和风化,在抬升速率高的区域斜坡变形破坏体的密度和规模均随之增大。在地壳隆升过程中,峡谷比宽谷更易引起河谷应力场的分异和调整,其改造程度往往大于宽谷,相应的河谷斜坡变形破坏程度更明显,研究区峡谷段斜坡变形破坏线密度和线模数是宽谷区的4~5倍。因此,相对于河流动力作用和风化作用而言,本区地壳抬升对斜坡变形破坏的影响程度更大。
地震的活动强度受控于地壳运动和断裂活动的影响,因此它对斜坡变形破坏的影响应排在二者之后,即地震基本烈度的关联度小于地壳抬升速率和断裂缓冲距离的关联度;研究区地震活动频繁,年降雨量不是很高,虽然它们都是斜坡变形失稳的触发因素,但在虎跳峡地区地震造成河谷斜坡失稳的现象非常丰富,相对于降雨而言,其与斜坡变形破坏密度的关联度略大。风化作用与气候、结构构造、岩性和地形等因素关系密切,从一个侧面反映了风化速率受构造和气候变化的控制,由于受降雨与斜坡变形破坏密切关联度较小的缘故,风化速率的关联度也较小,并且排在所有相关动力因子的末尾,这说明在研究区它对斜坡变形破坏的影响程度是最小的。
3.4.4 确定各动力因子的权重
将表3.4.3中的关联度值代入式(5),求得各动力因子对河谷斜坡变形破坏密度的因子权重,见表3.4.4。
表3.4.4 各动力因子的因子权重
根据计算出来的因子权重,可以看出各因子对河谷斜坡变形破坏体发育密度的影响程度。其中,断裂缓冲距离是影响斜坡变形破坏密度的最重要的动力因子,地壳隆升速率次之,地壳基本烈度、多年平均降雨量、河床纵比降和风化速率的影响较差,表明断裂活动和地壳抬升是影响本区斜坡失稳破坏的主要(或关键)因素,同时反映内动力地质作用在虎跳峡河段斜坡演化中起着更加非常显著的作用。对比该河段内动力系统活跃和斜坡变形破坏体发育状况的实际,分析结果是比较合理的。关键动力因素的确定可作为区域斜坡变形破坏的成因判据。
F. 灰色关联分析方法中 经过0-1标准变换无量纲处理后 为什么值越大越优
灰色关联度分析法是一种多因素统计分析方法,它是以各因素的样本数据为依据用灰色关联度来描述因素间关系的强弱、大小和次序,若样本数据反映出的两因素变化的态势(方向、大小和速度等)基本一致,则它们之间的关联度较大;反之,关联度较小。此方法的优点在于思路明晰,可以在很大程度上减少由于信息不对称带来的损失,并且对数据要求较低,工作量较少;其主要缺点在于要求需要对各项指标的最优值进行现行确定,主观性过强,同时部分指标最优值难以确定。
G. Excel中数据挖掘的关联分析问题
最小规则概率为最小置信度,比如,你去街上发传单,无差别分发,人家要你传单的概率是50%,你发现女的接受传单的概率比较高,为60%,也就是说女士的总数为上面的最低支持(你选择了项数),60%为你的置信度(大于最小规则概率40%,你的excel工具才会输出这条规则)。
于是规则就生成了:专盯着女的发传单
也就是把这条规则应用到发传单的营销活动中,成功率60%,比你无差别分发成功率提高了1.2倍。
H. 灰色关联分析中两组参考数据计算出来的关联度是否具有可比性
注意:用EXCEL软件计算组数据灰色关联度:
1999 2000 2001 20002 2003
1 ... ... ... ... ..
2
3
4 ... ... ... ... ...
计算12、3、4间关联度矩阵
-
I. 请教一下,如果比较序列有<=4个因素,而参考序列的k=1,可以用灰色关联分析法来对因素进行关联度排序吗
灰色关联分析理论及方法对于两个系统之间的因素,其随时间或不同对象而变化的关联性大小的量度,称为关联度。在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之,则较低。因此,灰色关联分析方法,是根据因素之间发展趋势的相似或相异程度,亦即“灰色关联度”,作为衡量因素间关联程度的一种方法[16]。灰色系统理论提出了对各子系统进行灰色关联度分析的概念,意图透过一定的方法,去寻求系统中各子系统(或因素)之间的数值关系。因此,灰色关联度分析对于一个系统发展变化态势提供了量化的度量,非常适合动态历程分析。灰色系统关联分析的具体计算步骤如下[17]:(1)确定反映系统行为特征的参考数列和影响系统行为的比较数列反映系统行为特征的数据序列,称为参考数列。影响系统行为的因素组成的数据序列,称比较数列。(2)对参考数列和比较数列进行无量纲化处理由于系统中各因素的物理意义不同,导致数据的量纲也不一定相同,不便于比较,或在比较时难以得到正确的结论。因此在进行灰色关联度分析时,一般都要进行无量纲化的数据处理。(3)求参考数列与比较数列的灰色关联系数ξ(Xi)所谓关联程度,实质上是曲线间几何形状的差别程度。因此曲线间差值大小,可作为关联程度的衡量尺度。对于一个参考数列X0有若干个比较数列X1,X2,…,Xn,各比较数列与参考数列在各个时刻(即曲线中的各点)的关联系数ξ(Xi)可由下列公式算出:其中ζ为分辨系数,0<ζ<1。是第二级最小差,记为Δmin。是两级最大差,记为Δmax。为各比较数列Xi曲线上的每一个点与参考数列X0曲线上的每一个点的绝对差值。记为Δoi(k)。所以关联系数ξ(Xi)也可简化如下列公式:(4)求关联度ri因为关联系数是比较数列与参考数列在各个时刻(即曲线中的各点)的关联程度值,所以它的数不止一个,而信息过于分散不便于进行整体性比较。因此有必要将各个时刻(即曲线中的各点)的关联系数集中为一个值,即求其平均值,作为比较数列与参考数列间关联程度的数量表示,关联度ri公式如下:(5)排关联序因素间的关联程度,主要是用关联度的大小次序描述,而不仅是关联度的大小。将m个子序列对同一母序列的关联度按大小顺序排列起来,便组成了关联序,记为,它反映了对于母序列来说各子序列的“优劣”关系。若r0i>r0j,则称对于同一母序列优于,记为>;若r0i表1代表旗县参考数列、比较数列特征值。