本文共 1734 字,大约阅读时间需要 5 分钟。
对关注的属性,样本与原始数据集有相同的性质,则用抽样计算的结果与全集是一样。
1.1 抽样的方法 - 1)简单随机抽样(simple random sampling):放回、不放回 - 2)分层抽样(stratified sampling):如果数据集不同类型的数据数量差异过大,则随机抽样会丢失数量少的样本。可针对不同数据组,按比例抽取样本。 - 3)渐进抽样:样本容量越大,准确性越高,计算没有简化;样本容量越小,准确性越低,计算简化。 当模型准确率不再随样本容量快速提升,则达到了容量的平衡。 1.2 维规约 1.合并属性减低属性数,减少时间、空间复杂度。2.1相似、相异是聚类、最近邻分类、异常检测的基本概念
相似similarity:两个对象的相似程度的数值度量。 2.2相异度 1)距离: 欧几里得距离:二维坐标系里有4个点,可以有用4*4的矩阵表示4个点的相对位置。 欧几里得距离3个性质: 1.非负性:d(x,y)>=0,举例肯定不能为负数。 2.对称性:d(x,y)=d(y,x),即x->y的距离与y->x的距离相等。 3.三角不等式:d(x,z)<=d(x,y)+d(y,z) 满足以上3个性质的称为度量(metric)。 非度量的相异度:集合差、时间。 2.3临近性度量的例子 1)二元数据的相似性度量 二元属性:只有2个状态的属性,如0和1,true和false等。 假设x和y是2个对象,都由n个二元属性构成。如客户购物数据 x={1,0,0,0,0,0,0,0,0,0} y={0,0,0,0,0,0,1,0,0,1} 则: **汉明距离hamming distance:**2个等长字符串相同位置上不同字符的个数。上例的为3。 简单匹配系数SMC:(Simple Matching Coefficient)=(xy都为1的属性+xy都为0的属性)/n=(7+0)/10=0.7,认为都没有也是匹配。 Jaccard系数:=xy都为1的属性/xy出现过的属性总数=0/3=0。 2)余弦相似度(常用来分析文档相似性) cos(x,y)=x*y/||x||||y|| x=(3,2,0,5,0,0,0,2,0,0) y=(1,0,0,0,0,0,0,1,0,2) x*y=3*1+2*0+…+0*0+0*2=5 ||x||=power(3*3+2*2+…+0*0+0*0,1/2)=6.48 ||y||=power(1*1+0*0+…+1*1+0*0,1/2)=2.45 cos(x,y)=0.32 x*y:对应维度的值乘积; ||x||:对应维度的值自己的乘积(平方)和 怎么理解?用文档相似度理解, 1.x*y:同样的单词都出现且数值越大,则cos越大; 2.x*y:仅一方出现,则分子为0,cos小; 3.||x||||y||:分母是词汇量的表示(类似方差);词汇量很大,相同的越少,cos越小。 4.0<=cos<=1,两篇相同的文章cos=1。 **3)欧几里得距离:**square((x1-y1)^2+(x2-y2)^2+…+(xn-yn)^2) (类似三角形的a^2=b^2+c^2,各对应维度的差平方的和开方是n维空间的距离) 4)曼哈顿距离:|x1-y1|+|x2-y2|+…|xn-yn| (n维空间各维度距离的和) 故事:概念出自在曼哈顿街区开车从a点到b点,实际行驶距离不是ab的直线距离,是走街区的2个坐标的距离差的和(xa-xa)+(ya-yb)。 5)闵可夫斯基距离(Minkowski Distance):因有可变参数p,所以是一组距离的定义。 d=square((x1-y1)^p+(x2-y2)^p+…+(xk-yk)^p,-p)。维度距离的p次方和,再p次方根。1次方是曼哈顿,2次方是欧式,p次方是闵距。 当p=1时,即为曼哈顿距离 当p=2时,即为欧式距离 当p->无穷时,切比雪夫距离。 类似欧式距离,不过平方改为p次方的和再开p次方根。 6)标准化欧式距离:各维距离除以方差(相当于各维的权重). 7)皮尔森相关: corr(x,y)=Sxy/SxSy转载地址:http://fjmvz.baihongyu.com/