百度贴吧用户兴趣分类
来源:百家汽车网
……一…~………嚣J煎 IA 襄 WordSimiliarity软件根据刘群、李素建发表的《基 于<知网>的词汇语义相似度计算》【7J思想编写,此文中 的词语间语义相似度是基于世界知识的方法,被定义 (2)对样本D中所有样本点ai(i=1,2,…,n)依次 阵。 计算其到各个簇中心0i的距离Di,选择与a 距离最 小的0i,将样本al划分到以该中心为簇的簇中; (3)重新计算各簇的中心; (4)计算数据集D中所有样本的准则函数E(t), 为一个0到1之间的实数。用若干描叙概念的基本单 位义原来表示某词语的概念,通过计算义原相似度来 来得到词语间语义相似度,实词之间相似度通过四个 直到E(t)不再变化。 1.2.2距离计算与准则函数 聚类算法在计算数据集各数据对象之间的距离 部分义原表达式的加权和来计算,而虚词与实词间的 即“亲疏程度”时可以根据实际的需要选择欧氏距离 相似度为零。(Euclidean distance)、切比雪夫距离(Chebychev)、Block 2-3改进的K—Means聚类算法 距离、明考斯基(Minkowski)距离等。 由于K—Means 算法所处理的聚类变量为数值型,因此本文采用欧式 距离进行计算,即数据点x和v之间的欧式距离是两 点的P个变量值之差的平方和的平方根,数学定义为 f — EUCLID(x,y)=、Y/ l 一 ) K—Means聚类算法常使用平方误差作为评价聚 类性能的准则函数。对于聚类数据集D,若D中包含 有K个聚类子集X1,X2,…,XK,各个子类的均值代表 即聚类中心点分别为ml,m2,…,mk,平方误差公式为 k E=∑∑(i=1 pexi p-m ) 1.2.3 Davies—Bouldin指数 Davies—Bouldin指数[61,简称DBI。由大卫L_戴维 斯和唐纳德.Bouldin在1979年中提出。DBI指数通过 计算类内距离之和与类外距离之比,指数值越小,分 类越合理。以此来优化K值,测试各个分类的结果的 合理性,寻找最佳分类,避免由于只计算目标函数而 导致的局部最优问题。 2.贴吧用户兴趣分类方法 2.1数据集定义 定义目标用户兴趣贴吧数据集为D1,用户关注 的贴吧A,用户回复帖子所在贴吧且未出现在A集中 的贴吧为B 公式1:数据集DI=AUB(B是用户以往发帖和回 复所在的贴吧中除去A集的贴吧名称) 2.2构建数据集各项之间距离矩阵 定义:贴吧间相似度sim(0<sim<1)、贴吧间距离d 公式2:d=l—sim(0<d<1) 由于采集到的用户兴趣贴吧数据集D1是类似于 标签属性的贴吧名称,因此应用WordSimiliarity软件 来计算D1各项之间的相似度sim(0<sim<1),然后应 用公式2计算出d,构建数据集各项之间N*N距离矩 传统K—Means聚类算法实现过程中对于k值选 取具有一定随机性。针对K—Means聚类算法这一缺 点,同时观察到百度贴吧根据用户在所关注贴吧中的 行为频繁度不同,给用户在某贴吧进行分级的特性。 考虑贴吧用户兴趣分类类别数目与用户兴趣贴吧级 别数有一定联系,根据用户兴趣贴吧级别数来进行K 值的确定。 计算K值: 定义:兴趣贴吧数据集表示为((C1,R1),(C2, R2),…,fCi,Ri))(i=l,2,…,n),其中Ci为贴吧名称, Ri为用户在此帖吧的级别。Num(x)表示X集中所含 Ci个数,R(x)表示x集中所包含Ri的级别数,其中 由于数据B集中没有分级,当B集不为空集时R(B)= 1;当B集为空时R(B)=0 公式3:K=Num(D1)/『R(A)+R(B)1 举例用户“缘济命理”关注贴吧A集为<(八字 吧,3),(星座吧,2),(命运吧,2),(射手座吧,2),(白 羊座吧,2),(巨蟹座吧),2)) B集为((算命吧,1),(情感吧,1),(感情吧,1)) 则D1=AUB=<(八字吧,3),(星座吧,2),(命运 吧,2),(射手座吧,2),(白羊座吧,2),(巨蟹座吧,2), (算命吧,1),(情感吧,1),(感情吧,1)) 用户“缘济命理”分类最少含有的级别个数K= Num(D1)/[R(A)+R(B)]=9/2+1=3 2.4各类兴趣特征化 根据改进的k-Means聚类的结果,本文拟定选择 离各聚类中心点最近的数据项集中的点作为用户兴 趣特征代表,标签化用户兴趣,对用户兴趣进行分类 提取。 3.实验和分析 3.1实验 (1)数据来源:本文的实验数据来源于百度贴吧 用户首页的页面获取,通过八爪鱼采集器进行采集。 2014年第11期l福建电脑 ・45・ 一 一 塞厅 一… 脑 麓 数据集DI=AUB,数据集B由于数据量较大,拟定从 用户所有回复帖子中抽样选取5O条进行统计。 计算K值为2时,DBI指数=O.204;K值为3时, DBI指数=0.263。由于Davies—Bouldin指数越小表示 (2)实验工具:SDABAS DM Means聚类方法在用户兴趣识别应用中优于未改进的 K—Means算法。 K值选值越好,聚类结果越准确,可证明改进的K值 根据聚类结果<八字,算命,六爻,生辰八字>为 聚类1,<李毅>为聚类2。根据选取离类中心最近的八 (3)实验设计:根据获取的数据,验证改进的K— 比未改进k值的聚类效果好。 实验选取百度贴吧用户“雷之火舞”为目标用户, 获取用户关注贴吧信息A集以及出A集外用户发帖 所在贴吧B集求出D1=((八字吧,7),(算命吧,4), 字和李毅分别为用户两大兴趣类特征。 4.结束语 目前对于百度贴吧这一社交网络的研究较少,本 (六爻吧,3),(李毅吧,2),(生辰八字吧,2)),构建数 文主要研究百度贴吧用户的兴趣提取方法,根据改进 据项集相似度矩阵如表3—1所示。 表3—1数据项集相似度矩阵 八字 算命 六爻 李毅 生辰八字 八字 1 0.66 0.61 0.01 0.82 算命 0.66 1 0.44 0.01 0.73 六爻 0.61 0.44 1 O.01 0.52 李毅 O.01 0.01 0.01 1 0.01 生辰八字 0.82 O.73 0.52 0.01 l 根据公式2,计算得到数据项集之间距离矩阵如 表3-2所示。 表3—2数据项集距离矩阵 八字 算命 六爻 李毅 生辰八字 八字 0 0.34 O-39 0.99 0。l8 算命 0.34 O 0.56 0.99 0.27 六爻 0I39 0.56 0 0.99 0.48 李毅 0.99 0.99 0.99 0 0.99 生辰八字 O.18 O.27 0.48 0.99 O 实验一:应用SDABAS DM数据挖掘软件,以每 个数据项与其他数据项之间的距离作为聚类变量,根 据本文改进的思想以及公式3得到的K值,进行进行 K—Means聚类。 实验二:根据随机拟定的K值3,进行K—Means 聚类分析并得到聚类结果。 3.2实验结果和分析 实验结果如表3—3所示 表3-3实验结果 贴吧 k=2距类中心距离 聚类 K=3距类中心距离 聚类 八字 0.243 1 0.241 1 算命 0.379 1 0.304 1 六爻 0.541 1 0.000 2 李毅 0.000 2 0.000 3 生辰八字 0.271 1 0.166 1 ・46・ 福建电脑l 2014 tlz ̄11期 的K均值聚类算法,应用SDABAS DM软件进行用户 兴趣聚类,通过比较改进前后Davies—Bouldin指数的 大小来判断聚类效果,实验证明应用本文的方法可以 有效的分类并提取用户兴趣。 参考文献: [1]宋巍,张宇.基于微博分类的用户兴趣识别IJ].智能计算机与 应用,2013(8):80—83 [2]杨尊珂,张倩楠.基于k-means算法的微博用户推荐功能研 究Ⅱ].情报杂志,2013(8):142-144 [3]覃艳,王洪.数据挖掘中聚类算法的研究 网络安全技术与 应用,2014(1):65—66 [4]王悦,冷泳林.K均值聚类在高校教师评价分析中的应用研 究Ⅱ】计算机技术与发展,2014(5):204—206 [5]樊宁.K均值聚类算法在银行客户细分中的研究U1.计算机仿 真,2011(3):369—372 l 6 JGuang Wang,Zhihong Wang.Classiifcation of surface EMG signals using optimal wavdet packet method based on Davies—Bouldin criterion[1].Medical and Biological Engineering and Computing,2006(2):865—872 l 7 jQun Liu,Sujian Li,Word Similarity Computing Based on How—net,Computational Linguisitcs and Chinese Language Processing,Vo1.7,No.2,August 2002,PP.59—76 作者简介: 徐则阳(1989一),女,湖南岳阳人,硕士研究生,研究方向: 数据分析与挖掘 刘博(1959一),男,河北邢台人,硕士研究生导师,明博智 创(北京)软件技术有限责任公司董事长