基于Co-raining的用户属性预测研究.doc

基于Co-raining的用户属性预测研究.doc

ID:55698269

大小:704.50 KB

页数:8页

时间:2020-05-25

基于Co-raining的用户属性预测研究.doc_第1页
基于Co-raining的用户属性预测研究.doc_第2页
基于Co-raining的用户属性预测研究.doc_第3页
基于Co-raining的用户属性预测研究.doc_第4页
基于Co-raining的用户属性预测研究.doc_第5页
资源描述:

《基于Co-raining的用户属性预测研究.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于Co-training的用户属性预测研究金玉,王霞,琚生根*,孙界平,刘玉娇(四川大学计算机学院,四川成都610065)摘要:针对当前基于第三方应用数据的用户属性预测算法较少考虑应用前台实际使用时长问题,提出了“手机应用前台均使用时长”特征,同时采用基于稀疏自编码器和神经网络的Co-training框架,充分利用大量未标注数据,从应用类别和前台均使用时长两个角度进行属性预测。实验进行时,首先使用未标注数据对网络进行初始化,然后采用基于准确率的梯度下降算法对参数进行更新。实验结果表明,本文算法提高了用户属性预测准确率。关键词:用户属性;Co-

2、training;稀疏自编码器;梯度下降算法中图分类号:TP391文献标志码:AResearchonDemographicPredictionBasedonCo-trainingJINYu,WANGXia,,JUShengGen,SUNJiePing,LIUYuJiao(SichuanUniversity,CollegeofComputerScience,SichuanChengdu610065,China)Abstract:Inviewofthemostexistinguserattributepredictionmethodsbasedon

3、applicationthatislessconsideredactualusetimeofapplicationintheforeground,putforwardaverageusetimeofapplicationintheforeground,Atthesametime,theCo-trainingframeworkbasedonsparseautoencoderandneuralnetworkisadopted,makefulluseofalargenumberofunlabeleddata,predictuserattributef

4、romapplicationcategoryandaveragetimeusedofapplicationintheforeground.Whentheexperimentiscarriedout,firstthenetworkisinitializedwithunlabeleddata,thenthegradientdescentalgorithmbasedonaccuracyisusedtoupdatetheparameters.Experimentalresultsshowthattheproposedalgorithmimprovest

5、heaccuracyofuserattributesprediction.Keywords:Userattribute;Co-training;Sparseautoencoder;Gradient Descent Algorithms随着智能手机与网络技术的发展,手机已改变了人们的生活方式。基于智能手机的可编程性,可开发数据收集工具来记录手机用户的行为信息,通过分析这些信息,可以了解手机用户的时空信息和社交信息。然而获取这些信息需经用户许可,在实际应用中,因涉及隐私,所以可行度较低。与获取个人信息不同的是,安装在用户手机上的应用可以在不经用户许

6、可的前提下获取手机应用的安装列表以及使用情况,由于所获取的信息不涉及用户隐私,所以可用来预测用户属性,为用户提供更好的服务[1-3]。目前,利用手机应用数据进行用户属性预测的研究较少[4-6],设计一个不涉及用户隐私并且准确率又高的用户属性预测算法还需进行大量的研究。Suranga提出了一种基于手机应用安装列表的用户属性预测算法,该算法以列表中流行应用描述为特征【7】,构建多个支持向量机(SVM)对用户属性进行预测。但当用户手机应用安装列表中包含较少流行应用时,会出现数据稀疏问题,导致预测结果较差。QinZ为进一步表达用户兴趣,构造一定时间内的

7、应用使用频率作为模型特征[8],并采用贝叶斯方法对预测结果进行平滑和优化,提高了预测准确率。但是并不能反映用户对应用的使用时长,还是较为粗糙。针对目前算法的不足,本文一方面构造了一定时间内应用的前台均使用时长,它不仅能够反映一定时间内用户对应用的使用频率还能反映用户的使用时长,能进一步表达用户兴趣;另一方面为充分利用大量未标注数据和使用多角度特征进行模型预测,所以采用了Co-training框架。本文中Co-training框架包含两个均由栈式自编码器与神经网络结合的基算法。框架如图1所示。图1Co-training算法框架图Fig.1Fram

8、eworkofCo-training1属性选择本文在前人使用的应用类别属性的基础上,补充提出了应用前台均使用时长属性。应用类别如下表1所示。表1应用类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。