一种基于实时大数据的分布式智能匹配系统

一种基于实时大数据的分布式智能匹配系统

ID:28081407

大小:18.22 KB

页数:5页

时间:2018-12-07

一种基于实时大数据的分布式智能匹配系统_第1页
一种基于实时大数据的分布式智能匹配系统_第2页
一种基于实时大数据的分布式智能匹配系统_第3页
一种基于实时大数据的分布式智能匹配系统_第4页
一种基于实时大数据的分布式智能匹配系统_第5页
资源描述:

《一种基于实时大数据的分布式智能匹配系统》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。一种基于实时大数据的分布式智能匹配系统  摘要:传统的匹配技术因规则和参数固定,匹配性能和效果很不理想。基于实时大数据和机器学习技术,提出了一种新的分布式智能匹配系统,该系统根据实时匹配成功率和用户反馈进行自我优化。实验表明,系统性能可水平扩展,匹配正确率显著提高。  关键词:智能匹配;实时大数据;机器学习;分布式协调;SparkStreaming  DOIDOI:/  中图分类号:TP303  文献

2、标识码:A文章编号文章编号:1672--0005-04  0引言  人们通过打车软件可以匹配到最佳司机出行,亦可通过拼单软件凑团优惠秒杀;金融机构根据海量历史交易构造模型,实时侦测诈欺交易;商户根据客户群体特征分析消费趋势,从而进行精准营销。这一切,都离不开匹配技术。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统

3、一到县教师进修学校进行培训,熟悉系统的使用和维护。  匹配指事物之间有相符合或相配合的关系,匹配技术旨在以一定的目标、遵循一定的规则建立事物之间的关联,从而产生“协同效应”[1]。匹配技术一般遵循如下流程:从不同的事物中按照一定的规则提炼出特征,然后按照一定的目标去组合这些特征,能够满足预期目标则表示匹配成功[2]。传统匹配技术采用固定的规则和方法,规则不会随着实际情况发生调整和改变。实时匹配成功率较低,未成功的匹配只有等待T+1日的批量流程完成处理,难以应对越来越多的实时场景需求。实时大数据技术[3]可以将历史匹配记录和实时信息�Y合起来分析,动态调整匹配规则和方法,提升了

4、匹配的实时性和成功率,也提高了匹配效果和用户体验。  实时匹配系统大多基于实时处理框架自行开发。滴滴的实时打车平台根据地理位置、历史评分撮合乘客、司机、代驾者,采用迭代反馈算法[4],算法分批次迭代进行,每次的参数都由系统动态生成。比如,系统在匹配失败后会适当增加距离,降低评分要求,通过调整参数提高匹配成功概率。滴滴打车平台基于Lambda架构[5]设计,将实时数据和历史数据结合应用,提升匹配效果,增强用户体验,同时获取更多有价值的数据。  微软的实时数据质量监控平台是典型的“模型匹配”[6]系统。平台后端连接实时机器学习算法,通过分析实时数据和历史数据,不断完善风险模型;将

5、结果数据与风险模型动态匹配,可监控数据质量并发出预警。为了充分发挥“教学点数字教育资源全覆盖”项目设备的作用,我们不仅把资源运用于课堂教学,还利用系统的特色栏目开展课外活动,对学生进行安全教育、健康教育、反邪教教育等丰富学生的课余文化生活。为了确保“教学点数字教育资源全覆盖”项目设备正常使用,我校做到安装、教师培训同步进行。设备安装到位后,中心校组织各学点管理人员统一到县教师进修学校进行培训,熟悉系统的使用和维护。  实时匹配实现具有两个特点:①结合实时数据和历史数据共同分析;②可动态调整参数,优化匹配效果。但是,由于匹配技术多是公司的核心技术和商业秘密,现有成果大多闭源,对

6、匹配技术的研究和应用也各自为攻,因此,业内尚未形成一个主流成熟的框架。  1实时大数据  大数据技术是一种数据存储和分析技术,具有5V特性[7]。大数据技术能在每日几百TB的数据增长情况下高效分析数据,并从低价值密度的海量数据中挖掘出有利于企业战略的信息。  XX年兴起的流式计算[8],被称为是后Hadoop时代的实时云计算。大数据流式计算引擎将多种数据源的数据整合并切割成小块,进而对数据进行并行处理,在流数据不断变化过程中进行实时分析,捕捉并返回可能对用户有用的信息。流式计算技术百花齐放,种类繁多,如Yahoo的S4、Twitter的Storm、Facebook的Puma,

7、以及被称为“Hadoop替代者”的Spark和SparkStreaming[9]。其中,S4不支持“至少递送一次”的规则[10],导致其有丢失事件的风险;尽管Storm应用较多,但其性能差强人意;相较而言,SparkStreaming采用“微批量”的处理技术,处理性能较高,应用非常广泛。此外,Spark和图算法、机器学习算法天然具备兼容性,生态发展较好。  Spark是一个类似MapReduce的并行计算框架,其核心数据结构是弹性分布式数据集,提供比MapReduce更丰富的模型,可在内存中对RDD进行

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。