基于图像识别的爬壁机器人的路径规划.pdf

基于图像识别的爬壁机器人的路径规划.pdf

ID:55399582

大小:849.69 KB

页数:5页

时间:2020-05-15

基于图像识别的爬壁机器人的路径规划.pdf_第1页
基于图像识别的爬壁机器人的路径规划.pdf_第2页
基于图像识别的爬壁机器人的路径规划.pdf_第3页
基于图像识别的爬壁机器人的路径规划.pdf_第4页
基于图像识别的爬壁机器人的路径规划.pdf_第5页
资源描述:

《基于图像识别的爬壁机器人的路径规划.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第02卷第03期2015年6月工业技术创新IndustrialTechnologyInnovationVo1.02No.03Jun.2015基于图像识别的爬壁机器人的路径规划何宏,李宇,张志宏。(1.天津理工大学自动化学院,天津市复杂系统控制理论及应用重点实验室,天津,300384;2.天津广播电视台传输发射部,天津,300072)摘要:目前对于爬壁机器人的路径规划问题,强化学习算法已被广泛运用,但在实时动态复杂工业环境下,该算法存在着数据传递滞后、状态一动作对收敛缓慢、无法估计状态一动作对的问题。本文结合单步Q-1earning算法,并对该算法进行改进,提出了跟踪迹Q()算法:即一种基于

2、离散马尔可夫决策过程的经典Q学习并结合了瞬时差分算法多步回报和跟踪迹提取的算法。实践表明,该算法解决了路径规划过程中,强化学习算法存在的局部寻优能力差、实时性不强等缺点。关键词:爬壁机器人;路径规划;跟踪迹Q()算法中图分类号:TP242.2文献标识码:A文章编号:2095—8412(2015)03.267。06工业技术创新URL:http//www.china.iti.tomDOI:10.14103/j.issn.2095-8412.2015.03.002PathPlanningofWall—climbingRobotsBasedonImageRecognitionHongHe,YuLi

3、1,ZhihongZhangfiTianjinKeyLaboratoryforControlTheoryandApplicationinComplicatedsystemsTianjinUniversityofTechnology,300384,China,"2TianjinBroadcastTelevisionDevelopmenf£td,Tianjin,300072,China)Abstract::Atpresent,reinforcementlearningalgorithmhasbeenwidelyusedinthepathplanningofwall。climbingrobots

4、,butwithinthereal·timedynamicandcomplexindustrialenvironment,thealgorithmhasmanyproblemssuchaslagofdatatransfer,slowconvergenceofstate—action,andincalculableofstate’action.ThispaperproposesthetrackingQ(2)algorithmbycombiningandimprovingone—stepQ—learningalgorithm,i.etheclassicalQlearningbasedondis

5、creteMarkovdecisionprocesses,combiningthetemporaldifferencealgorithmmulti-stepreturnandtracingextractionalgorithm.Practiceshowsthatthisalgorithmsolvethelimitationsinlocalsearchingabilityandtimelinessofthereinforcementlearningalgorithminthepathplanningprocess.Keywords:Wall—climbingrobots;Pathplanni

6、ng;TrackingQ(2)algorithm引言感器,在微处理器的作用下完成图像识别中的滤波、二值化等处理。对摄取来的图像信息进行实时在爬壁机器人图像采集的设计中。硬件平台选处理。从而实现轨迹线的检测功能。然而在爬壁机用OV7670摄像头模块,其内部含有CMOS图像传器人的路径规划问题上,目前使用较多的算法是强·2670何宏等:基于图像识别的爬壁机器人的路径规划第03期本文将跟踪迹的数学模型定义为lAye¨(,)et(s,)={1=,a=口f(5)10t=0具体控制过程:当一个状态值被重复访问后将随即选择一个新动作,那么该动作的跟踪将被设置为1。之后跟踪的信号将会以公式(3.3)呈现指

7、数衰减,最后趋近于零。那么当跟踪信号经过一定时图20V7670摄像头模块上显示的图像信息间,便趋近于零失效,现研究其失效时间。设某一状态.动作在被访问一次后,接着连续n次没被访和跟踪迹提取的算法。通过回溯的思想,使得后续问时,则此状态.动作对被遗忘时:产生的数据能够及时反馈回来。其实际意义为:通e(s,a)()<(6)过数据的不断传递,使得某一状态的动作决策受s为一个极小值。由于e(s,a)>0,0

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。