欢迎来到天天文库
浏览记录
ID:55399582
大小:849.69 KB
页数:5页
时间:2020-05-15
《基于图像识别的爬壁机器人的路径规划.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第02卷第03期2015年6月工业技术创新IndustrialTechnologyInnovationVo1.02No.03Jun.2015基于图像识别的爬壁机器人的路径规划何宏,李宇,张志宏。(1.天津理工大学自动化学院,天津市复杂系统控制理论及应用重点实验室,天津,300384;2.天津广播电视台传输发射部,天津,300072)摘要:目前对于爬壁机器人的路径规划问题,强化学习算法已被广泛运用,但在实时动态复杂工业环境下,该算法存在着数据传递滞后、状态一动作对收敛缓慢、无法估计状态一动作对的问题。本文结合单步Q-1earning算法,并对该算法进行改进,提出了跟踪迹Q()算法:即一种基于
2、离散马尔可夫决策过程的经典Q学习并结合了瞬时差分算法多步回报和跟踪迹提取的算法。实践表明,该算法解决了路径规划过程中,强化学习算法存在的局部寻优能力差、实时性不强等缺点。关键词:爬壁机器人;路径规划;跟踪迹Q()算法中图分类号:TP242.2文献标识码:A文章编号:2095—8412(2015)03.267。06工业技术创新URL:http//www.china.iti.tomDOI:10.14103/j.issn.2095-8412.2015.03.002PathPlanningofWall—climbingRobotsBasedonImageRecognitionHongHe,YuLi
3、1,ZhihongZhangfiTianjinKeyLaboratoryforControlTheoryandApplicationinComplicatedsystemsTianjinUniversityofTechnology,300384,China,"2TianjinBroadcastTelevisionDevelopmenf£td,Tianjin,300072,China)Abstract::Atpresent,reinforcementlearningalgorithmhasbeenwidelyusedinthepathplanningofwall。climbingrobots
4、,butwithinthereal·timedynamicandcomplexindustrialenvironment,thealgorithmhasmanyproblemssuchaslagofdatatransfer,slowconvergenceofstate—action,andincalculableofstate’action.ThispaperproposesthetrackingQ(2)algorithmbycombiningandimprovingone—stepQ—learningalgorithm,i.etheclassicalQlearningbasedondis
5、creteMarkovdecisionprocesses,combiningthetemporaldifferencealgorithmmulti-stepreturnandtracingextractionalgorithm.Practiceshowsthatthisalgorithmsolvethelimitationsinlocalsearchingabilityandtimelinessofthereinforcementlearningalgorithminthepathplanningprocess.Keywords:Wall—climbingrobots;Pathplanni
6、ng;TrackingQ(2)algorithm引言感器,在微处理器的作用下完成图像识别中的滤波、二值化等处理。对摄取来的图像信息进行实时在爬壁机器人图像采集的设计中。硬件平台选处理。从而实现轨迹线的检测功能。然而在爬壁机用OV7670摄像头模块,其内部含有CMOS图像传器人的路径规划问题上,目前使用较多的算法是强·2670何宏等:基于图像识别的爬壁机器人的路径规划第03期本文将跟踪迹的数学模型定义为lAye¨(,)et(s,)={1=,a=口f(5)10t=0具体控制过程:当一个状态值被重复访问后将随即选择一个新动作,那么该动作的跟踪将被设置为1。之后跟踪的信号将会以公式(3.3)呈现指
7、数衰减,最后趋近于零。那么当跟踪信号经过一定时图20V7670摄像头模块上显示的图像信息间,便趋近于零失效,现研究其失效时间。设某一状态.动作在被访问一次后,接着连续n次没被访和跟踪迹提取的算法。通过回溯的思想,使得后续问时,则此状态.动作对被遗忘时:产生的数据能够及时反馈回来。其实际意义为:通e(s,a)()<(6)过数据的不断传递,使得某一状态的动作决策受s为一个极小值。由于e(s,a)>0,0
此文档下载收益归作者所有