TY - JOUR ID - TI - OPTIMUM SHORT PATH FINDER FOR ROBOT USING Q-LEARNING AU - Mohannad Abid Shehab Ahmed مهند عبد شهاب احمد PY - 2012 VL - 5 IS - 1 SP - 13 EP - 24 JO - DIYALA JOURNAL OF ENGINEERING SCIENCES مجلة ديالى للعلوم الهندسية SN - 19998716 26166909 AB - ABSTRACT:- Programming robots is a useful tedious task, so there is growinginterest in building robots which can learn by themselves. This paper describes theReinforcement Learning and teaching approach like Queue Learning (Q-Learning) to beimplemented for robotics technology environment navigation and exploration. Q – Learningalgorithm is one of the widely used online learning methods in robotics; it is simple, efficient,and not need to complex process as in adaptive system. The aim of this work is to empowerthe agent to learn a certain goal directed navigation strategy and to generate a shortest path instatic environment which contain static obstacles; it uses one of the important intelligentsearch methods the “heuristic”. It makes a necessary modification for the search algorithm tosuit the way of solving the problem. In our approach of learning from demonstration, therobot learns a reward function from the demonstration and a task model from repeatedattempts (trials) to perform the task. A simplified reinforcement learning algorithm based onone-step Q-Learning that is optimized in speed and memory consumption is proposed andimplemented in Visual Basic language (VB). The robot can be built using stepper motors andany available microcontroller like 89c52 with its driver circuit to utilize of their matching.Keywords: Reinforcement Learning, Q-Learning, Navigation, Robot,microcontroller.

الخلاصةبرمجة الروبوتات من المهام الصعبة والمفیدة ، لذلك هناك اهتمام متزاید في بناء الروبوتات ذات التعلم الذاتي.هذا المشروع یتناول طرق التعلم الرصینة التي یتعین تنفیذها لتكنولوجیا الروبوتات في الملاحة والاستكشاف.واحدة من الطرق الواسعة الاستعمال وذات تعلم حقیقي مع الوقت وهي طریقة سهلة وكفوءة ولا Q تعتبر طریقة تعلم التحتاج إلى عملیات معقدة او معالجة متكررة كما في الانظمة المتكیفة.الهدف من هذا العمل هو لتمكین المستخدم مثلالروبوت لاكتشاف الهدف من خلال استراتیجیة الملاحة بحیث یتمكن الروبوت من سلوك اقصر المسارات بین البدایةوالهدف مع تجنب الاصطدام بالعوائق الثابته ، تم استخدام "طریقة الارشاد" في البحث (التعلم الذاتي) مع تعدیل ظروفالعمل لتلائم خوارزمیة البحث ونمط حل المشكلة. الطریقة المستعملة هي تعلیم الروبوت عن طریق مبدا الاستحقاقالاحسن للمسار المستكشف من عدة محاولات. اقترحت خوارزمیة سهلة وذات خطوات مستقرة عددیا لعمل طریقة تعلم ال.٥٢c لتكافى سرعة وحجم ذاكرة معالج المتحكم المستخدم في تصمیم الروبوت مثل المتحكم ٨٩ ER -