research centers


Search results: Found 2

Listing 1 - 2 of 2
Sort by

Article
Web Pages Retrieval by Using Proposed Focused Crawler

Authors: Dunia Hamid Hameed --- Soukaena Hassan Hashem
Journal: Al-Nahrain Journal of Science مجلة النهرين للعلوم ISSN: (print)26635453,(online)26635461 Year: 2016 Volume: 19 Issue: 2 Pages: 154-164
Publisher: Al-Nahrain University جامعة النهرين

Loading...
Loading...
Abstract

“Focused Crawler” is designed to visit a part of the web to collect documents that are related to only a particular topic. The objective of focused crawler is to identify good links that lead to target required documents, and to avoid branches that don't lead to the required topic. There is a number of motivations for designing focused crawler such as: fetching relevant data from the web with simplified data indexing, personalizing the human-computer interaction, making the system adaptive with each user, needing for a tool to change the searching strategy, keeping the freshness of the web pages and filtering the links to keep track focusing on the user’s preference. In this paper, we will explain two methods to retrieve web pages by using traditional crawler and proposed focused crawler. We make several experiments and it shows that proposed focused crawler is more efficient than traditional crawler in retrieving the desired web pages.

الزاحف المركز مصمم لاسترجاع جزء من الويب لجمع مستندات في موضوع واحد فقط و يهدف الى تعريف الروابط الجيدة التي تقود الى المستندات الهادفة و تجنب التفرعات التي لا تقود للموضوع المطلوب. يوجد عدة دوافع لتصميم الزاحف المركز مثل جلب البيانات ذات العلاقة من الويب وتبسيط فهرسة البيانات, جعل تفاعل المستخدم مع الحاسوب شخصيا و جعل النظام متكيف مع كل مستخدم و كذلك الحاجة الى اداة تغير ستراتيجية البحث لانه ينقح الروابط التي سيتم استرجاعها والحفاظ على حداثة صفحات الويب بالتكيف المستمر و ترشيح الروابط لاهمال الروابط غير المرغوب بها و الحفاظ على تركيز الزاحف بالاعتماد على تفضيل المستخدم. في هذا البحث سوف نشرح طرق لاسترجاع صفحات الويب باستخدام الزاحف التقليدي و الزاحف المركز المقترح. اجرينا العديد من التجارب و اوضحت ان الزاحف المركز المقترح اكثر كفاءة من الزاحف التقليدي في الاسترجاع.


Article
A Proposal of Deep Web Crawling System by using Breath-first Approach
اقتراح نظام غواص للويب العميق بااستخدام طريقة السعه اولا

Author: . Israa Tahseen اسراء تحسين
Journal: Iraqi Journal of Information Technology المجلة العراقية لتكنولوجيا المعلومات ISSN: 19948638/26640600 Year: 2018 Volume: 9 Issue: 2 اللغة الانكليزية Pages: 48-61
Publisher: iraqi association of information الجمعية العراقية لتكنولوجيا المعلومات

Loading...
Loading...
Abstract

A lot of data on the WWW stay unavailable to crawlers of web search engines, so it must uncovered data when the users submits form with valid inputs. The obscure of some portion of web which is hidden behind the interfaces is define as a Deep web, It is also called invisible web. Around 96% of data are hidden behind the Deep web interfaces. This paper aims to build a Deep web Crawling system that extract the hidden data and all hyperlinks that are pointing to other web pages by using Breath-first search. The concluded issues in this research are: downloading the deep web content by using the surfacing approach with un-structural DB, the yielded results prove that a higher quality pages which relevant to user query is displayed to the user at the top of the results list.

الكثير من البيانات الموجودة على الشبكة العنكبوتية العالمية لاتزال غير متاحه للغوص من قبل محركات البحث , في ضوء الحقيقة لابد من الكشف عن هذه البيانات عند الطلب من قبل المستخدم عندما يقوم بملئ .النموذج. الجزء الغامض من الويب والذي يكون مخبأ وراء الواجهات يعرف بالويب العميق ويسمى ايضا بالويب الغير مرئي , حوالي %96 من البيانات تكون مخفيه وراء واجهات الويب العميق. هذه الرسالة تهدف الى بناء نظام الغوص العميق للويب الذي يستخرج البيانات المخفية وكذلك جميع الروابط التشعبيه التي تشير الى صفحات الويب الاخرى بااستخدام طريقة السعه اولا. الاستنتاجات التي تم التوصل إليها في هذا البحث هي: تحميل محتويات الويب العميق بواسطة استخدام طريقه الطفو السطحي مع قواعد البيانات الغير مهيكله, والنتائج المدخله اثبت بان الصفحات ذات الجوده العاليه بالنسبه لاستعلام المستخدم يتم عرضها للمستخدم في اعلى قائمة النتائج

Keywords

Deep Web --- Crawler --- Search Engine --- Token --- Hidden data.

Listing 1 - 2 of 2
Sort by
Narrow your search

Resource type

article (2)


Language

English (2)


Year
From To Submit

2018 (1)

2016 (1)