research centers


Search results: Found 1

Listing 1 - 1 of 1
Sort by

Article
DATA COMPRESSION FOR DNA SEQUENCE
ضغط البيانات لمتوالية الحمض النووي

Author: Asaad Sumoom Daghal أسعد سموم دغل
Journal: Al-Qadisiyah Journal for Engineering Sciences مجلة القادسية للعلوم الهندسية ISSN: 19984456 Year: 2013 Volume: 6 Issue: 1 Pages: 26-34
Publisher: Al-Qadisiyah University جامعة القادسية

Loading...
Loading...
Abstract

DNA Sequences making up any organism comprise the basic blueprint of that organism so that understanding and analyzing different genes within sequences has become an extremely important task. Biologists are producing huge volumes of DNA sequences every day that makes genome sequence database growing exponentially. The databases such as Gen-Bank represent millions of DNA sequences filling many thousands of gigabytes computer storage capacity. Hence an efficient algorithm to compress DNA sequence is required. In this paper compression algorithm which is called “Huffman code tree” is used to code and compress DNA sequences. Depending upon this algorithm we assigning binary bit codes (0 and 1) for each base (A, T, C, and G). After assigning the bases by bit codes, we determine the code for each base. Code for each base is determined by tracing out the path from the root of the tree to the leaf that represents that base. Huffman code provides a variable code length. In fact the codes for characters having a higher frequency of occurrence are shorter than those codes for characters having lower frequency. So this algorithm compress DNA sequences better than from old method (fixed length) if we assigning 2 bits per base. From analysis the results, average code length (1.62 bits/base) can be achieved using this algorithm. For a higher compression ratio advised to use other compression method with the proposed method such as the learning automata.

تشكل متواليات الحمض النووي لأي كائن حي يشمل المخطط الأساسي لهذا الكائن بحيث أن فهم وتحليل الجينات المختلفة ضمن المتواليات أصبحت مهمة هامة للغاية. في كل يوم ينتج علماء الأحياء كميات ضخمة من تسلسل الحمض النووي , هذا ما يجعل قاعدة بيانات الجينوم متزايدة باطراد. قواعد البيانات مثل بنك الجينات تمثل الملايين من تسلسل الحمض النووي التي تحتاج سعة خزن قد تصل إلى عدة آلاف من الغيغابايت من سعة الكمبيوتر. وبالتالي مطلوب خوارزمية فعالة لضغط تسلسل الحمض النووي. في هذا البحث خوارزمية الضغط المستخدمة التي تسمى "رمز شجرة هوفمان " يستخدم لترميز وضغط تسلسل الحمض النووي. اعتمادا على هذه الخوارزمية يتم تأشير رمز قطعة ثنائي (0 و 1) لكل قاعدة (A, T, C, G ). بعد تأشير الرموز للقواعد نجد الرمز لكل قاعدة. يتم إيجاد الرمز لكل قاعدة عن طريق تتبع المسار من جذر الشجرة إلى الورقة التي تمثل تلك القاعدة.ترميز هوفمان يوفر طول رمز متغير. في الحقيقة الرموز لشخصيات التي لها تكرار عالي للظهور يكون تمثيلها بطول أقصر من الرموز للحروف التي لها تكرار قليل. لذلك فأن الخوارزمية المقترحة تضغط متواليات الحمض النووي أفضل من الطرقة القديمة(طول ثابت) إذا نحن استخدمنا 2 قطعة لكل قاعدة. ومن تحليل النتائج, معدل طول رمز 1.62 بت لكل قاعدة يمكن انجازه باستخدام الخوارزمية المقترحة . للحصول على نسبة ضغط أفضل, ينصح باستخدام طريقة أخرى مثلا التعلم الآلي مع الطريقة المستخدمة.

Keywords

DNA --- Huffman Code --- Compression

Listing 1 - 1 of 1
Sort by
Narrow your search

Resource type

article (1)


Language

English (1)


Year
From To Submit

2013 (1)