خوشه بندی فازی برای خواص فیزیکوشیمیایی و بیوشیمیایی آمینواسیدها
خلاصه:
در این مقاله، ما دانش تئوری و تجربی در دسترس موجود در ویژگیهای فیزیکوشیمیایی و بیوشیمیایی مختلف و آمینواسیدها را دستهبندی میکنیم همانطور که در پایگاه دادۀ ضمیمه AA که به عنوان شاخصهای ۵۴۴ آمینواسید (AA) شناخته میشوند جمعآوری شده بود. قبلاً گزارش شده بود که شاخصهای ۴۰۲ آمینواسید دستهبندی شده بودند در ۶ گروه که تکنیکهای خوشهبندی سلسله مراتبی را استفاده میکردند و ۱۴۲ آمینواسید باقی مانده بدون خوشهبندی باقی مانده بودند. به هر حال با توجه به تنوع در حال افزایش، پایگاه داده این شاخصها در حال همپوشانی هستند، بنابراین متدهای خوشهبندی crisp ممکن است نتایج بهینه را تأمین نکنند. علاوه بر این در آنالیزهای بیوانفورماتیک در مقیاسهای بزرگ گوناگون از همۀ پروتئومها انتخاب مناسب شاخصهای آمینواسید که نشان دهندۀ اهمیت بیولوژیکی آنها میباشد برای کارآمدی و خطای pronencoding از شکلهای عمده دنباله توابع کوتاه اساسی میباشند. در بیشترین موارد محققان انتخاب دستی کاملی از آموزندهترین شاخصها را اجرا میکنند. این دو حقیقت ما را به آنالیز شاخصهای AA استفاده شده گستردهای ارتقاء میدهد. هدف اصلی این مقاله دو قسمتی میباشد. اول اینکه، ما یک روش جدید از جزءبندی دادههای بیوانفورماتیک که خوشهبندی فازی مورد توافق را استفاده میکنند را نشان میدهیم، در جایی که تکنیکهای خوشهبندی فازی پیشنهاد دهندۀ اخیر به کار برده میشوند. دوم اینکه، ما ۳ زیر مجموعۀ کیفیت بالا از همه شاخصهای موجود را آماده میکنیم. مزیت روش خوشهبندی فازی مورد توافق به طور کمی بصورت بصری و آماری با مقایسه آن با نتایج خوشهبندی شده سلسله مراتبی پیشنهاد شده عملی نشان داده میشود.
کلمات کلیدی:
آمینواسیدها، پایگاه داده ضمیمه AA، خوشه بندی فازی مورد توافق، شاخصهای با کیفیت بالا، اندازه گیریهای معتبر، ویژگی های فیزیکوشیمیایی
معرفی:
آمینواسیدها مواد شیمیایی شامل یک گروه آمین و یک گروه کربوکسیلیک اسید هستند و یک زنجیر جانبی دارند که بین آمینواسیدهای مختلف تفاوت ایجاد میکند. آنها پروتئینها را تشکیل میدهند که عناصر حیاتی برای زندگی هستند و وظایف بسیار مهمی در سلولهای زنده دارند. ۲۰ آمینواسید واقع شده طبیعی با خواص فیزیکوشیمیایی و بیوشیمیایی مختلف بلوکهای ساختمانی ساختاری از پروتئینها میباشند. خواص متنوع گستردهای از آمینواسیدها در تعداد زیادی از آزمایشها و مطالعات تئوریکی که انجام شده است توسعه یافتهاند. هر یک از خاصیتهای این آمینواسیدها میتوانند بوسیله یک بردار با مقادیر ۲۰ عددی نشان داده شوند و ما بوسیله index آمینواسید به آن ارجاع میدهیم. Nakai و همکارانش (۱۹۸۸).
با ۲۲۲ شاخصهای آمینواسیدها از ادبیات چاپ شده نتایجی را گرفتند و نتایج در میان آنها را با استفاده از آنالیز خوشهبندی سلسله مراتبی توسعه دادند. متعاقباً Tomii و Kanehisa (1996) پایگاه داده index AA را با ۴۲ ماتریسهای mutatian آمینواسیدها افزایش دادند و آن را بصورت index2 AA نشان دادند. اخیراً، ۴۷ ماتریسهای پتانسیل تماسی (contact potentral) آمینواسیدها درAA index3 گزارش داده شدهاند. پایگاه داده بصورت پیوسته بوسیله Kawashima و همکارانش (۲۰۰۸ و ۱۹۹۹) و Kawashima و Kanehisa (2000) به روزرسانی شد.
در حال حاضر ۵۴۴شاخصهای آمینواسیدها در پایگاه داده در AA index1 نشان داده شده است. (Footnote1 را ببینید) انتخاب کمینه/ بهینه مجموعه شاخصهای آمینواسیدها برای کاربردهای بیوانفورماتیکهای مختلف یک کار دشوار است و اغلب شامل انتخابهای تک کاره و کمتر از حد مطلوب میشود. بنابراین، لازم است که شاخصهای مشابه در خوشهها را گروه بندی کنیم و نماینده شاخص خوشهها را برچسب زنی نمائیم. علاوه براین به غیر از پایگاه داده AA index، ترکیب آمینواسید Chou’s pseudo (Pse AA) (Chou 2001) و انواع مختلف آن که بوسیلۀ Nanni و همکارانش (۲۰۱۰) توضیح داده شده بود به عنوان یک ابزار جایگزین برای غلبه با سیستمهای مربوط به توالی و مسائل مربوط به پروتئین استفاده شده است. (Chou 2001) و Nanni (2010) و همکارانش، و (۲۰۱۰ و ۲۰۰۹) Georyiou و همکارانش، (۲۰۱۰) Pape و همکارانش، (۲۰۱۰) Wang و همکارانش) خوشهبندی ((۱۹۷۵) ** (۱۹۸۸)Jain and Dubes، (۲۰۰۷) Oliveira و Pedrycz) یک تکینک گسترده استفاده شده در کاربردهای داده کاوی تشخیصی الگوها در دادههای اساسی میباشد که فضای ورودی را در K منطقه وابسته به برخی ماتریسهای مشابه و غیرمشابه تقسیمبندی میکند، در جایی که مقدار K ممکن است یا ممکن نیست شناخته شده باشد بوسیله رابطه علت و معلولی. خوشهبندی میتواند در ۲ مُد مختلف اجرا شود:
Fuzzy clustering of physicochemical and biochemical properties of amino acids
In this article, we categorize presently available experimental and theoretical knowledge of various physicochemical and biochemical features of amino acids, as collected in the AAindex database of known 544 amino acid (AA) indices. Previously reported 402 indices were categorized into six groups using hierarchical clustering technique and 142 were left unclustered. However, due to the increasing diversity of the database these indices are overlapping, therefore crisp clustering method may not provide optimal results. Moreover, in various large-scale bioinformatics analyses of whole proteomes, the proper selection of amino acid indices representing their biological significance is crucial for efficient and error-prone encoding of the short functional sequence motifs. In most cases, researchers perform exhaustive manual selection of the most informative indices. These two facts motivated us to analyse the widely used AA indices. The main goal of this article is twofold. First, we present a novel method of partitioning the bioinformatics data using consensus fuzzy clustering, where the recently proposed fuzzy clustering techniques are exploited. Second, we prepare three high quality subsets of all available indices. Superiority of the consensus fuzzy clustering method is demonstrated quantitatively, visually and statistically by comparing it with the previously proposed hierarchical clustered results. The processed AAindex1 database, supplementary material and the software are available at http://sysbio.icm.edu.pl/aaindex/ .
لینک مقاله اصلی:
لطفاً براي ارسال دیدگاه، ابتدا وارد حساب كاربري خود بشويد