1ـ مقدمه
توسعه مدلهاي QSAR ذاتا شامل اعمال روشهاي آماري بر روي دسته داده هاي شيميايي است . بنابراين روشهاي آماري تكنيكهاي بسيار مفيدي را براي ما فراهم مي آورند . برخي از اين تكنيكها صرفا جهت ساختن مدلهاي طبقه بندي شده طراحي شده اند ، در حالي كه...
روشهاي آماري و تكنيك هاي آناليز چند متغيره
1ـ مقدمه
توسعه مدلهاي QSAR ذاتا شامل اعمال روشهاي آماري بر روي دسته داده هاي شيميايي است . بنابراين روشهاي آماري تكنيكهاي بسيار مفيدي را براي ما فراهم مي آورند . برخي از اين تكنيكها صرفا جهت ساختن مدلهاي طبقه بندي شده طراحي شده اند ، در حالي كه بقيه تكنيكها به خوبي از عهده طبقه بندي و رگرسيون برمي آيند . علاوه بر اين تكنيكها ، روشهاي ديگري نيز براي بهينه كردن پارامترهاي مختلف و انتخاب متغيرهايي كه در فرايند مدل سازي لازم هستند ، در دسترس هستند . روشهاي آماري پايه هاي رياضي براي توسعه مدلهاي QSAR هستند . از روشهاي چند متغيره زماني استفاده مي شود كه ما نمي توانيم به راحتي اطلاعات مناسب و كافي را براي مساله از تك متغيرهاي اصلي ، استخراج كنيم . كاربرد تحليلهاي چند متغيره ، توصيف داده ها ، طبقه بندي و مدل سازي رگرسيون با هدف نهايي براي تفسير و پيش بيني تركيبات ارزيابي نشده و يا سنتز نشده ، ادغام يافته اند.
همانطور كه در مطالب قبل گفته شد تكنيك هاي مدل سازي به طور كلي مي توانند به دو دسته مختلف طبقه بندي شوند . تكنيكهاي رگرسيون كمي ، كه هدف آن توسعه مدلهاي همبستگيبا استفاده از تكنيك هاي آماري تعديلي است . مكمل آن تكنيك هاي الگوشناسي كيفي[6] است كه به تحليل داده توصيفي و طبقه بندي اختصاص دارند . از بين منابع روزافزون روشهاي مختلف مدل سازي ، انتخاب روش مناسب براي تحليل هاي آماري بسيار تعيين كننده است . تعداد بسيار زيادي روشهاي تحليل رگرسيون در كتب و مقالات وجود دارد كه روش رگرسيون چند خطي (MLR) كه در اصطلاح روش حداقل مربعات معمولي (OLS) ناميده مي شود ، ميتواند به عنوان يك روش قابل تفسير و داراي اساس رگرسيوني براي تحليل QSAR در نظر گرفته شود . بعضي از انواع آن رگرسيون خطي ساده، رگرسيون چند خطي و رگرسيون چند خطي مرحله اي هستند .
از جمله روشهاي ديگر ، روشهاي تصوير چند متغيره است كه به عنوان مثال متغيرهاي پنهان را پيش بيني مي كنند ؛ مثل روشهاي رگرسيون مولفه هاي اصلي (PCR) و حداقل مربعات جزئي (PLS) كه اين روشها محتواي اطلاعات را در مورد ماتريس هاي داده ها كاهش مي دهند . بنابراين اين تكنيك ها داده چند خطي را در فضايي توصيف مي كنند كه ابعاد كمتري دارد ، پس با كاهش دادن قابل ملاحظه ابعاد ، ما به ديدي براي توصيف كردن ، طبقه بندي و مدل سازي دسته هاي بزرگ داده ها ، دست خواهيم يافت . وضعيت مشاهدات ما در اين فضاي جديد ( فضايي كه ابعاد آن كاهش يافته ) با اسكرها و جهت گيري صفحه در ارتباط با متغيرهاي اصلي با لُدينگ ها نمايش داده مي شود .
از جمله روشهاي ديگري كه امروزه در زمينه QSAR مورد استفاده قرار مي گيرند مي توان از روشهاي تحليل مؤلفه هاي اصلي (PCA) ، تحليل خوشه اي (CA) ، و شبكه هاي عصبي مصنوعي (ANN) نام برد ؛ كه اين روشها اطلاعات كيفي را در مورد ارتباط خاصيت ـ ساختار با استفاده از تكنيك هاي نمايشي فراهم مي آورند .
2ـ بررسي ها براي انتخاب روش
2ـ1ـ رگرسيون خطي ساده
رگسيون خطي ساده ، يك محاسبه استاندارد رگرسيون خطي را براي توليد دسته اي از معادله هاي QSAR كه شامل يك معادله براي هر متغير مستقل است ، انجام مي دهد . هر معادله شامل يك متغير از هر دسته توصيف كننده است . اين روش مناسب براي كشف كردن ارتباطات بين ساختار و فعاليت است .
2ـ2ـ رگرسيون چند خطي
رگرسيون چند خطي ، بسطي از روش رگرسيون كلاسيك در بيشتر از يك بعد است . MLR معادلات QSAR را با اجرا كردن محاسبات استاندارد رگرسيون چند متغيري با استفاده از متغيرهاي چندتايي در يك تك معادله ، محاسبه مي كند .
2ـ3ـ رگرسيون چند خطي مرحله اي
رگرسيون چند خطي مرحله اي يكي از روشهاي معمول MLR است . در اين روش يك معادله خطي چند جمله اي توليد مي شود اما در اين معادله از همه متغيرهاي مستقل استفاده نمي شود . هر متغير قبل از ديگري به معادله اضافه شده و يك رگرسيون انجام مي شود . عبارت جديد در صورتي باقي مي ماند كه با يك آزمايش ، معنا دار بودن معادله مورد تاييد قرار گيرد . اين روش رگرسيون مخصوصا زماني سودمند است كه تعداد متغيرها زياد و توصيف كننده هاي كليدي نامعلوم هستند . بنابراين اگر تعداد متغيرها از تعداد ساختار تجاوز كرد ، روشهاي تناوبي مثل روشهاي تصوير بايد در نظر گرفته شود .
رگرسيون خطي ساده و چند خطي بسيار سريع و قابل تفسير هستند ، اما زماني كه تعداد متغيرهاي مستقل بيشتر و قابل مقايسه با تعداد مولكول هاست اين روشها كارايي ندارند .
رگرسيون چند خطي مرحله اي با هر تعداد متغير كارايي دارد ، اما اگر اطلاعات مهم در بيشتر متغيرها بيشتر از آنكه بتواند در مدل گنجانده شود ، پخش شده باشد ، آنگاه اين روش به خوبي اجرا نمي شود .
به طور خلاصه MLR به عنوان يك روش رگرسيون كلاسيك معكوس در نظر گرفته مي شود كه در حين رگرسيون تمام وزنها را بر روي متغير وابسته مي گذارد ، اين بدان معناست كه خطاي پيشگويي به حداقل مي رسد .
امروزه کاربردکمومتری در شيمي افزايش چشمگيري پيدا كرده است و كاربرد آن در شيمي به سرعت در حال افزايش است. شبكه هاي عصبي مصنوعي، منطق فازي و الگوريتم ژنتيكي همگی جزء دسته اي از علوم كامپيوتري به نام هوش مصنوعي (AI) قرار مي گيرند.
از ميان شاخه هاي مختلف شيمي، شيمي تجزيه يكي از بخش هايي است كه بيشترين استفاده را از کمومتری كرده است.
در زیر برخی از کاربرد های کمومتری را در شیمی تجزیه (از جمله مقالات منتشر شده راجع به استفاده از شبكه هاي عصبي مصنوعي در مطالعات QSAR ) مشاهده میکنیم :
<!--[if !supportLists]--> <!--[endif]-->شبيه سازي و جستجوي طيف هاي جرمي
<!--[if !supportLists]--> <!--[endif]-->پيش بيني ميزان جابجاي C NMR13
<!--[if !supportLists]--> <!--[endif]-->شناسايي الگوها از داده هاي كروماتوگرافي
<!--[if !supportLists]--> <!--[endif]-->پيش بيني ضريب پاسخ آشكارسازهاي شعله - يونشي و هدايت گرماي
<!--[if !supportLists]--> <!--[endif]-->پيش بيني ضرايب انتخابگري الكترودهاي يون گزين
<!--[if !supportLists]--> <!--[endif]-->پيش بينی خواص و فعاليت ملكول ها
<!--[if !supportLists]--> <!--[endif]-->آناليز مخلوط هاي پيچيده(نوع تركيب و زيرگروه هاي آن را از روي طيف آن شناسايي كرد)
<!--[if !supportLists]--> <!--[endif]-->شناخت الگوها و طبقه بندي داده ها
<!--[if !supportLists]--> <!--[endif]-->در مطالعات QSAR، هنگامي كه ارتباط بين توصيف كننده ها و كميت مورد مدلسازي پيچيده و غيرخطي بوده و يا اينكه پردازش سريع حجم وسيعي از اطلاعات مورد نياز باشد
<!--[if !supportLists]--> <!--[endif]-->مدلسازي بازداري كروماتوگرافي يوني
<!--[if !supportLists]--> <!--[endif]-->آناليز كمي داده هاي چند متغيره
<!--[if !supportLists]--> <!--[endif]-->مدلسازي سطح پاسخ در كروماتوگرافي مايع با كارآيي بالا
<!--[if !supportLists]--> <!--[endif]-->پيش بيني آنتالپي تشكيل آلكان ها
<!--[if !supportLists]--> <!--[endif]-->پيش بيني ثابت دي الكتريك
<!--[if !supportLists]--> <!--[endif]-->پيش بيني تحــــــرك الكتروفورتيك سولفوناميدها در الكتروفورز موئينه
<!--[if !supportLists]--> <!--[endif]-->و پيش بيني جداسازي تركيبات کایرال.
مطالعات QSAR و QSPR به سه قسمت عمده تبدیل می شوند:
1 ـ انتخاب و محاسبه توصیف کننده ها
2 ـ مدل سازی و انتخاب بهترین مدل
3 ـ ارزیابی اعتبار مدل های انتخاب شده
در ادامه مراحل فوق توضیح داده خواهند شد، قبل از شروع به انجام مراحل فوق ترکیبات مورد نظر برای QSAR دسته بندی و یا به اصطلاح آماده سازی می شوند. همانطور که می دانیم اساس QSAR مطالعه کمی بین ساختار و فعالیت است. برای رسیدن به این مهم باید فعالیت بیولوژیکی یا سایر کمیت هایی که بیانگر خاصیت ویژه ای از آن ترکیبات می باشند در شرایط آزمایشگاهی یکسان تعیین شده باشند تا بتوان آنها را از لحاظ کمی بررسی کرد. مجموعة ترکیبات مورد مطالعه باید تا حدودی تشابهات ساختاری داشته باشند تا تعداد توصیف کننده های مورد نیاز برای ایجاد یک مدل مناسب، کم شود.
برای تحقق مرحلة 3، سری ترکیبات را به دو دسته سری مرجع (آموزشی) و سری پیش بینی یا به سه دسته سری مرجع ( آموزشی )، سری پیش بینی و سری ارزیابی تقسیم می کنند. سری پیش بینی به گونه ای انتخاب می شود که نماینده کل ترکیبات موجود در سری آموزشی باشد. سری مرجع اکثریت ترکیبات مورد نظر را در بر می گیرد و گروهی است که برای ایجاد مدل ها از آن استفاده می شود. سری پیش بینی شامل بقیه ترکیبات سری اولیه می باشد. از سری پیش بینی به منظور ارزیابی قدرت پیش بینی مدل های ایجاد شده استفاده می شود.
در بعضی مواقع از روشهایی برای مدل سازی استفاده می شود که ممکن است سری پیش بینی را نیز به نحوی در مدل سازی درگیر کند. پس برای ارزیابی بهتر، از گروه سومی استفاده می شود که هیچ دخالتی در مدل سازی نداشته باشد.
برای محاسبه بعضی از توصیف کننده ها به مختصات سه بعدی اتم ها نیاز است. پس برای تحقق این مهم باید ساختمان ترکیبات بهینه شود. یعنی پایدارترین وضعیت ساختاری آنها با حداقل انرژی تعیین گردد .
مطالعه کمی ساختار ـ فعالیت(قسمت اول)
مسائل زیادی وجود دارد که انجام عملی بعضی آنها نیازمند سیستم های بسیار پیچیده می باشد که انجام آنها گران و وقت گیر بوده و نیازمند مطالعاتی گسترده است. امروزه دست یابی به اطلاعات در سیستم های شیمیایی بسیار آسانتر از گذشته می باشد که به استفاده از رایانه در شیمی ارتباط دارد. با استفاده از رایانه، ریاضی و آمار، مجموعه ای از یک سری قواعد شیمیایی به نام کمومتریکس شکل می گیرد که در عرصه های ارزیابی و تفسیر اطلاعات، بهینه کردن و مدل سازی فرآیندها و آزمایشات و استخراج حداکثر اطلاعات شیمیایی از داده های تجربی به ما کمک می کند. یکی از مهمترین کاربردهای کمومتریکس ارتباط کمی ساختارـفعالیت QSAR می باشد و به نحوه ارتباط بین فعالیت بیولوژیکی و ساختار شیمیایی ترکیبات می پردازد. هدف QSAR، ایجاد رابطه ای منطقی بین کمیت ها و یا خواص ترکیبات (فعالیت) و ساختار شیمیایی آنها می باشد و این قانون برای مولکول های جدید مورد استفاده قرار می گیرد.
QSAR برای اولین بار در قرن نوزدهم مورد استفاده قرار گرفت. در سال 1863 کروس از دانشگاه استراسبرگ دریافت که سمیت الکل ها در پستانداران با کاهش حلالیت آنها افزایش پیدا می کند .در سال 1865 کروم براون و فریزر به ارتباط بین فعالیت های فیزیولوژیکی و ساختار شیمیایی پی بردند در سال 1899 ، هانس هرست مییر از دانشگاه مربورگ و در سال 1897، چارلز ارنست اورتن از دانشگاه زوریخ دریافتند که سمیّت ترکیبات آلی به چربی دوستی آنها بستگی دارد.
لوئیس هامت (1987ـ1894) دریافت که بین خواص الکترونیکی اسیدها و بازهای آلی و ثابت تعادل و واکنش پذیری آنها ارتباطی منطقی وجود دارد که این امر باعث توسعه این روش شد.
رابرت مویر، گیاه شناس، از دانشگاه پومونا، دریافت که دو اسیدی که فعالیت بیولوژیکی مشابه هم دارند هر دو تنظیم کننده رشد گیاه می باشند او این موضوع را با شیمیدانی به نام کروین هانش در میان گذاشت . هانش اهمیت چربی دوستی را بیان کرد و پیشنهاد کرد چربی دوستی بوسیله تقسیم دارو بین اکتانل و آب تعیین می شود. فری و ویلسون از یک سری ثابت های استخلافی استفاده کردند که فعالیت بیولوژیکی را به حضور گروههای عاملی خاص در موقعیت های بخصوص در مولکول مادر مربوط می کند .
فعالیت بیولوژیکی نتیجه اتصال یک دارو، D، به یک آنزیم یا پروتئین گیرنده، P، می باشد که کمپلکس DP را ایجاد می کند. قدرت اتصال و بزرگی اثر دارو به وسیلة تغییر در انرژی آزاد گیبس بین دارو و آنزیم و کمپلکس پیوند شده می تواند بیان شود، برهم کنش ها از نیروهای الکترواستاتیک، پراکندگی و آب گریزی تشکیل شده است.