پیش‌بینی قابل اطمینان جهش‌های تثبیت‌کننده برای پیشرفت فناوری‌های زیستی مبتنی بر پروتئین بسیار مهم است. این امر به ویژه برای تسریع توسعه پروتئین‌های درمانی و آنزیم‌های صنعتی اهمیت دارد.

با این حال، تا مارس ۲۰۲۳، روش‌های محاسباتی موجود برای پیش‌بینی پایداری پروتئین، عمدتاً بر معیارهای رگرسیون مانند پیرسون و RMSE متمرکز بوده‌اند. این معیارها برای ارزیابی توانایی مدل‌ها در شناسایی جهش‌های تثبیت‌کننده بهینه نیستند. مطالعات متعدد این محدودیت را به تفصیل شرح داده‌اند.

در یک مطالعه اخیر، محققان به این محدودیت پرداختند. آن‌ها معیارهای رگرسیون را گزارش دادند، اما برای توسعه مدل خود، معیارهای طبقه‌بندی را به کار گرفتند. معیارهای طبقه‌بندی شامل AUROC، MCC، recall و precision بود. این رویکرد بر شناسایی صحیح جهش‌های تثبیت‌کننده تاکید دارد.

برای اطمینان از تعمیم‌پذیری بهتر مدل، محققان از یک روش تقسیم train-test غیرمعمول استفاده کردند. آن‌ها از آستانه شباهت توالی ۳۰٪ استفاده کردند. این روش در مقایسه با تقسیم‌های سنتی، از نشت داده جلوگیری می‌کند. انتظار می‌رود مدل‌های Stability Oracle و Prostata-IFML که با این روش آموزش داده شده‌اند، عملکرد بهتری در داده‌های جدید داشته باشند.

نتایج نشان داد که Stability Oracle و Prostata-IFML به طور موثر جهش‌های تثبیت‌کننده را شناسایی می‌کنند. به نظر می‌رسد عملکرد این مدل‌ها در پیش‌بینی جهش‌های تثبیت‌کننده، از روش‌های مبتنی بر FEP پیشی می‌گیرد. نکته قابل توجه این است که سرعت Stability Oracle و Prostata-IFML چندین مرتبه بیشتر از روش‌های FEP است. با این حال، برای تایید این برتری، مطالعات تجربی بیشتری لازم است که به طور مستقیم این روش‌ها را مقایسه کنند.

یکی از چالش‌های موجود در آموزش مدل‌های پیش‌بینی پایداری پروتئین، عدم تعادل بین جهش‌های تثبیت‌کننده و بی‌ثبات‌کننده در داده‌های آموزشی است. ادبیات علمی به تازگی از مفهوم برگشت‌پذیری ترمودینامیکی (TR) برای مقابله با این مشکل استفاده کرده است. TR با هدف ایجاد تعادل در داده‌ها، آموزش را به سمت جهش‌های تثبیت‌کننده اسیدهای آمینه نوع وحشی متمایل می‌کند.

با این حال، محققان استدلال می‌کنند که TR برای مدل‌هایی که از ویژگی‌های تکاملی و ساختارهای پروتئین استفاده می‌کنند، مشکلاتی ایجاد می‌کند. جهش‌ها به اسیدهای آمینه نوع وحشی، اطلاعات را نشت می‌دهند. این نوع جهش‌ها در مهندسی پروتئین که هدف آن تغییر اسیدهای آمینه نوع وحشی است، کاربرد محدودی دارند.

برای رفع این محدودیت، محققان تکنیک جدیدی به نام جایگشت‌های ترمودینامیکی (TP) را معرفی کردند. TP یک روش افزایش داده است که جهش‌هایی با توزیع متعادل ΔΔG تولید می‌کند. مهم‌تر از آن، TP از تولید جهش به اسیدهای آمینه نوع وحشی خودداری می‌کند. این امر به کاهش عدم تعادل در داده‌ها کمک می‌کند. همچنین تعداد جهش‌های تثبیت‌کننده به اسیدهای آمینه غیر نوع وحشی را در داده‌های آموزشی و آزمایشی افزایش می‌دهد.

علاوه بر مزایای تعادل داده، TP تعصب نسبت به نوع وحشی را که در مرحله پیش‌آموزش خود-نظارتی وجود دارد، کاهش می‌دهد. محققان حدس می‌زنند که TP در طول تنظیم دقیق مدل، استخراج‌کننده ویژگی را تشویق می‌کند تا الگوهای شیمیایی ظریف‌تری را در محیط میکرو بیاموزد. این الگوها فراتر از نشانگرهای ساده نوع وحشی هستند.

TP همچنین مزیت تولید اندازه‌گیری‌های ΔΔG برای انواع جهش در محیط‌های میکرو را دارد که به ندرت به صورت تجربی بررسی می‌شوند. این امر تنوع داده‌های آموزشی و آزمایشی را افزایش می‌دهد. انتظار می‌رود که TP به بهبود تعمیم‌پذیری مدل‌ها در ساختارهای مختلف پروتئینی کمک کند. با این حال، برای بررسی دقیق این فرضیه، داده‌های آزمایشی بیشتری مورد نیاز است. محققان پیش‌بینی می‌کنند که TP به ویژه برای توسعه مدل‌های جهش‌های مرتبه بالاتر مفید خواهد بود، جایی که داده‌ها بسیار کمیاب‌تر هستند.

یکی از یافته‌های جالب این مطالعه، عملکرد قابل توجه مدل کوچک Stability Oracle نسبت به مدل بزرگتر Prostata-IFML است. Stability Oracle با پارامترهای بسیار کمتر، توانست عملکردی مشابه یا حتی بهتر از Prostata-IFML ارائه دهد. این یافته نشان می‌دهد که ساختار پروتئین، اطلاعات ارزشمندی را فراتر از توالی اسید آمینه در خود جای داده است.

مدل‌های یادگیری عمیق خود-نظارتی معمولاً در پیش‌بینی جهش‌ها در هسته پروتئین که محیطی متراکم دارد، با مشکل مواجه می‌شوند. این مدل‌ها اغلب به اشتباه، اسید آمینه نوع وحشی را در هسته پیش‌بینی می‌کنند. در مقابل، Stability Oracle به طور خاص برای یادگیری جایگزینی‌های تثبیت‌کننده از محیط میکرو آموزش داده شده است. این امر به Stability Oracle امکان می‌دهد تا جهش‌های هسته را به طور موثرتری پیش‌بینی کند.

در زمینه اندازه مجموعه داده‌های آموزشی، مطالعه نشان داد که حدود ۲۵۰۰۰ اندازه‌گیری ΔΔG با استفاده از روش‌های C2878، TP و TR، عملکردی قابل مقایسه با مدل‌هایی ارائه می‌دهد که بر روی مجموعه داده‌های بسیار بزرگتر (حدود ۲.۲ میلیون اندازه‌گیری) آموزش داده شده‌اند. این یافته بر اهمیت کیفیت داده‌ها علاوه بر کمیت آن‌ها تاکید می‌کند. تولید مجموعه‌داده‌های بزرگتر با اطلاعات ترمودینامیکی دقیق، به ویژه برای باقیمانده‌های موجود در رابط‌های عملکردی پروتئین، می‌تواند به بهبود بیشتر قابلیت‌های تعمیم‌پذیری مدل‌ها منجر شود.

شناسایی دقیق جهش‌های تثبیت‌کننده، کاربردهای گسترده‌ای در زمینه‌های مختلف خواهد داشت. از جمله این کاربردها می‌توان به طراحی داروهای پروتئینی و واکسن‌های پایدارتر، و همچنین توسعه آنزیم‌های صنعتی با پایداری حرارتی بالا برای تولید زیستی و زیست‌پالایی محیطی اشاره کرد. در حالی که مدل‌های قبلی مانند MutCompute در بهبود پایداری پروتئین‌ها موفق بوده‌اند، انتظار می‌رود Stability Oracle با دقت بهبود یافته خود، نرخ موفقیت در شناسایی جهش‌های عملکردی و پایدار را افزایش دهد.

مزیت کلیدی Stability Oracle در مقایسه با مدل‌های قبلی، توجه آن به اثرات ترمودینامیکی است. مدل‌های قبلی اغلب بیشتر بر عوامل استریک تمرکز داشتند. این رویکرد جدید به Stability Oracle اجازه می‌دهد تا طیف وسیع‌تری از جهش‌ها را پیش‌بینی کند. این طیف شامل جهش‌ها در رابط‌های پروتئین-پروتئین (مانند آنتی‌بادی-آنتی‌ژن)، پروتئین-لیگاند و پروتئین-نوکلئوتید می‌شود. این قابلیت، Stability Oracle را به ابزاری قدرتمند برای مهندسی پروتئین در زمینه‌های مختلف تبدیل می‌کند.

منبع: Stability Oracle: a structure-based graph-transformer framework for identifying stabilizing mutations

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این فیلد را پر کنید
این فیلد را پر کنید
لطفاً یک نشانی ایمیل معتبر بنویسید.

فهرست