![]()
پیشبینی قابل اطمینان جهشهای تثبیتکننده برای پیشرفت فناوریهای زیستی مبتنی بر پروتئین بسیار مهم است. این امر به ویژه برای تسریع توسعه پروتئینهای درمانی و آنزیمهای صنعتی اهمیت دارد.
با این حال، تا مارس ۲۰۲۳، روشهای محاسباتی موجود برای پیشبینی پایداری پروتئین، عمدتاً بر معیارهای رگرسیون مانند پیرسون و RMSE متمرکز بودهاند. این معیارها برای ارزیابی توانایی مدلها در شناسایی جهشهای تثبیتکننده بهینه نیستند. مطالعات متعدد این محدودیت را به تفصیل شرح دادهاند.
در یک مطالعه اخیر، محققان به این محدودیت پرداختند. آنها معیارهای رگرسیون را گزارش دادند، اما برای توسعه مدل خود، معیارهای طبقهبندی را به کار گرفتند. معیارهای طبقهبندی شامل AUROC، MCC، recall و precision بود. این رویکرد بر شناسایی صحیح جهشهای تثبیتکننده تاکید دارد.
برای اطمینان از تعمیمپذیری بهتر مدل، محققان از یک روش تقسیم train-test غیرمعمول استفاده کردند. آنها از آستانه شباهت توالی ۳۰٪ استفاده کردند. این روش در مقایسه با تقسیمهای سنتی، از نشت داده جلوگیری میکند. انتظار میرود مدلهای Stability Oracle و Prostata-IFML که با این روش آموزش داده شدهاند، عملکرد بهتری در دادههای جدید داشته باشند.
نتایج نشان داد که Stability Oracle و Prostata-IFML به طور موثر جهشهای تثبیتکننده را شناسایی میکنند. به نظر میرسد عملکرد این مدلها در پیشبینی جهشهای تثبیتکننده، از روشهای مبتنی بر FEP پیشی میگیرد. نکته قابل توجه این است که سرعت Stability Oracle و Prostata-IFML چندین مرتبه بیشتر از روشهای FEP است. با این حال، برای تایید این برتری، مطالعات تجربی بیشتری لازم است که به طور مستقیم این روشها را مقایسه کنند.
یکی از چالشهای موجود در آموزش مدلهای پیشبینی پایداری پروتئین، عدم تعادل بین جهشهای تثبیتکننده و بیثباتکننده در دادههای آموزشی است. ادبیات علمی به تازگی از مفهوم برگشتپذیری ترمودینامیکی (TR) برای مقابله با این مشکل استفاده کرده است. TR با هدف ایجاد تعادل در دادهها، آموزش را به سمت جهشهای تثبیتکننده اسیدهای آمینه نوع وحشی متمایل میکند.
با این حال، محققان استدلال میکنند که TR برای مدلهایی که از ویژگیهای تکاملی و ساختارهای پروتئین استفاده میکنند، مشکلاتی ایجاد میکند. جهشها به اسیدهای آمینه نوع وحشی، اطلاعات را نشت میدهند. این نوع جهشها در مهندسی پروتئین که هدف آن تغییر اسیدهای آمینه نوع وحشی است، کاربرد محدودی دارند.
برای رفع این محدودیت، محققان تکنیک جدیدی به نام جایگشتهای ترمودینامیکی (TP) را معرفی کردند. TP یک روش افزایش داده است که جهشهایی با توزیع متعادل ΔΔG تولید میکند. مهمتر از آن، TP از تولید جهش به اسیدهای آمینه نوع وحشی خودداری میکند. این امر به کاهش عدم تعادل در دادهها کمک میکند. همچنین تعداد جهشهای تثبیتکننده به اسیدهای آمینه غیر نوع وحشی را در دادههای آموزشی و آزمایشی افزایش میدهد.
علاوه بر مزایای تعادل داده، TP تعصب نسبت به نوع وحشی را که در مرحله پیشآموزش خود-نظارتی وجود دارد، کاهش میدهد. محققان حدس میزنند که TP در طول تنظیم دقیق مدل، استخراجکننده ویژگی را تشویق میکند تا الگوهای شیمیایی ظریفتری را در محیط میکرو بیاموزد. این الگوها فراتر از نشانگرهای ساده نوع وحشی هستند.
TP همچنین مزیت تولید اندازهگیریهای ΔΔG برای انواع جهش در محیطهای میکرو را دارد که به ندرت به صورت تجربی بررسی میشوند. این امر تنوع دادههای آموزشی و آزمایشی را افزایش میدهد. انتظار میرود که TP به بهبود تعمیمپذیری مدلها در ساختارهای مختلف پروتئینی کمک کند. با این حال، برای بررسی دقیق این فرضیه، دادههای آزمایشی بیشتری مورد نیاز است. محققان پیشبینی میکنند که TP به ویژه برای توسعه مدلهای جهشهای مرتبه بالاتر مفید خواهد بود، جایی که دادهها بسیار کمیابتر هستند.
یکی از یافتههای جالب این مطالعه، عملکرد قابل توجه مدل کوچک Stability Oracle نسبت به مدل بزرگتر Prostata-IFML است. Stability Oracle با پارامترهای بسیار کمتر، توانست عملکردی مشابه یا حتی بهتر از Prostata-IFML ارائه دهد. این یافته نشان میدهد که ساختار پروتئین، اطلاعات ارزشمندی را فراتر از توالی اسید آمینه در خود جای داده است.
مدلهای یادگیری عمیق خود-نظارتی معمولاً در پیشبینی جهشها در هسته پروتئین که محیطی متراکم دارد، با مشکل مواجه میشوند. این مدلها اغلب به اشتباه، اسید آمینه نوع وحشی را در هسته پیشبینی میکنند. در مقابل، Stability Oracle به طور خاص برای یادگیری جایگزینیهای تثبیتکننده از محیط میکرو آموزش داده شده است. این امر به Stability Oracle امکان میدهد تا جهشهای هسته را به طور موثرتری پیشبینی کند.
در زمینه اندازه مجموعه دادههای آموزشی، مطالعه نشان داد که حدود ۲۵۰۰۰ اندازهگیری ΔΔG با استفاده از روشهای C2878، TP و TR، عملکردی قابل مقایسه با مدلهایی ارائه میدهد که بر روی مجموعه دادههای بسیار بزرگتر (حدود ۲.۲ میلیون اندازهگیری) آموزش داده شدهاند. این یافته بر اهمیت کیفیت دادهها علاوه بر کمیت آنها تاکید میکند. تولید مجموعهدادههای بزرگتر با اطلاعات ترمودینامیکی دقیق، به ویژه برای باقیماندههای موجود در رابطهای عملکردی پروتئین، میتواند به بهبود بیشتر قابلیتهای تعمیمپذیری مدلها منجر شود.
شناسایی دقیق جهشهای تثبیتکننده، کاربردهای گستردهای در زمینههای مختلف خواهد داشت. از جمله این کاربردها میتوان به طراحی داروهای پروتئینی و واکسنهای پایدارتر، و همچنین توسعه آنزیمهای صنعتی با پایداری حرارتی بالا برای تولید زیستی و زیستپالایی محیطی اشاره کرد. در حالی که مدلهای قبلی مانند MutCompute در بهبود پایداری پروتئینها موفق بودهاند، انتظار میرود Stability Oracle با دقت بهبود یافته خود، نرخ موفقیت در شناسایی جهشهای عملکردی و پایدار را افزایش دهد.
مزیت کلیدی Stability Oracle در مقایسه با مدلهای قبلی، توجه آن به اثرات ترمودینامیکی است. مدلهای قبلی اغلب بیشتر بر عوامل استریک تمرکز داشتند. این رویکرد جدید به Stability Oracle اجازه میدهد تا طیف وسیعتری از جهشها را پیشبینی کند. این طیف شامل جهشها در رابطهای پروتئین-پروتئین (مانند آنتیبادی-آنتیژن)، پروتئین-لیگاند و پروتئین-نوکلئوتید میشود. این قابلیت، Stability Oracle را به ابزاری قدرتمند برای مهندسی پروتئین در زمینههای مختلف تبدیل میکند.
منبع: Stability Oracle: a structure-based graph-transformer framework for identifying stabilizing mutations