Publication:
Efficient optimization algorithms for computational biology

Thumbnail Image

School / College / Institute

Organizational Unit

Program

Industrial Engineering and Operations Management

KU Authors

Co-Authors

Authors

YƖK Thesis ID

854797

Approval Date

Publication Date

Language

Embargo Status

No

Journal Title

Journal ISSN

Volume Title

Alternative Title

Hesaplamalı biyolojide etkin eniyileme algoritmaları

Abstract

The development of efficient optimization algorithms is crucial for computational biology due to the unique challenges and requirements of biological data. These algorithms may enable researchers to extract meaningful insights from vast and complex data sets, driving forward our understanding of biological systems and improving therapeutic interventions. In this thesis, we have developed algorithms for computational biology in cancer subtyping and drug-target interaction prediction. Identifying cancer subtypes is important for providing personalized treatment effectively, developing new drugs, characterizing risk factors, and understanding the underlying mechanisms of diseases. In the first part of this thesis, we present a clustering algorithm, named GSPS, that uses multiple kernels defined on pathways/gene sets for identifying cancer subtypes. GSPS employs an efficient decomposition algorithm for solving large scale optimization problems within the localized multiple kernel k-means clustering and provides a standalone framework for obtaining patient subtypes on cancer cohorts. We perform clustering experiments on gene expression profiles of primary tumors for 33 cancer types of the Cancer Genome Atlas using three different pathway/gene set collections. We compare our proposed method against three standard algorithms that can integrate pathway and gene expression profiles. Our approach shows statistically significantly better or comparable performance on survival analyses. Our method is also able to produce interpretable information between obtained cancer subtypes and pathway/gene set collections. In the second part of this thesis, we also propose a novel framework, manifold optimization based kernel preserving embedding (MOKPE), to efficiently solve the problem of modeling heterogeneous data. In many applications of bioinformatics, data stem from distinct heterogeneous sources. One of the well-known examples is the identification of drug-target interactions (DTIs), which is of significant importance in drug discovery and repurposing. Our model projects heterogeneous drug and target data into a unified embedding space by preserving drug-target interactions and drug-drug, target-target similarities simultaneously. We performed ten replications of ten-fold cross validation on four different drug-target interaction network data sets for predicting DTIs for previously unseen drugs. The classification evaluation metrics showed better or comparable performance compared to previous similarity-based state-of-the-art methods. We also evaluated MOKPE on predicting unknown DTIs of a given network. In this thesis, we also extended MOKPE, and developed MOKPE+, to use multiple drug-drug and target-target similarities with the aim of increasing the accuracy and interpretability of DTI predictions. For this purpose, using a localized approach, we followed a similarity selection and fusion method that has features such as estimating the similarity weights of previously unseen new drugs and cleaning noisy input. We performed ten-fold cross-validation with five replications to predict DTIs for new drugs on four different drug-target interaction network data sets. We used this similarity selection and integration method both with MOKPE+ and in the baseline models we have previously compared. We also used methods specifically developed to exploit multiple similarities. Classification evaluation metrics showed that MOKPE+ showed better or similar performance compared to both other baseline models and machine learning models that can use multiple similarities directly.
Etkin eniyileme algoritmalarının geliştirilmesi, biyolojik verilerin taşıdığı benzersiz zorluklar ve gereksinimler nedeniyle hesaplamalı biyoloji iƧin hayati ƶneme sahiptir. Bu algoritmalar, araştırmacıların geniş ve karmaşık veri kümelerinden anlamlı iƧgƶrüler elde etmesine olanak tanıyarak, biyolojik sistemlere ilişkin anlayışımızı ileriye taşıyabilir ve yeni tedavi yƶntemleri geliştirmemize yardımcı olabilir. Bu tezde, kanser alt tiplendirmesi ve ilaƧ-hedef etkileşimlerinin tahmini iƧin hesaplamalı biyoloji algoritmaları geliştirdik. Üç yeni hesaplamalı yƶntem ƶnermekte ve bu yƶntemlerin kanser veri kümeleri ile ilaƧ-hedef veri kümeleri üzerinde gerƧekleştirilmiş deneylerini sunmaktayız. Bu tezin ilk kısmında, yolak/gen kümeleri üzerinde tanımlanmış Ƨoklu Ƨekirdekleri kullanarak kanser alt tiplerini belirlemek iƧin bir kümeleme algoritması olan GSPS'yi sunuyoruz. Kanser alt tiplerini belirlemek; kişiselleştirilmiş tedaviyi etkili bir şekilde sağlamak, yeni ilaƧlar geliştirmek, risk faktƶrlerini karakterize etmek, ve hastalıkların temel mekanizmalarını anlamak iƧin ƶnemlidir. GSPS, kanser kohortlarındaki hasta alt tiplerini elde etmek iƧin bağımsız bir araƧtır, yerelleştirilmiş Ƨoklu Ƨekirdekli k-ortalama kümelemede büyük ƶlƧekli eniyileme problemlerini Ƨƶzen verimli bir ayrıştırma algoritması kullanmaktadır. Kanser Genom Atlası'nda yer alan 33 kanser türünün primer tümƶrlerinin gen ifade profilleri üzerinde üç farklı yolak/gen kümesi koleksiyonu kullanarak kümeleme deneyleri gerƧekleştiriyoruz. Ɩne sürdüğümüz yƶntemi, yolak/gen kümeleri ve gen ifade profillerini entegre edebilen üç standart algoritma ile karşılaştırıyoruz. Yaklaşımımız, sağkalım analizlerinde istatistiksel olarak anlamlı olarak daha iyi veya benzer performans gƶstermektedir. Yƶntemimiz ayrıca elde edilen kanser alt tipleri ve yolak/gen kümesi koleksiyonları arasındaki ilişkiler ile ilgili yorumlanabilir bilgi üretebilmektedir. Bu tezin ikinci kısmında, heterojen verilerin modellemesi sorununu etkin bir şekilde Ƨƶzmek iƧin manifold eniyileme tabanlı Ƨekirdek korumalı gƶmme (MOKPE) adlı yeni bir ƧerƧeve ƶneriyoruz. Biyoinformatik uygulamalarının birƧoğunda, veriler farklı heterojen kaynaklardan gelmektedir. En bilinen ve yaygın ƶrneklerden biri, ilaƧ keşfinde ve yeniden amaƧlandırmasında ƶnemli bir yere sahip olan ilaƧ-hedef etkileşimlerinin (İHE) belirlenmesidir. Modelimiz, ilaƧ-hedef etkileşimlerini ve ilaƧ-ilaƧ, hedef-hedef benzerliklerini aynı anda koruyarak heterojen ilaƧ ve hedef verilerini birleşik bir gƶmme alanına yansıtmaktadır. Dƶrt farklı ilaƧ-hedef etkileşim ağı veri setinde, daha ƶnce bilinmeyen yeni ilaƧlar iƧin İHE'leri kestirim amacıyla on tekrarlı on katlı Ƨapraz doğrulama gerƧekleştirdik. Sınıflandırma değerlendirme metrikleri, literatürdeki benzerlik tabanlı en iyi başarım gƶsteren yƶntemlere kıyasla daha iyi veya benzer performans gƶsterdi. MOKPE'yi ayrıca, ilaƧ ve hedeflerin bilindiği bir ağdaki muhtemel yeni İHE'leri tahmin etme gƶrevinde de değerlendirdik ve olumlu sonuƧlar aldık. Bu tezde ayrıca, MOKPE'yi Ƨoklu ilaƧ-ilaƧ ve hedef-hedef benzerliklerini kullanabilecek şekilde, İHE kestirimlerinin doğruluğunu ve yorumlanabilirliğini arttırma amacıyla genişlettik, ve MOKPE+'yı geliştirdik. Bu amaƧla, yerelleştirilmiş bir yaklaşım kullanarak, daha ƶnce bilinmeyen yeni ilaƧların benzerlik ağırlıklarını kestirebilme, gürültülü girdiyi temizleyebilme gibi ƶzelliklere sahip bir benzerlik seƧme ve birleştirme yƶntemini takip ettik. Dƶrt farklı ilaƧ-hedef etkileşim ağı veri setinde, daha ƶnce bilinmeyen yeni ilaƧlar iƧin İHE'leri kestirim amacıyla beş tekrarlı on katlı Ƨapraz doğrulama gerƧekleştirdik. Bu benzerlik seƧim ve entegrasyon yƶntemini hem MOKPE+ ile hem de daha ƶnce karşılaştırma yaptığımız temel referans modellerinde kullandık. Ayrıca, Ƨoklu sayıda benzerlikleri kullanmak iƧin ƶzel olarak geliştirilmiş yƶntemleri de aynı veriler ile kullandık. Sınıflandırma değerlendirme metrikleri, MOKPE+'nın, hem bu yƶntemi kullanan diğer temel modeller, hem de Ƨoklu benzerlikleri doğrudan kullanabilen yapay öğrenme modelleri ile kıyaslandığında daha iyi veya benzer performans sergilediğini gƶstermiştir.

Source

Publisher

KoƧ University

Subject

Computational biology, Genetics|xMathematical models, Genomics

Citation

Has Part

Source

Book Series Title

Edition

DOI

item.page.datauri

Link

Rights

restrictedAccess

Copyrights Note

© All Rights Reserved. Accessible to Koç University Affiliated Users Only!

Endorsement

Review

Supplemented By

Referenced By

0

Views

0

Downloads