Efficient optimization algorithms for computational biology

The development of efficient optimization algorithms is crucial for computational biology due to the unique challenges and requirements of biological data. These algorithms may enable researchers to extract meaningful insights from vast and complex data sets, driving forward our understanding of biological systems and improving therapeutic interventions. In this thesis, we have developed algorithms for computational biology in cancer subtyping and drug-target interaction prediction. Identifying cancer subtypes is important for providing personalized treatment effectively, developing new drugs, characterizing risk factors, and understanding the underlying mechanisms of diseases. In the first part of this thesis, we present a clustering algorithm, named GSPS, that uses multiple kernels defined on pathways/gene sets for identifying cancer subtypes. GSPS employs an efficient decomposition algorithm for solving large scale optimization problems within the localized multiple kernel k-means clustering and provides a standalone framework for obtaining patient subtypes on cancer cohorts. We perform clustering experiments on gene expression profiles of primary tumors for 33 cancer types of the Cancer Genome Atlas using three different pathway/gene set collections. We compare our proposed method against three standard algorithms that can integrate pathway and gene expression profiles. Our approach shows statistically significantly better or comparable performance on survival analyses. Our method is also able to produce interpretable information between obtained cancer subtypes and pathway/gene set collections. In the second part of this thesis, we also propose a novel framework, manifold optimization based kernel preserving embedding (MOKPE), to efficiently solve the problem of modeling heterogeneous data. In many applications of bioinformatics, data stem from distinct heterogeneous sources. One of the well-known examples is the identification of drug-target interactions (DTIs), which is of significant importance in drug discovery and repurposing. Our model projects heterogeneous drug and target data into a unified embedding space by preserving drug-target interactions and drug-drug, target-target similarities simultaneously. We performed ten replications of ten-fold cross validation on four different drug-target interaction network data sets for predicting DTIs for previously unseen drugs. The classification evaluation metrics showed better or comparable performance compared to previous similarity-based state-of-the-art methods. We also evaluated MOKPE on predicting unknown DTIs of a given network. In this thesis, we also extended MOKPE, and developed MOKPE+, to use multiple drug-drug and target-target similarities with the aim of increasing the accuracy and interpretability of DTI predictions. For this purpose, using a localized approach, we followed a similarity selection and fusion method that has features such as estimating the similarity weights of previously unseen new drugs and cleaning noisy input. We performed ten-fold cross-validation with five replications to predict DTIs for new drugs on four different drug-target interaction network data sets. We used this similarity selection and integration method both with MOKPE+ and in the baseline models we have previously compared. We also used methods specifically developed to exploit multiple similarities. Classification evaluation metrics showed that MOKPE+ showed better or similar performance compared to both other baseline models and machine learning models that can use multiple similarities directly.
Etkin eniyileme algoritmalarının geliştirilmesi, biyolojik verilerin taşıdığı benzersiz zorluklar ve gereksinimler nedeniyle hesaplamalı biyoloji için hayati öneme sahiptir. Bu algoritmalar, araştırmacıların geniş ve karmaşık veri kümelerinden anlamlı içgörüler elde etmesine olanak tanıyarak, biyolojik sistemlere ilişkin anlayışımızı ileriye taşıyabilir ve yeni tedavi yöntemleri geliştirmemize yardımcı olabilir. Bu tezde, kanser alt tiplendirmesi ve ilaç-hedef etkileşimlerinin tahmini için hesaplamalı biyoloji algoritmaları geliştirdik. Üç yeni hesaplamalı yöntem önermekte ve bu yöntemlerin kanser veri kümeleri ile ilaç-hedef veri kümeleri üzerinde gerçekleştirilmiş deneylerini sunmaktayız. Bu tezin ilk kısmında, yolak/gen kümeleri üzerinde tanımlanmış çoklu çekirdekleri kullanarak kanser alt tiplerini belirlemek için bir kümeleme algoritması olan GSPS'yi sunuyoruz. Kanser alt tiplerini belirlemek; kişiselleştirilmiş tedaviyi etkili bir şekilde sağlamak, yeni ilaçlar geliştirmek, risk faktörlerini karakterize etmek, ve hastalıkların temel mekanizmalarını anlamak için önemlidir. GSPS, kanser kohortlarındaki hasta alt tiplerini elde etmek için bağımsız bir araçtır, yerelleştirilmiş çoklu çekirdekli k-ortalama kümelemede büyük ölçekli eniyileme problemlerini çözen verimli bir ayrıştırma algoritması kullanmaktadır. Kanser Genom Atlası'nda yer alan 33 kanser türünün primer tümörlerinin gen ifade profilleri üzerinde üç farklı yolak/gen kümesi koleksiyonu kullanarak kümeleme deneyleri gerçekleştiriyoruz. Öne sürdüğümüz yöntemi, yolak/gen kümeleri ve gen ifade profillerini entegre edebilen üç standart algoritma ile karşılaştırıyoruz. Yaklaşımımız, sağkalım analizlerinde istatistiksel olarak anlamlı olarak daha iyi veya benzer performans göstermektedir. Yöntemimiz ayrıca elde edilen kanser alt tipleri ve yolak/gen kümesi koleksiyonları arasındaki ilişkiler ile ilgili yorumlanabilir bilgi üretebilmektedir. Bu tezin ikinci kısmında, heterojen verilerin modellemesi sorununu etkin bir şekilde çözmek için manifold eniyileme tabanlı çekirdek korumalı gömme (MOKPE) adlı yeni bir çerçeve öneriyoruz. Biyoinformatik uygulamalarının birçoğunda, veriler farklı heterojen kaynaklardan gelmektedir. En bilinen ve yaygın örneklerden biri, ilaç keşfinde ve yeniden amaçlandırmasında önemli bir yere sahip olan ilaç-hedef etkileşimlerinin (İHE) belirlenmesidir. Modelimiz, ilaç-hedef etkileşimlerini ve ilaç-ilaç, hedef-hedef benzerliklerini aynı anda koruyarak heterojen ilaç ve hedef verilerini birleşik bir gömme alanına yansıtmaktadır. Dört farklı ilaç-hedef etkileşim ağı veri setinde, daha önce bilinmeyen yeni ilaçlar için İHE'leri kestirim amacıyla on tekrarlı on katlı çapraz doğrulama gerçekleştirdik. Sınıflandırma değerlendirme metrikleri, literatürdeki benzerlik tabanlı en iyi başarım gösteren yöntemlere kıyasla daha iyi veya benzer performans gösterdi. MOKPE'yi ayrıca, ilaç ve hedeflerin bilindiği bir ağdaki muhtemel yeni İHE'leri tahmin etme görevinde de değerlendirdik ve olumlu sonuçlar aldık. Bu tezde ayrıca, MOKPE'yi çoklu ilaç-ilaç ve hedef-hedef benzerliklerini kullanabilecek şekilde, İHE kestirimlerinin doğruluğunu ve yorumlanabilirliğini arttırma amacıyla genişlettik, ve MOKPE+'yı geliştirdik. Bu amaçla, yerelleştirilmiş bir yaklaşım kullanarak, daha önce bilinmeyen yeni ilaçların benzerlik ağırlıklarını kestirebilme, gürültülü girdiyi temizleyebilme gibi özelliklere sahip bir benzerlik seçme ve birleştirme yöntemini takip ettik. Dört farklı ilaç-hedef etkileşim ağı veri setinde, daha önce bilinmeyen yeni ilaçlar için İHE'leri kestirim amacıyla beş tekrarlı on katlı çapraz doğrulama gerçekleştirdik. Bu benzerlik seçim ve entegrasyon yöntemini hem MOKPE+ ile hem de daha önce karşılaştırma yaptığımız temel referans modellerinde kullandık. Ayrıca, çoklu sayıda benzerlikleri kullanmak için özel olarak geliştirilmiş yöntemleri de aynı veriler ile kullandık. Sınıflandırma değerlendirme metrikleri, MOKPE+'nın, hem bu yöntemi kullanan diğer temel modeller, hem de çoklu benzerlikleri doğrudan kullanabilen yapay öğrenme modelleri ile kıyaslandığında daha iyi veya benzer performans sergilediğini göstermiştir.

Publisher

Koç University

Subject

Computational biology, Genetics|xMathematical models, Genomics

URI

https://hdl.handle.net/20.500.14288/29730

Rights

restrictedAccess

Copyrights Note

Collections

Theses & Dissertations

Full item page

Publication: Efficient optimization algorithms for computational biology

Files

Departments

School / College / Institute

Program

KU-Authors

KU Authors

Co-Authors

Authors

Advisor

YÖK Thesis ID

Approval Date

Publication Date

Language

Type

Embargo Status

Journal Title

Journal ISSN

Volume Title

Alternative Title

Abstract

Source

Publisher

Subject

Citation

Has Part

Source

Book Series Title

Edition

DOI

URI

item.page.datauri

Link

Rights

Copyrights Note

Collections

Endorsement

Review

Supplemented By

Referenced By

2

Views

0

Downloads

Publication:
Efficient optimization algorithms for computational biology