Publication: Efficient optimization algorithms for computational biology
Program
Industrial Engineering and Operations Management
KU-Authors
KU Authors
Co-Authors
Authors
Advisor
YĆK Thesis ID
854797
Approval Date
Publication Date
Language
Type
Embargo Status
No
Journal Title
Journal ISSN
Volume Title
Alternative Title
Hesaplamalı biyolojide etkin eniyileme algoritmaları
Abstract
The development of efficient optimization algorithms is crucial for computational biology due to the unique challenges and requirements of biological data. These algorithms may enable researchers to extract meaningful insights from vast and complex data sets, driving forward our understanding of biological systems and improving therapeutic interventions. In this thesis, we have developed algorithms for computational biology in cancer subtyping and drug-target interaction prediction. Identifying cancer subtypes is important for providing personalized treatment effectively, developing new drugs, characterizing risk factors, and understanding the underlying mechanisms of diseases. In the first part of this thesis, we present a clustering algorithm, named GSPS, that uses multiple kernels defined on pathways/gene sets for identifying cancer subtypes. GSPS employs an efficient decomposition algorithm for solving large scale optimization problems within the localized multiple kernel k-means clustering and provides a standalone framework for obtaining patient subtypes on cancer cohorts. We perform clustering experiments on gene expression profiles of primary tumors for 33 cancer types of the Cancer Genome Atlas using three different pathway/gene set collections. We compare our proposed method against three standard algorithms that can integrate pathway and gene expression profiles. Our approach shows statistically significantly better or comparable performance on survival analyses. Our method is also able to produce interpretable information between obtained cancer subtypes and pathway/gene set collections. In the second part of this thesis, we also propose a novel framework, manifold optimization based kernel preserving embedding (MOKPE), to efficiently solve the problem of modeling heterogeneous data. In many applications of bioinformatics, data stem from distinct heterogeneous sources. One of the well-known examples is the identification of drug-target interactions (DTIs), which is of significant importance in drug discovery and repurposing. Our model projects heterogeneous drug and target data into a unified embedding space by preserving drug-target interactions and drug-drug, target-target similarities simultaneously. We performed ten replications of ten-fold cross validation on four different drug-target interaction network data sets for predicting DTIs for previously unseen drugs. The classification evaluation metrics showed better or comparable performance compared to previous similarity-based state-of-the-art methods. We also evaluated MOKPE on predicting unknown DTIs of a given network. In this thesis, we also extended MOKPE, and developed MOKPE+, to use multiple drug-drug and target-target similarities with the aim of increasing the accuracy and interpretability of DTI predictions. For this purpose, using a localized approach, we followed a similarity selection and fusion method that has features such as estimating the similarity weights of previously unseen new drugs and cleaning noisy input. We performed ten-fold cross-validation with five replications to predict DTIs for new drugs on four different drug-target interaction network data sets. We used this similarity selection and integration method both with MOKPE+ and in the baseline models we have previously compared. We also used methods specifically developed to exploit multiple similarities. Classification evaluation metrics showed that MOKPE+ showed better or similar performance compared to both other baseline models and machine learning models that can use multiple similarities directly.
Etkin eniyileme algoritmalarının geliÅtirilmesi, biyolojik verilerin taÅıdıÄı benzersiz zorluklar ve gereksinimler nedeniyle hesaplamalı biyoloji iƧin hayati ƶneme sahiptir. Bu algoritmalar, araÅtırmacıların geniÅ ve karmaÅık veri kümelerinden anlamlı iƧgƶrüler elde etmesine olanak tanıyarak, biyolojik sistemlere iliÅkin anlayıÅımızı ileriye taÅıyabilir ve yeni tedavi yƶntemleri geliÅtirmemize yardımcı olabilir. Bu tezde, kanser alt tiplendirmesi ve ilaƧ-hedef etkileÅimlerinin tahmini iƧin hesaplamalı biyoloji algoritmaları geliÅtirdik. ĆƧ yeni hesaplamalı yƶntem ƶnermekte ve bu yƶntemlerin kanser veri kümeleri ile ilaƧ-hedef veri kümeleri üzerinde gerƧekleÅtirilmiÅ deneylerini sunmaktayız. Bu tezin ilk kısmında, yolak/gen kümeleri üzerinde tanımlanmıŠçoklu Ƨekirdekleri kullanarak kanser alt tiplerini belirlemek iƧin bir kümeleme algoritması olan GSPS'yi sunuyoruz. Kanser alt tiplerini belirlemek; kiÅiselleÅtirilmiÅ tedaviyi etkili bir Åekilde saÄlamak, yeni ilaƧlar geliÅtirmek, risk faktƶrlerini karakterize etmek, ve hastalıkların temel mekanizmalarını anlamak iƧin ƶnemlidir. GSPS, kanser kohortlarındaki hasta alt tiplerini elde etmek iƧin baÄımsız bir araƧtır, yerelleÅtirilmiŠçoklu Ƨekirdekli k-ortalama kümelemede büyük ƶlƧekli eniyileme problemlerini Ƨƶzen verimli bir ayrıÅtırma algoritması kullanmaktadır. Kanser Genom Atlası'nda yer alan 33 kanser türünün primer tümƶrlerinin gen ifade profilleri üzerinde üç farklı yolak/gen kümesi koleksiyonu kullanarak kümeleme deneyleri gerƧekleÅtiriyoruz. Ćne sürdüÄümüz yƶntemi, yolak/gen kümeleri ve gen ifade profillerini entegre edebilen üç standart algoritma ile karÅılaÅtırıyoruz. YaklaÅımımız, saÄkalım analizlerinde istatistiksel olarak anlamlı olarak daha iyi veya benzer performans gƶstermektedir. Yƶntemimiz ayrıca elde edilen kanser alt tipleri ve yolak/gen kümesi koleksiyonları arasındaki iliÅkiler ile ilgili yorumlanabilir bilgi üretebilmektedir. Bu tezin ikinci kısmında, heterojen verilerin modellemesi sorununu etkin bir Åekilde Ƨƶzmek iƧin manifold eniyileme tabanlı Ƨekirdek korumalı gƶmme (MOKPE) adlı yeni bir ƧerƧeve ƶneriyoruz. Biyoinformatik uygulamalarının birƧoÄunda, veriler farklı heterojen kaynaklardan gelmektedir. En bilinen ve yaygın ƶrneklerden biri, ilaƧ keÅfinde ve yeniden amaƧlandırmasında ƶnemli bir yere sahip olan ilaƧ-hedef etkileÅimlerinin (İHE) belirlenmesidir. Modelimiz, ilaƧ-hedef etkileÅimlerini ve ilaƧ-ilaƧ, hedef-hedef benzerliklerini aynı anda koruyarak heterojen ilaƧ ve hedef verilerini birleÅik bir gƶmme alanına yansıtmaktadır. Dƶrt farklı ilaƧ-hedef etkileÅim aÄı veri setinde, daha ƶnce bilinmeyen yeni ilaƧlar iƧin İHE'leri kestirim amacıyla on tekrarlı on katlı Ƨapraz doÄrulama gerƧekleÅtirdik. Sınıflandırma deÄerlendirme metrikleri, literatürdeki benzerlik tabanlı en iyi baÅarım gƶsteren yƶntemlere kıyasla daha iyi veya benzer performans gƶsterdi. MOKPE'yi ayrıca, ilaƧ ve hedeflerin bilindiÄi bir aÄdaki muhtemel yeni İHE'leri tahmin etme gƶrevinde de deÄerlendirdik ve olumlu sonuƧlar aldık. Bu tezde ayrıca, MOKPE'yi Ƨoklu ilaƧ-ilaƧ ve hedef-hedef benzerliklerini kullanabilecek Åekilde, İHE kestirimlerinin doÄruluÄunu ve yorumlanabilirliÄini arttırma amacıyla geniÅlettik, ve MOKPE+'yı geliÅtirdik. Bu amaƧla, yerelleÅtirilmiÅ bir yaklaÅım kullanarak, daha ƶnce bilinmeyen yeni ilaƧların benzerlik aÄırlıklarını kestirebilme, gürültülü girdiyi temizleyebilme gibi ƶzelliklere sahip bir benzerlik seƧme ve birleÅtirme yƶntemini takip ettik. Dƶrt farklı ilaƧ-hedef etkileÅim aÄı veri setinde, daha ƶnce bilinmeyen yeni ilaƧlar iƧin İHE'leri kestirim amacıyla beÅ tekrarlı on katlı Ƨapraz doÄrulama gerƧekleÅtirdik. Bu benzerlik seƧim ve entegrasyon yƶntemini hem MOKPE+ ile hem de daha ƶnce karÅılaÅtırma yaptıÄımız temel referans modellerinde kullandık. Ayrıca, Ƨoklu sayıda benzerlikleri kullanmak iƧin ƶzel olarak geliÅtirilmiÅ yƶntemleri de aynı veriler ile kullandık. Sınıflandırma deÄerlendirme metrikleri, MOKPE+'nın, hem bu yƶntemi kullanan diÄer temel modeller, hem de Ƨoklu benzerlikleri doÄrudan kullanabilen yapay ƶÄrenme modelleri ile kıyaslandıÄında daha iyi veya benzer performans sergilediÄini gƶstermiÅtir.
Etkin eniyileme algoritmalarının geliÅtirilmesi, biyolojik verilerin taÅıdıÄı benzersiz zorluklar ve gereksinimler nedeniyle hesaplamalı biyoloji iƧin hayati ƶneme sahiptir. Bu algoritmalar, araÅtırmacıların geniÅ ve karmaÅık veri kümelerinden anlamlı iƧgƶrüler elde etmesine olanak tanıyarak, biyolojik sistemlere iliÅkin anlayıÅımızı ileriye taÅıyabilir ve yeni tedavi yƶntemleri geliÅtirmemize yardımcı olabilir. Bu tezde, kanser alt tiplendirmesi ve ilaƧ-hedef etkileÅimlerinin tahmini iƧin hesaplamalı biyoloji algoritmaları geliÅtirdik. ĆƧ yeni hesaplamalı yƶntem ƶnermekte ve bu yƶntemlerin kanser veri kümeleri ile ilaƧ-hedef veri kümeleri üzerinde gerƧekleÅtirilmiÅ deneylerini sunmaktayız. Bu tezin ilk kısmında, yolak/gen kümeleri üzerinde tanımlanmıŠçoklu Ƨekirdekleri kullanarak kanser alt tiplerini belirlemek iƧin bir kümeleme algoritması olan GSPS'yi sunuyoruz. Kanser alt tiplerini belirlemek; kiÅiselleÅtirilmiÅ tedaviyi etkili bir Åekilde saÄlamak, yeni ilaƧlar geliÅtirmek, risk faktƶrlerini karakterize etmek, ve hastalıkların temel mekanizmalarını anlamak iƧin ƶnemlidir. GSPS, kanser kohortlarındaki hasta alt tiplerini elde etmek iƧin baÄımsız bir araƧtır, yerelleÅtirilmiŠçoklu Ƨekirdekli k-ortalama kümelemede büyük ƶlƧekli eniyileme problemlerini Ƨƶzen verimli bir ayrıÅtırma algoritması kullanmaktadır. Kanser Genom Atlası'nda yer alan 33 kanser türünün primer tümƶrlerinin gen ifade profilleri üzerinde üç farklı yolak/gen kümesi koleksiyonu kullanarak kümeleme deneyleri gerƧekleÅtiriyoruz. Ćne sürdüÄümüz yƶntemi, yolak/gen kümeleri ve gen ifade profillerini entegre edebilen üç standart algoritma ile karÅılaÅtırıyoruz. YaklaÅımımız, saÄkalım analizlerinde istatistiksel olarak anlamlı olarak daha iyi veya benzer performans gƶstermektedir. Yƶntemimiz ayrıca elde edilen kanser alt tipleri ve yolak/gen kümesi koleksiyonları arasındaki iliÅkiler ile ilgili yorumlanabilir bilgi üretebilmektedir. Bu tezin ikinci kısmında, heterojen verilerin modellemesi sorununu etkin bir Åekilde Ƨƶzmek iƧin manifold eniyileme tabanlı Ƨekirdek korumalı gƶmme (MOKPE) adlı yeni bir ƧerƧeve ƶneriyoruz. Biyoinformatik uygulamalarının birƧoÄunda, veriler farklı heterojen kaynaklardan gelmektedir. En bilinen ve yaygın ƶrneklerden biri, ilaƧ keÅfinde ve yeniden amaƧlandırmasında ƶnemli bir yere sahip olan ilaƧ-hedef etkileÅimlerinin (İHE) belirlenmesidir. Modelimiz, ilaƧ-hedef etkileÅimlerini ve ilaƧ-ilaƧ, hedef-hedef benzerliklerini aynı anda koruyarak heterojen ilaƧ ve hedef verilerini birleÅik bir gƶmme alanına yansıtmaktadır. Dƶrt farklı ilaƧ-hedef etkileÅim aÄı veri setinde, daha ƶnce bilinmeyen yeni ilaƧlar iƧin İHE'leri kestirim amacıyla on tekrarlı on katlı Ƨapraz doÄrulama gerƧekleÅtirdik. Sınıflandırma deÄerlendirme metrikleri, literatürdeki benzerlik tabanlı en iyi baÅarım gƶsteren yƶntemlere kıyasla daha iyi veya benzer performans gƶsterdi. MOKPE'yi ayrıca, ilaƧ ve hedeflerin bilindiÄi bir aÄdaki muhtemel yeni İHE'leri tahmin etme gƶrevinde de deÄerlendirdik ve olumlu sonuƧlar aldık. Bu tezde ayrıca, MOKPE'yi Ƨoklu ilaƧ-ilaƧ ve hedef-hedef benzerliklerini kullanabilecek Åekilde, İHE kestirimlerinin doÄruluÄunu ve yorumlanabilirliÄini arttırma amacıyla geniÅlettik, ve MOKPE+'yı geliÅtirdik. Bu amaƧla, yerelleÅtirilmiÅ bir yaklaÅım kullanarak, daha ƶnce bilinmeyen yeni ilaƧların benzerlik aÄırlıklarını kestirebilme, gürültülü girdiyi temizleyebilme gibi ƶzelliklere sahip bir benzerlik seƧme ve birleÅtirme yƶntemini takip ettik. Dƶrt farklı ilaƧ-hedef etkileÅim aÄı veri setinde, daha ƶnce bilinmeyen yeni ilaƧlar iƧin İHE'leri kestirim amacıyla beÅ tekrarlı on katlı Ƨapraz doÄrulama gerƧekleÅtirdik. Bu benzerlik seƧim ve entegrasyon yƶntemini hem MOKPE+ ile hem de daha ƶnce karÅılaÅtırma yaptıÄımız temel referans modellerinde kullandık. Ayrıca, Ƨoklu sayıda benzerlikleri kullanmak iƧin ƶzel olarak geliÅtirilmiÅ yƶntemleri de aynı veriler ile kullandık. Sınıflandırma deÄerlendirme metrikleri, MOKPE+'nın, hem bu yƶntemi kullanan diÄer temel modeller, hem de Ƨoklu benzerlikleri doÄrudan kullanabilen yapay ƶÄrenme modelleri ile kıyaslandıÄında daha iyi veya benzer performans sergilediÄini gƶstermiÅtir.
Source
Publisher
KoƧ University
Subject
Computational biology, Genetics|xMathematical models, Genomics
Citation
Has Part
Source
Book Series Title
Edition
DOI
item.page.datauri
Link
Rights
restrictedAccess
Copyrights Note
© All Rights Reserved. Accessible to Koç University Affiliated Users Only!