Publication:
Big data and machine learning for behavioral analytics and inference : cases in sports and education

Thumbnail Image

Departments

School / College / Institute

Organizational Unit
GRADUATE SCHOOL OF BUSINESS
Upper Org Unit

Program

Business

KU Authors

Co-Authors

Authors

YƖK Thesis ID

Approval Date

Publication Date

Language

Embargo Status

No

Journal Title

Journal ISSN

Volume Title

Alternative Title

Davranış analitiği ve nedensel çıkarımlarda büyük veri ve makine öğrenimi: spor ve eğitimden vakalar

Abstract

This thesis focuses on the use of big data and machine learning methods in behavioral analytics and causal inference. The main motivation of the thesis is to illustrate how the researchers working with traditional econometric methods can benefit from big data and causal ML methods. In the absence of well-established literature, finding the right regression specification is a challenging task, especially when working with high dimensional data set. In this study, I have combined causal ML techniques with explainable AI methods and provided guidelines on how to measure heterogeneous treatment effects with the right regression specification (i.e. which main effects and interactions to be used, what control variables to be included). To empirically test these guidelines, I have curated a large data set in football including detailed variables about interim feedback, match-specific conditions, team features, and most importantly manager characteristics. Empirical evidence contributes to the sports analytics literature suggesting when and how risk-taking behavior of football managers pays off in light of interim and ex-ante information revealed to the manager (i.e. the decision maker). Moreover, this thesis contributes to the causal ML literature by evaluating the performances of two well-known causal ML techniques (a recently popular matching algorithm focusing on finding average treatment effects (FLAME) and Causal Forest that directly aims to estimate heterogeneous treatment effects) are evaluated by using synthetic data generated with known heterogeneous treatment effects. In addition to sports analytics, I have also worked with education data and demonstrated how grit, a non-cognitive skill, predicts academic achievement for students. I used a unique dataset from a digital learning platform to construct a behavioral measure of grit and showed that behavioral grit is a better predictor of student performance compared to survey grit that has been traditionally used by the researchers. I have also found that machine learning algorithms perform well in predicting academic resilience even without constructing any structural model or regression specification, thanks to the power of big data. I believe that my findings from cases in sports and education put forward the benefits of using Machine Learning and big data for researchers working with traditional and theory-based models for causal inference.
Bu tez, davranış analitiği ve nedensel Ƨıkarımda büyük veri ve makine öğrenimi yƶntemlerinin kullanımına odaklanmaktadır. Tezin temel motivasyonu, geleneksel ekonometrik yƶntemlerle Ƨalışan araştırmacıların büyük veri ve nedensel Makine Ɩğrenmesi yƶntemlerinden nasıl yararlanabileceğini gƶstermektir. Eğer bir konuda kapsamlı bir literatür yoksa, doğru regresyon spesifikasyonunu bulmak, ƶzellikle yüksek boyutlu veri seti ile Ƨalışırken zorlu bir iştir. Bu Ƨalışmada nedensel Makine Ɩğrenimi tekniklerini aƧıklanabilir Yapay Zeka yƶntemleriyle birleştirdim ve heterojen tretman etkilerinin doğru regresyon spesifikasyonu oluşturularak nasıl ƶlçüleceğine dair kılavuzlar (yani, bir regresyonda hangi ana değişkenler ve etkileşim değişkenleri kullanılacağı, hangi kontrol değişkenleri modele dahil edileceği) oluşturdum. Bu yƶnergeleri ampirik olarak test etmek iƧin, futbolda maƧ iƧi geri bildirimler, maƧa ƶzgü koşullar, takım ƶzellikleri ve en ƶnemlisi yƶnetici ƶzellikleri hakkında ayrıntılı değişkenler iƧeren büyük bir veri seti oluşturdum. Ortaya koyduğum ampirik kanıtlar, futbol yƶneticilerinin risk alma davranışlarının maƧ sırasında alınan geri bildirimlerden ve maƧ ƶncesinde gƶzlemlenen bilgilerden ne zaman ve nasıl etkilendiğini gƶstererek spor analitiği literatürüne katkıda bulunmaktadır. Ayrıca, bu tez, bilinen heterojen tretman etkileri ile üretilen sentetik verileri kullanarak iyi bilinen iki nedensel Makine Ɩğrenimi tekniğinin (Son zamanlarda popüler olan ve ortalama tretman etkilerini bulmaya odaklanan FLAME ve doğrudan heterojen tretman etkilerini bulmaya Ƨalışan Nedensel Orman) performanslarını değerlendirerek nedensel Makine Ɩğrenimi literatürüne katkıda bulunmaktadır. Spor analitiğine ek olarak, eğitim verileriyle de Ƨalıştım ve bilişsel olmayan bir beceri olan azmin öğrenciler iƧin akademik başarıyı nasıl ƶngƶrdüğünü gƶsterdim. Davranışsal bir azim ƶlçüsü oluşturmak iƧin dijital bir öğrenme platformundan benzersiz bir veri kümesi kullandım ve davranışsal olarak ƶlçülen azmin, araştırmacılar tarafından geleneksel anketlerle ƶlçülen azim ƶlçüsüne kıyasla öğrenci performansının daha iyi bir prediktƶrü olduğunu gƶsterdim. Ayrıca, büyük verinin gücü sayesinde, makine öğrenimi algoritmalarının, herhangi bir yapısal model veya regresyon spesifikasyonu oluşturmadan bile akademik dayanıklılığı tahmin etmede iyi performans gƶsterdiğini buldum. Spor ve eğitimdeki vakalar üzerinde Ƨalışarak elde ettiğim ampirik bulguların, nedensel Ƨıkarım yapmak iƧin geleneksel ve teoriye dayalı modellerle Ƨalışan araştırmacıların Makine Ɩğrenimi ve büyük veriden sağlayabileceği faydaları aƧıkca ortaya koyduğuna inanıyorum.

Source

Publisher

KoƧ University

Subject

Big data, Educational applications, Sports applications, Machine learning, Sports analytics, Causal inference (Statistics), Educational data mining, Sports sciences, Data processing

Citation

Has Part

Source

Book Series Title

Edition

DOI

item.page.datauri

Link

Rights

restrictedAccess

Copyrights Note

© All Rights Reserved. Accessible to Koç University Affiliated Users Only!

Endorsement

Review

Supplemented By

Referenced By

28

Views

3

Downloads