Publication: Big data and machine learning for behavioral analytics and inference : cases in sports and education
Program
Business
KU-Authors
KU Authors
Co-Authors
Authors
Advisor
YĆK Thesis ID
Approval Date
Publication Date
Language
Type
Embargo Status
No
Journal Title
Journal ISSN
Volume Title
Alternative Title
DavranıŠanalitiÄi ve nedensel Ƨıkarımlarda büyük veri ve makine ƶÄrenimi: spor ve eÄitimden vakalar
Abstract
This thesis focuses on the use of big data and machine learning methods in behavioral analytics and causal inference. The main motivation of the thesis is to illustrate how the researchers working with traditional econometric methods can benefit from big data and causal ML methods. In the absence of well-established literature, finding the right regression specification is a challenging task, especially when working with high dimensional data set. In this study, I have combined causal ML techniques with explainable AI methods and provided guidelines on how to measure heterogeneous treatment effects with the right regression specification (i.e. which main effects and interactions to be used, what control variables to be included). To empirically test these guidelines, I have curated a large data set in football including detailed variables about interim feedback, match-specific conditions, team features, and most importantly manager characteristics. Empirical evidence contributes to the sports analytics literature suggesting when and how risk-taking behavior of football managers pays off in light of interim and ex-ante information revealed to the manager (i.e. the decision maker). Moreover, this thesis contributes to the causal ML literature by evaluating the performances of two well-known causal ML techniques (a recently popular matching algorithm focusing on finding average treatment effects (FLAME) and Causal Forest that directly aims to estimate heterogeneous treatment effects) are evaluated by using synthetic data generated with known heterogeneous treatment effects.
In addition to sports analytics, I have also worked with education data and demonstrated how grit, a non-cognitive skill, predicts academic achievement for students. I used a unique dataset from a digital learning platform to construct a behavioral measure of grit and showed that behavioral grit is a better predictor of student performance compared to survey grit that has been traditionally used by the researchers. I have also found that machine learning algorithms perform well in predicting academic resilience even without constructing any structural model or regression specification, thanks to the power of big data. I believe that my findings from cases in sports and education put forward the benefits of using Machine Learning and big data for researchers working with traditional and theory-based models for
causal inference.
Bu tez, davranıŠanalitiÄi ve nedensel Ƨıkarımda büyük veri ve makine ƶÄrenimi yƶntemlerinin kullanımına odaklanmaktadır. Tezin temel motivasyonu, geleneksel ekonometrik yƶntemlerle ƧalıÅan araÅtırmacıların büyük veri ve nedensel Makine ĆÄrenmesi yƶntemlerinden nasıl yararlanabileceÄini gƶstermektir. EÄer bir konuda kapsamlı bir literatür yoksa, doÄru regresyon spesifikasyonunu bulmak, ƶzellikle yüksek boyutlu veri seti ile ƧalıÅırken zorlu bir iÅtir. Bu ƧalıÅmada nedensel Makine ĆÄrenimi tekniklerini aƧıklanabilir Yapay Zeka yƶntemleriyle birleÅtirdim ve heterojen tretman etkilerinin doÄru regresyon spesifikasyonu oluÅturularak nasıl ƶlçüleceÄine dair kılavuzlar (yani, bir regresyonda hangi ana deÄiÅkenler ve etkileÅim deÄiÅkenleri kullanılacaÄı, hangi kontrol deÄiÅkenleri modele dahil edileceÄi) oluÅturdum. Bu yƶnergeleri ampirik olarak test etmek iƧin, futbolda maƧ iƧi geri bildirimler, maƧa ƶzgü koÅullar, takım ƶzellikleri ve en ƶnemlisi yƶnetici ƶzellikleri hakkında ayrıntılı deÄiÅkenler iƧeren büyük bir veri seti oluÅturdum. Ortaya koyduÄum ampirik kanıtlar, futbol yƶneticilerinin risk alma davranıÅlarının maƧ sırasında alınan geri bildirimlerden ve maƧ ƶncesinde gƶzlemlenen bilgilerden ne zaman ve nasıl etkilendiÄini gƶstererek spor analitiÄi literatürüne katkıda bulunmaktadır. Ayrıca, bu tez, bilinen heterojen tretman etkileri ile üretilen sentetik verileri kullanarak iyi bilinen iki nedensel Makine ĆÄrenimi tekniÄinin (Son zamanlarda popüler olan ve ortalama tretman etkilerini bulmaya odaklanan FLAME ve doÄrudan heterojen tretman etkilerini bulmaya ƧalıÅan Nedensel Orman) performanslarını deÄerlendirerek nedensel Makine ĆÄrenimi literatürüne katkıda bulunmaktadır. Spor analitiÄine ek olarak, eÄitim verileriyle de ƧalıÅtım ve biliÅsel olmayan bir beceri olan azmin ƶÄrenciler iƧin akademik baÅarıyı nasıl ƶngƶrdüÄünü gƶsterdim. DavranıÅsal bir azim ƶlçüsü oluÅturmak iƧin dijital bir ƶÄrenme platformundan benzersiz bir veri kümesi kullandım ve davranıÅsal olarak ƶlçülen azmin, araÅtırmacılar tarafından geleneksel anketlerle ƶlçülen azim ƶlçüsüne kıyasla ƶÄrenci performansının daha iyi bir prediktƶrü olduÄunu gƶsterdim. Ayrıca, büyük verinin gücü sayesinde, makine ƶÄrenimi algoritmalarının, herhangi bir yapısal model veya regresyon spesifikasyonu oluÅturmadan bile akademik dayanıklılıÄı tahmin etmede iyi performans gƶsterdiÄini buldum. Spor ve eÄitimdeki vakalar üzerinde ƧalıÅarak elde ettiÄim ampirik bulguların, nedensel Ƨıkarım yapmak iƧin geleneksel ve teoriye dayalı modellerle ƧalıÅan araÅtırmacıların Makine ĆÄrenimi ve büyük veriden saÄlayabileceÄi faydaları aƧıkca ortaya koyduÄuna inanıyorum.
Bu tez, davranıŠanalitiÄi ve nedensel Ƨıkarımda büyük veri ve makine ƶÄrenimi yƶntemlerinin kullanımına odaklanmaktadır. Tezin temel motivasyonu, geleneksel ekonometrik yƶntemlerle ƧalıÅan araÅtırmacıların büyük veri ve nedensel Makine ĆÄrenmesi yƶntemlerinden nasıl yararlanabileceÄini gƶstermektir. EÄer bir konuda kapsamlı bir literatür yoksa, doÄru regresyon spesifikasyonunu bulmak, ƶzellikle yüksek boyutlu veri seti ile ƧalıÅırken zorlu bir iÅtir. Bu ƧalıÅmada nedensel Makine ĆÄrenimi tekniklerini aƧıklanabilir Yapay Zeka yƶntemleriyle birleÅtirdim ve heterojen tretman etkilerinin doÄru regresyon spesifikasyonu oluÅturularak nasıl ƶlçüleceÄine dair kılavuzlar (yani, bir regresyonda hangi ana deÄiÅkenler ve etkileÅim deÄiÅkenleri kullanılacaÄı, hangi kontrol deÄiÅkenleri modele dahil edileceÄi) oluÅturdum. Bu yƶnergeleri ampirik olarak test etmek iƧin, futbolda maƧ iƧi geri bildirimler, maƧa ƶzgü koÅullar, takım ƶzellikleri ve en ƶnemlisi yƶnetici ƶzellikleri hakkında ayrıntılı deÄiÅkenler iƧeren büyük bir veri seti oluÅturdum. Ortaya koyduÄum ampirik kanıtlar, futbol yƶneticilerinin risk alma davranıÅlarının maƧ sırasında alınan geri bildirimlerden ve maƧ ƶncesinde gƶzlemlenen bilgilerden ne zaman ve nasıl etkilendiÄini gƶstererek spor analitiÄi literatürüne katkıda bulunmaktadır. Ayrıca, bu tez, bilinen heterojen tretman etkileri ile üretilen sentetik verileri kullanarak iyi bilinen iki nedensel Makine ĆÄrenimi tekniÄinin (Son zamanlarda popüler olan ve ortalama tretman etkilerini bulmaya odaklanan FLAME ve doÄrudan heterojen tretman etkilerini bulmaya ƧalıÅan Nedensel Orman) performanslarını deÄerlendirerek nedensel Makine ĆÄrenimi literatürüne katkıda bulunmaktadır. Spor analitiÄine ek olarak, eÄitim verileriyle de ƧalıÅtım ve biliÅsel olmayan bir beceri olan azmin ƶÄrenciler iƧin akademik baÅarıyı nasıl ƶngƶrdüÄünü gƶsterdim. DavranıÅsal bir azim ƶlçüsü oluÅturmak iƧin dijital bir ƶÄrenme platformundan benzersiz bir veri kümesi kullandım ve davranıÅsal olarak ƶlçülen azmin, araÅtırmacılar tarafından geleneksel anketlerle ƶlçülen azim ƶlçüsüne kıyasla ƶÄrenci performansının daha iyi bir prediktƶrü olduÄunu gƶsterdim. Ayrıca, büyük verinin gücü sayesinde, makine ƶÄrenimi algoritmalarının, herhangi bir yapısal model veya regresyon spesifikasyonu oluÅturmadan bile akademik dayanıklılıÄı tahmin etmede iyi performans gƶsterdiÄini buldum. Spor ve eÄitimdeki vakalar üzerinde ƧalıÅarak elde ettiÄim ampirik bulguların, nedensel Ƨıkarım yapmak iƧin geleneksel ve teoriye dayalı modellerle ƧalıÅan araÅtırmacıların Makine ĆÄrenimi ve büyük veriden saÄlayabileceÄi faydaları aƧıkca ortaya koyduÄuna inanıyorum.
Source
Publisher
KoƧ University
Subject
Big data, Educational applications, Sports applications, Machine learning, Sports analytics, Causal inference (Statistics), Educational data mining, Sports sciences, Data processing
Citation
Has Part
Source
Book Series Title
Edition
DOI
item.page.datauri
Link
Rights
restrictedAccess
Copyrights Note
© All Rights Reserved. Accessible to Koç University Affiliated Users Only!