Anayasa Mahkemesi Kararlarının Simülasyonu: Türk Bireysel Başvuruları İçin Çok Etmenli Bir Büyük Dil Modeli (LLM) Çerçevesi

Loading...
Publication Logo

Date

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Open Access Color

OpenAIRE Downloads

OpenAIRE Views

Research Projects

Journal Issue

Abstract

Bu çalışma, büyük dil modellerinin (BDM) anayasa mahkemesi davalarında yargısal karar verme süreçlerini taklit etme kapasitesini incelemektedir. GPT-5, Gemini ve Claude olmak üzere üç güncel model kullanılarak, 2014–2024 yılları arasındaki 343 Anayasa Mahkemesi kararı, mahkeme süreçlerini yansıtan iki aşamalı bir değerlendirme çerçevesi üzerinden analiz edilmiştir. Çalışmada hem kabul edilebilirlik değerlendirmeleri hem de esas hak ihlali kararları açısından model performansı ölçülmüştür. Kabul edilebilirlik aşamasında (Aşama 1) doğruluk oranları Claude için %68,80 ile GPT-5 için %81,34 arasında değişmiş; çoğunluk oylaması yöntemi %79,59'a ulaşmıştır. GPT-5, en az toplam hata ile dengeli bir yaklaşım sergilerken, Gemini ve Claude daha fazla kabul edilemezlik eğilimi göstermiştir. Mahkeme kararları ise daha ılımlı bir kabul oranı ortaya koymuştur. Hak ihlali aşamasında (Aşama 2), üç model de %81,50 doğruluk oranı yakalamış, çoğunluk oylaması ise %83,24 ile en yüksek performansı göstermiştir. Bu aşamada GPT-5 kısmi eşleşmelere daha yatkın, Gemini en yüksek sayıda tam eşleşmeye ulaşmış, Claude ise arada bir performans sergilemiştir. Modeller arası uyum örüntüleri yüksek ancak değişken düzeydedir. Aşama 1'de daha az sıklıkla görülen oybirliği, %87,32 ile en yüksek doğruluk oranını sağlamış, konsensüsün güvenilirliğini ortaya koymuştur. Aşama 2'de ise GPT-5 ile Claude en güçlü uyumu (%88,52) göstermiştir. Bu bulgular, topluluk yöntemleri ve insan–yapay zekâ hibrit yaklaşımlarının yargısal karar verme süreçlerinde tutarlılığı ve sağlamlığı artırabileceğini ortaya koymaktadır. Sonuçlar, genel amaçlı BDM'lerin dahi karmaşık anayasal ilkeleri anlayabildiğini ve mahkeme benzeri yapılandırılmış gerekçeler üretebildiğini, dolayısıyla hukuki uygulamalar açısından dikkate değer doğruluk seviyelerine ulaştığını göstermektedir. Mevcut modeller, yargısal akıl yürütmenin tüm derinliğini yansıtmakta güçlük çekse de, topluluk yöntemlerinin sağladığı istikrarlı üstünlük, amaca özel geliştirilecek hukuki yapay zekâ sistemlerinin genel modelleri aşabileceğini ve anayasa yargısını verimlilik, tutarlılık ve adalete erişim açısından dönüştürme potansiyeline sahip olduğunu ortaya koymaktadır.
This research examines the ability of large language models (LLMs) to emulate judicial decision-making in constitutional court cases. We used three cutting-edge models—GPT-5, Gemini, and Claude—to look at 343 decisions made by the Turkish Constitutional Court between 2014 and 2024. We did this using a two-stage evaluation framework that mirrored how courts really work. The study evaluated model efficacy in both admissibility determinations and substantive rights infringement judgments. During the admissibility stage (Stage 1), the accuracy rates varied from 68.80% for Claude to 81.34% for GPT-5, with majority voting achieving 79.59%. GPT-5 had the fewest total mistakes and a balanced approach, while Gemini and Claude were more likely to think that something was not admissible. On the other hand, courts had a more moderate acceptance rate. In Stage 2, when rights were violated, all three models had the same accuracy of 81.50%. However, majority voting did better, with an accuracy of 83.24%. In this case, GPT-5 tended to have partial matches, Gemini had the most exact matches, and Claude was in the middle, showing that each had different strengths in legal reasoning. Patterns of inter-model agreement showed that there was a lot of convergence, but it wasn't always the same. In Stage 1, unanimous agreements, though less common, had the highest accuracy (87.32%), showing that consensus decisions are reliable. In Stage 2, GPT-5 and Claude were the most in line with each other (88.52%). These results indicate that ensemble methods and hybrid human–AI approaches could improve the consistency and robustness of judicial decision-making. The results show that even general-purpose LLMs can understand complicated constitutional principles and come up with structured, court-like reasoning that is serious enough to be used in legal situations. Although existing models struggle to replicate the comprehensive intricacies of judicial reasoning, the persistent superiority of ensemble methodologies suggests that specialized legal AI systems may exceed general models, potentially revolutionizing constitutional jurisprudence by improving efficiency, consistency, and accessibility to justice

Description

Keywords

Bilim ve Teknoloji, Science and Technology

Turkish CoHE Thesis Center URL

Fields of Science

Citation

WoS Q

Scopus Q

Source

Volume

Issue

Start Page

End Page

90

Collections

Google Scholar Logo
Google Scholar™

Sustainable Development Goals