Beyin Göçü ve Göç Tutumları Üzerine Türk İnternet Medyası Söylemlerinde Açıklanabilir Türkçe Metin Sınıflandırması

No Thumbnail Available

Date

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Open Access Color

OpenAIRE Downloads

OpenAIRE Views

Research Projects

Journal Issue

Abstract

Bu çalışmada, beyin göçü ve göç tutumlarına dair sosyal medya duygu içerikleri ile internet haberlerinde kullanılan Türkçe metinlerin açıklanabilir sınıflandırılmasına yönelik bütüncül bir çerçeve sunulmaktadır. Bunun için, sosyologlar tarafında toplanıp etiketlenmiş 2,343 haber makalesinden oluşan bir göç söylemi veri kümesi derlenmiş ve ana haber metinleri, Unicode normalleştirme, Türkçeye özgü lemmatizasyon ve özetleme yöntemleri ile 978 alt-kelime uzunluğunda vektörlere dönüştürülmüş ve bu veride metnin okuyucuya olan etkisi'ni temsil eden tonlama sütunu, pozitif ve negatif olacak şekilde sınıflandırma etiketleri olarak belirlenmiştir. Eğitimde Sadece Kodlayıcı (BERT), Sadece Kod Çözücü (GPT), Sadece Maskelenmiş Kod Çözücü (MaskedOnly) ve Kodlayıcı–Kod Çözücü (T5) olmak üzere çeşitli Transformer mimarileri test edilmiş, çapraz-dikkat mekanizmasına odaklanılması sebebiyle GPT ve T5 mimarileri ile devam edilmiştir. Etiketlerin doğruluğunu, gizli katman çıktılarının hizalanması ve potansiyel anahtar kelime gruplarını belirlemek için, yeni bir küme tutarlılık kaybı fonksiyonu aracılığı ile veriler uygun gruplara ayrılmış, YAKE, RAKE, KeyBERT1, KeyBERT2, BERTopic ve LDA ile elde edilen kümelere özgü anahtar kelimeler elde edilmiştir.Katman ve baş düzeyinde hesaplanan seyreklik, Kullback–Leibler sapması ve SHAP tabanlı katkı analizleri; alt katmanın genel bilgi topladığını, üst katmanın ise sınıf ayırıcı belirteçlere odaklandığını ortaya koymuş, belirli başların merkez anahtar kelimelere odaklandığı çapraz dikkat haritaları ile gözlemlenmesi sayesinde çapraz-dikkat mekanizmasının açıklanabilirlik için uygunluğunu gözler önüne sermiştir. Önerilen sistem, göç haberlerinde % 79.52 doğruluk oranına ve % 79.32 ağırlıklı F1 skoruna ulaşmıştır. Bu çalışma, düşük kaynaklı ve yüksek riskli metinsel uygulamalar için güvenilir Türkçe açıklanabilir Transformer modellerine dair ilk bütüncül altyapıyı sunmaktadır.
This thesis presents an integrated framework for explainable Turkish text classification applied to social media sentiment and Internet news on brain drain and migration attitudes. We construct two corpora: a 27,481-tweet sentiment dataset and a 2,343-article migration discourse collection, each preprocessed via Unicode normalization, Turkish‐specific lemmatization, and sequence length pruning to 978 subword tokens. Three Transformer paradigms, encoder‐only (BERT), decoder‐only (GPT), and encoder–decoder (T5), are re-fined-tuned with low‐rank adapters under an architecture‐preserving optimization schedule. A novel cluster consistency loss aligns Transformer hidden representations with class‐specific keyword clusters extracted by YAKE, RAKE, KeyBERT1, KeyBERT2, BERTopic, and LDA. Quantitative interpretability metrics, including head‐wise sparsity, layer‐wise Kullback–Leibler divergence, and SHAP‐based regional importance, reveal that lower layers gather broad evidence while upper layers concentrate on class‐defining tokens. Qualitative cross‐attention visualizations confirm a sharp semantic boundary at a specific token, with selected heads faithfully surfacing centroid keywords. The proposed system achieves 79.52 % accuracy and 79.32 % weighted F1 scores on migration news classification, while delivering human‐intuitive explanations that satisfy both fidelity and transparency. This work offers the first end‐to‐end pipeline for explainable Transformer classification in Turkish, laying a foundation for trustworthy AI in low‐resource and high‐stakes textual domains.

Description

Keywords

Bilim ve Teknoloji, Dilbilim, Science and Technology, linguistics

Turkish CoHE Thesis Center URL

Fields of Science

Citation

WoS Q

Scopus Q

Source

Volume

Issue

Start Page

End Page

173

Collections

Google Scholar Logo
Google Scholar™

Sustainable Development Goals

SDG data is not available