2.5D ViT: 3 boyutlu beyin MR görüntülerinin ön işlenmesiyle görüntü dönüştürücü tabanlı beyin yaşı tahmini
No Thumbnail Available
Date
2024
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Open Access Color
OpenAIRE Downloads
OpenAIRE Views
Abstract
Son zamanlarda doğal görüntü işleme görevinde kullanılan transformörler, görme görevlerine alternatif bir çözüm sunmaktadır. Görüntülerin işlenmesine olanak sağlayan görüntü transformör mimarisinin, güçlü dikkat mekanizması ve konumsal bilgiyi tutma yeteneği ile görüntü sınıflandırma görevinde etkili olduğu kanıtlanmıştır. Görüntü sınıflandırmaya yenilikçi bir yaklaşım olan ViT, popüler veri setlerinde güncel CNN'lerden daha iyi performans göstermektedir. Ne yazık ki ViT yapısı 2D ile uyumlu olduğundan, saf haliyle 2 boyuttan fazla olan görüntüleri işleyemez. Bu çalışma, 3 boyutlu beyin MR görüntülerini işleyebilen 2.5D ViT adlı yeni bir ViT önermektedir. Model mimarisinde yapılan değişiklikler ve önerilen yöntemler sayesinde 2.5D ViT, 3D görüntülerden yaş tahminini güncel modellere göre daha iyi yapabilmektedir. Ayrıca bu çalışma, beyin MR görüntülerinin hem model mimarisi hem de ön işleme aşamaları üzerine geniş çaplı deneyler içermektedir. Üstün başarısıyla insanların hayatına etki eden Yapay Zeka tabanlı beyin analiz sistemleri, ideal 3 boyutlu beyin MR görüntülerine ihtiyaç duyar. Bu sistemler için ideal beyin MR görüntüleri elde etmek amacıyla en çok tercih edilen ön işleme teknikleri Yanlılık Alanı Düzeltme (Bias Field Correction), Kafatası Sıyırma (Skull Stripping) ve Çakıştırmadır (Registration). Ön işlemin görüntüleri standartlaştırdığı bilinse bile, ön işlemlerin son teknolojiye sahip ağlarda beyin yaşı tahmin sistemlerinin kalitesi üzerindeki etkisi titizlikle araştırılmamıştır. Bu çalışma, IXI veri setinden alınan 3 boyutlu beyin MR görüntüleri üzerindeki Yanlılık Alanı Düzeltme ve Kafatası Sıyırma etkilerinin yanı sıra Çakıştırma sırasında uygulanan ön işlemlerin etkilerinin ve bunların sırasının kapsamlı bir şekilde gözlemlenmesini içermektedir. Beyin yaşı tahmini alanında popüler olan 3 boyutlu Evrişimsel Sinir Ağları modeli, ön işlemlerin beyin yaşı tahmini üzerindeki başarısı hakkında bilgi vermesi için kullanılmıştır. Bu çalışmanın çıktıları, ön işleme yöntemleri olarak sırasıyla Kafatası Sıyırma, Yanlılık Alanı Düzeltme, Çakıştırma işlemleri Z-Score normalizasyonu ile kullanıldığında, 3 boyutlu Evrişimsel Sinir Ağının 6 yıllık ortalama mutlak hata ile farklı şekilde önceden işlenmiş görüntüler üzerinde eğitilen diğer modellerden daha iyi performans gösterdiğini ortaya koymaktadır. Bu çalışmayı önemli kılan bir diğer nokta ise beyin yaşı tahmini üzerinde kullanıma hazır SPM aracına benzer performans gösterebilecek ön işleme tekniklerini uygun sırayla önermesidir. Önerilen tekniklerle önceden işlenmiş 3 boyutlu beyin MR görüntüleri daha sonra yeni Görüntü Dönüştürücü (ViT) için girdi olarak kullanılmıştır. 2.5D ViT'in tasarımı, beyin yaşı tahmin performansını maksimuma çıkarırken bilgi kaybını en aza indirmeye odaklanır. 2.5D ViT tasarımı ViT'den farklı olarak SCA'dan RGB'ye dönüşüm mimarisi ve Ayrık Kosinüs Dönüşümü (AKD) içermektedir. SCA'dan RGB'ye dönüşüm, 3 boyutlu görüntülerin maksimum bilgiyle 2 boyutlu görüntülere dönüştürülmesini sağlarken, güçlü sıkıştırma kabiliyetine sahip AKD, ViT'deki Dönüştürücü kodlayıcıyı besleyen, yaşa bağlı özellikleri içeren, daha küçük boyutta özellik haritası elde etmek için kullanılır. Çeşitli deneylerden sonra 2.5D ViT, yanlılık düzeltmesinden sonra 5 yıl mutlak hata oranı ile en iyi performansı elde etmektedir. Sonuçlar, önerilen 2.5D ViT'nin beyin yaşı tahmini alanında 3 boyutlu Evrişimsel Sinir Ağları ile karşılaştırmalı sonuçlara sahip olduğunu göstermektedir. Mutlak ortalama hataya ek olarak araştırılan istatistiksel değerler ise sırasıyla r değeri için 0.9, Spearman Korelasyon Katsayısı için 0.87 ve R Kare değeri ise ortalamada 0.78 olarak bulunmuştur. Bu değerler, yanlılık düzeltme işleminden sonraki değerlerdir.
Recently, transformers offer an alternative solution to vision tasks. Vision transformer architecture allowing processing of images has proven to be effective on image classification task with its strong attention mechanism and the ability of retaining spatial information. ViT which is an innovative approach to image classification can outperform state-of-the-art CNNs on benchmarks. Unfortunately, since ViT structure is compatible with 2D, it can not handle images with more than 2 dimensions in its pure state. This study proposes a novel ViT named 2.5D ViT that estimate patients' ages from 3D brain MRIs. Thanks to the modifications made on the model architecture and the suggested methods, 2.5D ViT can estimate age from 3D images better than state-of-the-art models. In addition, this study includes immense experiments on both model architecture and pre-processing stages of brain MRI images. Brain analysis systems based on Artificial Intelligence that impact people's life with its superior success require ideal 3D brain MRI images. The most widely preferred pre-processing techniques to obtain ideal brain MRI images for these systems are Bias Field Correction (BFC), Skull Stripping (SS), and Registration. Even if pre-process standardizes images, it's impact on the quality of brain age estimation (BAE) on state-of-the-art networks has never been researched meticulously. This study, in addition to proposed model, includes a comprehensive observation of effects of applied pre-processes during registration in addition to the effects of BFC and SS and the order of those on 3D brain MRI images from IXI dataset. The state-of-the-art model which is 3D-CNN in the field of BAE provides information about success of pre-processes on BAE. The outputs of this study bring out that when the pre-processing methods, SS, BFC, Registration with Z-Score normalization are used respectively, 3D-CNN outperforms the other models trained on differently pre-processed images with MAE of 6 years. Another point that makes this study important is that it proposes pre-process techniques with appropriate order that can show similar performance on BAE to off-the shelf SPM tool. The pre-processed 3D brain MR images with the proposed techniques are then used as input for novel 2.5D Vision Transformer (ViT). The design of 2.5D ViT focuses on minimizing information loss while maximizing BAE performance. 2.5D ViT contains differently SCA to RGB tranformation architecture and Discrete Cosine Transform (DCT). While SCA to RGB tranformation provides transforming 3D images into 2D images with maximum information, DCT with its strong compression ability is used to get most age-related smaller region of input for Transformer encoder in ViT. After several experiments, 2.5D ViT achieves the best performance with MAE of 5 years, r Score of 0.9, Spearman's Correlation Coefficient of 0.87 and R Squared Coefficient of 0.78 on average, after bias correction. The results show that the proposed 2.5D ViT has comparative results with 3D-CNN in BAE field.
Recently, transformers offer an alternative solution to vision tasks. Vision transformer architecture allowing processing of images has proven to be effective on image classification task with its strong attention mechanism and the ability of retaining spatial information. ViT which is an innovative approach to image classification can outperform state-of-the-art CNNs on benchmarks. Unfortunately, since ViT structure is compatible with 2D, it can not handle images with more than 2 dimensions in its pure state. This study proposes a novel ViT named 2.5D ViT that estimate patients' ages from 3D brain MRIs. Thanks to the modifications made on the model architecture and the suggested methods, 2.5D ViT can estimate age from 3D images better than state-of-the-art models. In addition, this study includes immense experiments on both model architecture and pre-processing stages of brain MRI images. Brain analysis systems based on Artificial Intelligence that impact people's life with its superior success require ideal 3D brain MRI images. The most widely preferred pre-processing techniques to obtain ideal brain MRI images for these systems are Bias Field Correction (BFC), Skull Stripping (SS), and Registration. Even if pre-process standardizes images, it's impact on the quality of brain age estimation (BAE) on state-of-the-art networks has never been researched meticulously. This study, in addition to proposed model, includes a comprehensive observation of effects of applied pre-processes during registration in addition to the effects of BFC and SS and the order of those on 3D brain MRI images from IXI dataset. The state-of-the-art model which is 3D-CNN in the field of BAE provides information about success of pre-processes on BAE. The outputs of this study bring out that when the pre-processing methods, SS, BFC, Registration with Z-Score normalization are used respectively, 3D-CNN outperforms the other models trained on differently pre-processed images with MAE of 6 years. Another point that makes this study important is that it proposes pre-process techniques with appropriate order that can show similar performance on BAE to off-the shelf SPM tool. The pre-processed 3D brain MR images with the proposed techniques are then used as input for novel 2.5D Vision Transformer (ViT). The design of 2.5D ViT focuses on minimizing information loss while maximizing BAE performance. 2.5D ViT contains differently SCA to RGB tranformation architecture and Discrete Cosine Transform (DCT). While SCA to RGB tranformation provides transforming 3D images into 2D images with maximum information, DCT with its strong compression ability is used to get most age-related smaller region of input for Transformer encoder in ViT. After several experiments, 2.5D ViT achieves the best performance with MAE of 5 years, r Score of 0.9, Spearman's Correlation Coefficient of 0.87 and R Squared Coefficient of 0.78 on average, after bias correction. The results show that the proposed 2.5D ViT has comparative results with 3D-CNN in BAE field.
Description
Keywords
Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Turkish CoHE Thesis Center URL
Fields of Science
Citation
WoS Q
Scopus Q
Source
Volume
Issue
Start Page
End Page
126