Stock value prediction using machine learning and text mining
Özet
In the digitalizing world, social media is a platform where all sorts of emotions, thoughts and life-sharing are frequently used by large segments of society. Twitter is one of the platforms where people share their thoughts and feelings and interact the most. Interpretations and opinions on the Twitter platform are the most important sources of data that need to be taken into account in the analysis of different aspects of the society's view of events that occur in the world. In this thesis, the data belonging to the Turkish Airlines Cooperation and Pegasus Airlines Cooperation on Twitter platform, as a social media source, and Istanbul Stock Exchange and Bloomberg Exchange Data were used within the scope of case study. The correlation between tweets obtained via Twitter and stock market value data has been examined. The data at the specified date range have been obtained from Twitter using the Phyton programming language on a daily basis via Tweet Scraper. In the preprocess phase, these data were cleaned and labeled as negative/positive using the manually generated positive and negative dictionaries, and the emotion analysis was provided by the lexicon based approach. This analysis was visualized using graphs at specified intervals. In the second stage, raw data originated from Istanbul Stock Exchange and Bloomberg Exchange was provided to clean effective, ineffective and noisy data. Numerical data were analyzed using data regression algorithms in the test and training phases via the R Studio program. Positive / negative / neutral correlation with the numerical labeled social media data determined in specified periods was examined by means of visualization of the data which were analyzed as best effective features for investable or non-investable model was provided. According to the results obtained, it was determined that the companies stock value are increased in the period when the positive data were increased as expected or not. Dijitalleşen dünyada sosyal medya, toplumun büyük kesimi tarafından sıklıkla
kullanılan duygu, düşünce ve yaşama ait her türlü paylaşımın sağlandığı platformlardır.
Twitter ise insanların düşünce ve duygularını paylaştığı ve etkileşimin en fazla olduğu
platformlardan biridir. Buradaki yorumlar ve fikirler, toplumun olaylara bakış açısının
ve dünyada gelişen olayların analizinde dikkate alınması gereken en önemli veri
kaynaklarındandır. Bu tezde örnek olay incelemesi olarak sosyal medya kaynaklarından
Twitter platformu ile borsa verisi olarak İstanbul Borsası ve Bloomberg’deki Pegasus
Havayolları A.Ş. ve Türk Hava Yolları A.O’ya ait verilerinden faydalanılmıştır. Twitter
üzerinden elde edilen tweetlerin borsa verileri ile korelasyonu incelenmiştir.
Twitter’dan günlük ve aylık bazda Phyton programlama dili ve Tweett Scraper
kullanılarak belirlenen tarih aralığında dataların çekilmesi sağlanmıştır. Ön işleme
aşamasında bu dataların temizlenmesi ve manuel olarak oluşturulan pozitif ve negatif
sözlüklerden faydalanılarak tweetlerin pozitif ve negatif olarak etiketlenerek sözlük
tabanlı yaklaşımla duygu analizi sağlanmıştır. Bu analiz belirlenen aralıklarla grafikler
kullanılarak görselleştirilmiştir. İkinci aşamada ise Borsa İstanbul ve Bloomberg
kaynaklı ham verilerin etkili, etkisiz ve gürültülü verilerin temizlenmesi sağlanmıştır. R
Studio programı aracılığıyla test ve eğitim aşamalarında regresyon algoritmaları
kullanılarak analiz edilmiştir. En etken verilerle yatırım yapılabilir veya yapılmamalı
olarak analiz edilen verilerin görselleştirilmesi sağlanarak belirlenen dönemlerde
etiketlenen sosyal medya verileriyle pozitif ve negatif korelasyonu incelenmiştir.
Koleksiyonlar
- Tez Koleksiyonu [1347]