Finansal NLP Araştırması

Yapılandırılmamış Verilerden
Piyasa Duyarlılığının Ölçülmesi

Doğal Dil İşleme teknikleriyle sosyal medya, haber makaleleri ve forum yorumları gibi kaynaklardan elde edilen metinlerin analiz edilerek piyasa duyarlılığının ölçülmesi ve yatırım kararlarının desteklenmesi.

4M+
Analiz edilen makale
82.76%
KNN doğruluk oranı
20-27%
DJIA korelasyonu
60%
Karar verme iyileşmesi

Özet

Doğal Dil İşleme (NLP) teknikleri, sosyal medya gönderileri, haber makaleleri ve forum yorumları gibi yapılandırılmamış veri kaynaklarından metinleri analiz ederek piyasa duyarlılığını (yatırımcıların genel modunu) ölçmek için kullanılır. Bu süreç, veri toplama, metin ön işleme, duyarlılık skorlaması (genellikle BERT, RoBERTa gibi gelişmiş modellerle) ve bu skorlardan duyarlılık endeksleri oluşturmayı içerir. Bu alandaki çalışmalar, farklı veri kaynaklarını entegre eden modeller geliştirme, duyarlılık verilerini hisse senedi ve kripto para fiyat tahminlerinde kullanma ve duyarlılık ölçümünün doğruluğunu artırmaya yönelik zorlukları (veri kalitesi, ironi anlama gibi) aşmaya odaklanmaktadır.

NLP Tabanlı Piyasa Duyarlılık Analizine Genel Bakış

Yapılandırılmamış Veri Kaynakları ve Önemi

Piyasa duyarlılığını ölçmek için kullanılan yapılandırılmamış veri kaynakları arasında haber makaleleri, sosyal medya gönderileri (X (eski adıyla Twitter), Facebook, StockTwits, Reddit gibi), forum yorumları, bloglar, şirket kazanç açıklamalarının metinleri, merkez bankası duyuruları, düzenleyici kurum raporları ve analist raporları bulunmaktadır [18], [20]. Bu kaynaklar, yatırımcıların ve genel piyasanın belirli bir varlık, sektör veya genel piyasa koşulları hakkındaki duygu, düşünce ve tutumlarını yansıtan zengin bir metin verisi sağlar.

"McKinsey raporuna göre, yapılandırılmamış verileri yönetmek için gelişmiş veri analitiği kullanan şirketler, karar verme süreçlerini %60'a varan oranda iyileştirebilmektedir."

Örneğin, sosyal medya platformları, kullanıcıların gerçek zamanlı olarak fikirlerini paylaşabildiği ve piyasa hakkındaki genel havanın hızla değişebildiği ortamlardır [29], [132]. Haber makaleleri ise daha resmi ve derinlemesine analizler içerir, ancak yine de belirli bir ton ve duyarlılık taşıyabilir.

Piyasa Duyarlılığının Yatırım Kararlarındaki Rolü

Piyasa duyarlılığı, yatırımcıların genel modunu veya piyasanın belirli bir varlık veya genel olarak piyasa hakkındaki kolektif tutumunu ifade eder ve bu duyarlılık, varlık fiyatlarını, işlem hacimlerini ve piyasa eğilimlerini önemli ölçüde etkileyebilir [1], [12].

Erken Uyarı Sistemi

Piyasa duyarlılığı analizi, piyasa değişimleri hakkında erken uyarılar sağlayabilir; finansal haberleri ve sosyal medyayı sürekli izleyen algoritmalar, modeller oluşmadan önce bunları tespit edip piyasa hareketlerini tahmin edebilir.

Algoritmik Ticaret

Algoritmik ticaret sistemleri, önceden tanımlanmış kriterlere dayalı olarak işlem yapmak için duyarlılık analizini kullanır; bu sistemler, insan tüccarlar için imkansız olan çok kısa sürelerde çok miktarda metinsel veriyi işleyerek anlık kararlar alabilir.

Araştırmalar, finansal haberlerden çıkarılan duyarlılığın, sayısal verilere dayalı geleneksel modellere kıyasla piyasa hareketlerini tahmin etmede önemli ölçüde daha yüksek doğruluk sağlayabildiğini göstermiştir [4].

NLP ile Duyarlılık Analizi Metodolojileri

Veri Toplama ve Ön İşleme

NLP tabanlı piyasa duyarlılığı analizinin ilk adımı, ilgili yapılandırılmamış verilerin toplanmasıdır. Bu veriler, finansal haber makaleleri, sosyal medya platformlarındaki (X (eski adıyla Twitter), LinkedIn, Reddit, forumlar, bloglar, inceleme siteleri gibi) gönderiler ve yorumlar, şirket kazanç açıklama metinleri, merkez bankası iletişimleri, düzenleyici dosyalamalar ve analist raporları gibi çeşitli kaynaklardan elde edilebilir [6], [18].

Ön İşleme Adımları

  • Temizleme: HTML etiketlerinin, özel karakterlerin, URL'lerin, kullanıcı adlarının ve sayıların kaldırılması
  • Normalizasyon: Metnin küçük harfe dönüştürülmesi
  • Stop Word'lerin Kaldırılması: "ve", "veya", "bir" gibi gereksiz kelimelerin filtrelenmesi
  • Tokenizasyon: Metni kelimelere veya daha küçük birimlere ayırma
  • Kök Bulma veya Lemmatization: Kelimeleri kök veya sözlük biçimine getirme

Duyarlılık Skorlaması: Gelişmiş Modeller (BERT, RoBERTa)

Duyarlılık skorlaması, metinsel verilerdeki duygu yönünü (olumlu, olumsuz, nötr) nicelendirme sürecidir. Geleneksel yöntemler sözlük tabanlı (lexicon-based) yaklaşımları içerir; bu yöntemlerde, önceden tanımlanmış duyarlılık puanlarına sahip kelime listeleri (sözlükler) kullanılır ve metindeki kelimelerin puanları toplanarak genel bir duyarlılık skoru elde edilir [1], [12].

Klasik Modeller

  • • Destek Vektör Makineleri (SVM)
  • • Naive Bayes
  • • K-En Yakın Komşu (KNN)
82.76%
KNN doğruluk oranı

Derin Öğrenme

  • • LSTM Ağları
  • • İki Yönlü LSTM
  • • GloVe Embeddings
~60%
Ortalama doğruluk

Transformer'lar

  • • BERT
  • • RoBERTa
  • • FinBERT
64%
Transformer doğruluğu

Transformer tabanlı modeller, özellikle BERT (Bidirectional Encoder Representations from Transformers) ve onun finansal metinler için ince ayarlanmış versiyonu FinBERT, duyarlılık sınıflandırmasında devrim yaratmıştır [9], [46]. Başka bir çalışmada, Naive Bayes sınıflandırması yaklaşık %54 doğruluk sağlarken, BERT ve RoBERTa gibi Transformer tabanlı modeller yaklaşık %64 doğrulukla daha iyi performans göstermiştir [64].

Duyarlılık Endekslerinin Oluşturulması ve Zaman Serisi Analizi

Tek tek metin parçaları için duyarlılık skorları elde edildikten sonra, bu skorlar genellikle daha geniş bir piyasa veya varlık için genel bir duyarlılık göstergesi veya endeksi oluşturmak üzere toplanır. Bu toplama işlemi, belirli bir zaman penceresi içindeki (örneğin, günlük veya haftalık) olumlu, olumsuz ve nötr duyarlılık skorlarının sayısı veya ortalaması alınarak yapılabilir [47].

Zaman Serisi Analizi Bulguları

Granger nedensellik testi, duyarlılık polaritesinin (olumlu/olumsuz duyarlılık) hisse senedi fiyat hareketlerini birkaç gün önceden gösterebileceğini ortaya koymuştur [38].

Bank for International Settlements tarafından yapılan bir araştırmada, çevrimiçi iş ve finans haberlerine dayalı bir Haber Duyarlılık Endeksi (NSI) oluşturulmuş ve bu endeksin diğer yüksek frekanslı göstergelerle (PMI ve Filipinler Borsa Endeksi gibi) pozitif ve güçlü korelasyon gösterdiği bulunmuştur [44].

Çok Kaynaklı Piyasa Duyarlılık Modelleri

Haber Makaleleri ve Yorumlardan Duyarlılık Çıkarımı

Haber makaleleri ve finansal yorumlar, piyasa duyarlılığını ölçmede geleneksel olarak kullanılan önemli veri kaynaklarıdır. Bu kaynaklar, genellikle daha derinlemesine analizler ve uzman görüşleri içerir. Örneğin, RavenPack gibi şirketler, haber duyarlılığını kullanarak piyasa duyarlılık endeksleri oluşturmak için metodolojiler geliştirmiştir [47].

Haber Duyarlılık Endeksi Korelasyonları

20-27%
DJIA için korelasyon
9-15%
Eurostoxx50 için korelasyon

Fu ve Zhang (2024) tarafından yapılan bir çalışmada, haber başlıkları ve yatırımcı yorumları gibi çok kaynaklı piyasa duyarlılığını hisse senedi fiyat tahminine entegre eden bir model önerilmiştir [73]. Bu modelde, haber metinlerinin duyarlılık endeksi ağırlığının (w1=0.4) ve yatırımcı yorumlarının duyarlılık endeksi ağırlığının (w2=0.1) olduğu bir kombinasyonun, tahmin doğruluğunu nispeten optimize ettiği bulunmuştur.

Sosyal Medya Verilerinin Duyarlılık Analizine Entegrasyonu

Sosyal medya platformları (X (eski adıyla Twitter), StockTwits, Reddit, Facebook gibi), bireylerin ve yatırımcıların piyasa, hisse senetleri veya kripto paralar hakkındaki düşüncelerini, duygularını ve görüşlerini gerçek zamanlı olarak ifade ettikleri zengin veri kaynaklarıdır [38], [49].

"Context Analytics tarafından yapılan bir araştırma, Twitter, Stocktwits ve haberlerden alınan duyarlılık sinyallerinin birbirinden bağımsız ve düşük korelasyona sahip olduğunu göstermiştir (Pearson korelasyonu <0.3). Bu, her bir kaynağın benzersiz bir perspektif sunduğunu ve bunların birleştirilmesinin daha sağlam bir sinyal oluşturacağını düşündürmektedir."

Financial Modeling Prep'in Sosyal Duyarlılık Göstergesi, sosyal medya platformlarından gelen verileri toplar, NLP algoritmalarıyla analiz eder ve kaynak güvenilirliği, bahis hacmi ve bağlama göre ağırlıklandırılmış bir genel duyarlılık göstergesi oluşturur [49].

Forum Tartışmaları ve Kullanıcı Yorumlarının Analizi

Forumlar (örneğin, Yahoo Finance forumları, Reddit'teki r/wallstreetbets gibi topluluklar) ve çeşitli web sitelerindeki kullanıcı yorumları, piyasa duyarlılığını ölçmek için değerli yapılandırılmamış veri kaynaklarıdır [28], [64]. Bu platformlar, genellikle bireysel yatırımcıların belirli hisse senetleri, piyasa eğilimleri veya ekonomik olaylar hakkındaki ayrıntılı görüşlerini, tartışmalarını ve duygularını paylaştıkları yerlerdir.

Reddit r/wallstreetbets Etkisi

Reddit'in r/wallstreetbets topluluğu, GameStop gibi hisse senetlerinde alışılmadık piyasa hareketlerine yol açan kolektif eylemleriyle ün kazanmıştır; bu da sosyal medya ve forumlardaki duyarlılığın piyasaları etkileme potansiyelini göstermektedir.

Piyasa Duyarlılık Endekslerinin Uygulamaları ve Örnekler

Hisse Senedi Fiyat Tahminlerinde Duyarlılık Verilerinin Kullanımı

Piyasa duyarlılık verileri, özellikle NLP ile yapılandırılmamış kaynaklardan elde edilenler, hisse senedi fiyat tahminlerinde giderek daha yaygın olarak kullanılmaktadır [133], [138]. Temel fikir, yatırımcı duygularının ve piyasa ruh halinin hisse senedi fiyatlarını etkileyebileceği ve hatta bazen kısa vadeli fiyat hareketlerini yönlendirebileceğidir [132].

Olumlu Duyarlılık

Bir hisse senedi hakkında sosyal medyada ve haberlerde ani bir olumlu duyarlılık artışı, fiyatların kısa sürede yükselebileceğine dair bir sinyal olarak yorumlanabilir.

Olumsuz Duyarlılık

Yaygın olumsuz duyarlılık, potansiyel bir fiyat düşüşüne işaret edebilir, bu da yatırımcıların risk yönetimi stratejilerini gözden geçirmeleri gerektiğini gösterebilir.

Kripto Para Piyasası Duyarlılık Endeksleri

Kripto para piyasası, yüksek oynaklığı ve sosyal medyanın güçlü etkisi nedeniyle, duyarlılık analizinin özellikle önemli olduğu bir alandır [156]. "Crypto Fear & Greed Index" (Kripto Korku ve Açgözlülük Endeksi), bu piyasadaki yatırımcı duygularını ölçen popüler bir göstergedir [156], [157].

Compass SESAMm Kripto Duyarlılık Endeksi (CSCSI20)

Compass SESAMm Kripto Duyarlılık Endeksi (CSCSI20) ise bir başka önemli kripto duyarlılık endeksidir [315]. Bu endeks, NLP teknolojisi kullanılarak uluslararası ve yerel kaynaklardan toplanan 4 milyardan fazla makale analiz edilerek oluşturulur.

Polarite
Olumlu/olumsuz duyarlılık
Hacim
Bahis miktarı
Bellek
Zaman içinde etki azalması

Duyarlılık Verilerinin Diğer Finansal Göstergelerle Birleştirilmesi

Piyasa duyarlılığını daha etkili bir şekilde ölçmek ve yorumlamak için, NLP ile elde edilen duyarlılık verileri genellikle diğer finansal göstergelerle birleştirilir [106], [144]. Bu, daha kapsamlı ve dengeli bir piyasa görünümü sağlar.

Entegre Analiz Örnekleri

VIX (Volatility Index)

Genellikle "korku göstergesi" olarak adlandırılır ve S&P 500 endeksi opsiyonlarının fiyatlarından türetilen piyasanın beklenen 30 günlük oynaklığını ölçer.

Teknik Göstergeler

Hareketli ortalamalar, RSI gibi göstergelerle birlikte kullanılarak alım/satım sinyallerinin güçlendirilmesi veya yanlış sinyallerin filtrelenmesi.

NLP ile Piyasa Duyarlılık Ölçümündeki Zorluklar ve Gelecek Yönelimler

Veri Kalitesi ve Gürültü Filtreleme

NLP ile piyasa duyarlılığı ölçümünde karşılaşılan en önemli zorluklardan biri veri kalitesi ve gürültü filtreleme sorunudur. Yapılandırılmamış veri kaynakları, özellikle sosyal medya ve forumlar, genellikle spam, ilgisiz içerik, yanlış bilgi (dezenformasyon), trollük ve bot hesaplardan gelen otomatik mesajlarla doludur [29], [162].

Veri Temizleme Süreci

  • Dil dışı karakterlerin, URL'lerin, kullanıcı adlarının kaldırılması
  • Tekrarlanan mesajların ve analiz diline uymayan metinlerin filtrelenmesi
  • Konu modelleme veya anahtar kelime tabanlı filtreleme teknikleri
  • Makine öğrenmesi modelleri kullanarak spam ve bot hesapların tespiti

İronik ve Mecazi Dilin Anlaşılması

Doğal dilin karmaşıklığı, NLP tabanlı duyarlılık analizinde bir diğer önemli zorluktur. Özellikle sosyal medya ve forumlarda yaygın olarak kullanılan ironi, alay, mecaz, argo ve kısaltmalar, geleneksel NLP modellerinin doğru duyarlılığı tespit etmesini zorlaştırabilir [141].

İroni Örnekleri

Örnek 1:
"Harika, hisse senedim yine battı!"
Yüzeyde olumlu görünen "harika" kelimesi, bağlamsal olarak olumsuz bir duyarlılık ifade eder.
Örnek 2:
"Bu şirket gerçekten roket gibi... aşağı doğru!"
Modelin dilin nüanslarını anlamasını gerektirir.

Bu tür dilsel özellikleri doğru bir şekilde yorumlamak için, bağlamsal anlama yeteneği yüksek, derin öğrenme modellerine (BERT, RoBERTa gibi) ihtiyaç vardır [46], [64]. Ayrıca, bu modellerin, özellikle finansal metinler ve sosyal medya diline özgü jargon ve ifade kalıpları üzerinde ince ayar (fine-tuning) yapılması da önemlidir.

Gerçek Zamanlı Duyarlılık Analizi ve Öngörü Modelleri

Piyasa duyarlılığının hızla değişebildiği günümüz finansal piyasalarında, gerçek zamanlı veya gerçek zamana yakın duyarlılık analizi büyük önem taşımaktadır [161]. Yatırımcılar ve finansal kurumlar, piyasadaki ani ruh hali değişimlerini anında tespit edebilmek ve buna göre tepki verebilmek isterler.

Gelecek Yönelimler

Gerçek Zamanlı Analiz
  • • Düşük gecikmeli veri işleme
  • • Akış işleme platformları
  • • Büyük veri teknolojileri
  • • Daha verimli NLP modelleri
Öngörü Modelleri
  • • LSTM ve GRU tabanlı tahmin
  • • Transformer zaman serisi modelleri
  • • Çok modlu analizler
  • • Metin, görsel, ses entegrasyonu

Bu, veri toplama, ön işleme, duyarlılık skorlama ve endeks oluşturma süreçlerinin tamamının düşük gecikmeli (low-latency) olarak gerçekleştirilmesini gerektirir. Büyük veri teknolojileri ve akış işleme (stream processing) platformları, bu tür gerçek zamanlı analizlerin yapılmasına olanak sağlar.

Öngörü Modelleri ve Çok Modlu Analiz

Gelecekte, duyarlılık verilerinin yalnızca mevcut durumu yansıtmakla kalmayıp, gelecekteki piyasa hareketlerini öngörmek için de kullanılması önemli bir gelecek yönelimdir. Bu, duyarlılık endekslerini, hisse senedi fiyatları, işlem hacmi, makroekonomik göstergeler gibi diğer zaman serisi verileriyle birlikte LSTM, GRU veya Transformer tabanlı zaman serisi tahmin modellerine besleyerek mümkün olabilir [64], [73].

Sonuç

Doğal Dil İşleme teknikleri, piyasa duyarlılığını ölçmede giderek daha kritik bir rol oynamaktadır. Sosyal medya, haber makaleleri ve forum yorumları gibi yapılandırılmamış veri kaynaklarından elde edilen duyarlılık sinyalleri, yatırımcıların genel modunu ve piyasa ruh halini daha iyi anlamamızı sağlamaktadır. BERT, RoBERTa ve FinBERT gibi gelişmiş dil modelleri, duyarlılık analizinin doğruluğunu önemli ölçüde artırmıştır.

Çok kaynaklı duyarlılık analizi modelleri, farklı veri kaynaklarını entegre ederek daha güçlü ve güvenilir sonuçlar üretmektedir. Kripto Fear & Greed Index ve CSCSI20 gibi endeksler, piyasa duyarlılığını nicelleştirmede önemli araçlar haline gelmiştir. Ancak, veri kalitesi, ironi anlama ve gerçek zamanlı analiz gibi zorlukların üstesinden gelmek için daha fazla araştırma ve geliştirme gerekmektedir.

Gelecekte, gerçek zamanlı duyarlılık analizi ve öngörü modellerinin geliştirilmesi, yatırımcıların daha bilinçli kararlar almasına ve riskleri daha etkili bir şekilde yönetmesine yardımcı olacaktır. NLP tabanlı piyasa duyarlılık ölçümü, finansal analiz ve yatırım stratejilerinin vazgeçilmez bir parçası haline gelmeye devam edecektir.