Öncelikle veri (data) kelimesinden başlayalım tanıma. İngilizce ve Latincede datum kelimesinin çoğuluna verilen ad; datadır. Ham (işlenmemiş) gerçek enformasyon parçacığı da diyebiliriz.
Veri yapılandırılmış ve yapılandırılmamış olarak ikiye ayrılır. Yapılandırılmış veriye örnek;
Faturalar, banka ödemeleri, sınav sonuçları, e-devlet kayıtları vb.
Yapılandırılmamış veriye örnek; sosyal medya, web gezinmeleri, reklam tıklamaları vb.
Peki büyük veri nedir? Ne kadar büyüktür?
Büyük veri terimi teknik olarak 100 terabayt ile 1 petabayt arasındaki yelpazeyi kapsar ama sizin için verilerin miktarı değil, onu nasıl analiz ettiğiniz önemlidir.
Verinin büyüklüğüne dair bir kaç anektod aktarayım;
Dünyadaki bütün verinin %90’ı son iki yılda oluşturulmuştur.
2013’de 2.712.239.573 internet kullanıcısı, Google’da yaklaşık olarak 1,2 trilyon arama yapmıştır.
Günün her dakikasında 570’in üzerinde yeni web sitesi kurulmaktadır.
Aylık 271 milyon aktif kullanıcıya sahip olan Twitter’da günde 500 milyon tweet atılmaktadır.
200 milyon aktif aylık kullanıcısı olan Instagram’da günde 60 milyon fotoğraf paylaşılıyor.
LinkedIn, 200’ün üzerinde ülkeden 300 milyondan fazla üyeyi ve 3 milyondan fazla firmayı barındırıyor.
Büyük veri Vs. Geleneksel analitik
Bildiğimiz anlamda yani geleneksel analiz yöntemleri ve büyük veri arasında derinlemesine farklılıklar söz konusudur. Bu ayrımı yapmak adına Uluslararası Analitik Enstitüsü’nün kurucularından olan ve enstitünün araştırma direktörlüğünü yapan Prof. Dr. Thomas H. Davenport aşağıdaki gibi bir tablo oluşturmuştur.
Büyük Veri Geleneksel Analitik
Veri tipi Yapılandırılmamış
format Satır – sütun şeklinde yapılandırılmış format
Veri
hacmi 100 terabayt’tan 1 petabayt’a kadar 100 terabayt’tan daha az
Veri akışı Sürekli Statik veri havuzu
Analiz yöntemi Makine öğrenmesi Hipoteze dayalı
Birincil amaç Veriye dayalı ürünler İç karar desteği ve hizmetler
Yine Davenport’un ortaya attığı bir büyük veri bileşenleri; V (3 + 2) kuralı da kavramın tam oturmasına yardımcı olacak bir detay olarak göze çarpıyor. Davenport’a göre bu bileşenler şunlardır;
Miktar (Volume): Veri büyüklüğü artık, terabyte ve petabytedan daha büyük hale geldiğinden, depolama ve analiz süreçleri için geleneksel yaklaşımlar yetersiz kalmaktadır.
Hız (Velocity): Daha hızlı üreyen veri, o veriye muhtaç olan işlem sayısının ve çeşitliliğinin de aynı hızda artması sonucunu doğurmaktadır.
Çeşitlilik (Variety): Üretilen verinin yüzde 80’i yapısal değildir ve her yeni teknoloji, farklı formatlarda veri üretmektedir. Telefonlardan, tabletlerden, bütünleşik devrelerden gelen çeşitli veri tipi ile uğraşılması ve birbirlerine dönüşmeleri gerekmektedir.
Doğrulama (Verification): Bu bilgi yoğunluğu içinde verinin akışı sırasında güvenli olması da bir diğer bileşendir. Akış sırasında, doğru katmandan, olması gerektiği güvenlik seviyesinde izlenmesi, doğru kişiler tarafından görünebilir veya gizli kalması gerekmektedir.
Değer (Value): Büyük verinin veri üretim ve işleme katmanlarından sonra kurum içinbir artı değer yaratıyor olması, karar veriş süreçlerine anlık olarak etki etmesi, doğru kararı vermede hemen el altında olması gerekmektedir.
Büyük veri; verilerin dijitalleşmesi ve farklı boyutlarda alınan verilerin toplanıp, düzenlenmesiyle insan davranışlarını anlama, tahminler yapma ve işletmelerin sahip olduğu verilerden yola çıkarak akıllı yönetim imkânı sağlamaktadır.
Peki büyük veri neden kullanılır? Yöneticiler neden bu kadar üstüne düşüyor büyük veri projelerinin? Temelde ana hedefler şöyledir;
Maliyet tasarrufu
Zaman tasarrufu
Yeni teklifler geliştirmek
İş kararlarını desteklemek
Tabi bu hedefleri belirlediğinizde projenizin 2 aşamadan geçeceğini de bilerek adımlarınızı atmalısınız; 1. si keşif. Elinizdeki verinin tanımlanması, içeriğinin belirlenmesi, size ne gibi faydalar sağlayabileceği ilk yapmanız gereken kritik işlemdir. Daha sonra yani 2. olarak da üretim aşaması söz konusudur. Yani uygulamaları ölçeklendirerek üretim süreçlerine dahil etme adımı.
Verinin kullanımı ve analizi noktasında terminolojik olarak da değişimler söz konusu olmuştur. Bu değişimi göstermek adına aşağıdaki tablo yardımcı olacaktır.
Terim Zaman aralığı Özel anlam
Karar
desteği 1970 – 1985 Karar vermeyi destekleme için veri analizi kullanımı
Yönetici desteği 1980 – 1990 Üst düzey yönetici kararları için veri analizi kullanımı
Online analitik işlem 1990 – 2000 Çok boyutlu veri tablolarının analizi için kullanılan yazılımlar
İş zekası 1989 – 2005 Veri odaklı karar vermeyi desteklemek için kullanılan raporlama ağırlıklı araçlar
Analitik 2005 – 2010 İstatistiki ve matematiksel analiz odaklı karar verme
Büyük veri 2010 – … Çok büyük, yapılandırılmamış, hızlı hareket eden veri kullanımı
Büyük verinin sektörlere katkıları nelerdir?
İşletme: Müşteri kişiselleştirme, müşteri kaybı sebeplerini belirleme, dağıtım ve lojistik optimizasyonu
Teknoloji: İşlem süresini azaltma, gerçek zamanlı analiz, kriz dönemlerinde hızlı cevap üretme, riskleri azaltmak için otomatik sistemler ile karar verme
Sağlık: Hastalık tespiti, seyrinin takibi ve sağlığı güçlendirmek için kişisel DNA analizi yapma
Kamu Sektörü: Verilere erişilebilirlik sağlayarak şeffaflık oluşturma, uygun ürün ve hizmetler için eylemlerin uyarlanması
Perakende Satış: Mağaza davranış analizi, çeşitlilik ve fiyat optimizasyonu, ürün yerleştirme tasarımı, performansı geliştirme, işçi geliri optimizasyonu
Kişisel Konum Verileri: Akıllı yönlendirme, coğrafi hedefli reklamcılık, acil müdahale
Akıllı Şehirler: Doğal kaynakların yönetilerek, sürdürülebilir ekonomik gelişmenin ve yüksek kaliteli yaşamın sağlanması
Son olarak çok tekniğe girmeden sizlere büyük veri teknolojisinin çok hoşuma giden açıklamalı bir grafiğini sunmak istiyorum. Şekil bize verinin neden ve nasıl büyüdüğünü göstermekle birlikte büyük verinin formulünü de veriyor.
Bonus 1: Dizi, film, kitap ve makale önerilerim
Film: Moneyball (Brad Pitt, Robin Wright)
Kitap: Big Data @ Work – Thomas Davenport
Dizi: Black Mirror (özellikle 3. Sezon)
Dizi: Person of Interest (Video ve görüntü işleme konularına örnek)
TED Talks: Kenneth Cukier – Big data is better data
PDF: At the Big Data Crossroads: turning towards a smarter travel experience (Amadeus)