Ana içeriğe atla

Veri Ambarı (Data Warehouse) Nedir?

Verilerin çok olması bu verilerin faydalı veriler olduğu anlamına gelmez. Bu verileri işleyebilecek, üzerinde analizler yapabileceğimiz forma dönüştürdüğümüz zaman bu veriler pahalı veri haline dönüşür.
Günümüz teknoloji dünyasında veriler her yerde. Tüm teknoloji firmaları ürettikleri verileri bu veya diğer şekilde dijital ortamlarda tutuyor. Ama bu verileri işleyebilmek ayrı bir dünyanın kapısını aralar. Bu da veri bilimi dünyasıdır. 



Veri Ambarı Nedir?

Bu makalemizde veri biliminin en önemli konularından biri olan veri ambarı yani data warehouse nedir konusu işleyeceğiz. Öncelikle veri ambarının teorik tanımı ile başlayıp konuyu gerçek hayattaki örneklerle devam edeceğim.



Veri Ambarı değişik veri kaynaklarından olan verileri analiz etme ve sonuç çıkarma amaçlı bir araya getirilmesidir.



Tanım içinde bir kaç anahtar kelime yer alsa da sadece tanım üzerinden gidildiğinde bunlar havada kaldığı çok aşikardır. Bunun için bu anahtar kelimelerin detaylı açıklamaları için tanımı açarak devam edelim. Öncelikle veri ambarının en önemli özelliği çoklu veri kaynağından beslenmesidir. Ki, OLTP teknolojilerinden en temel farkı da budur. Genelde veri tabanları tek amaca yönelik verileri tutmak için kullanılan teknolojilerdir. Veri ambarları için veri kaynakları veri tabanları(Oracle, SQL Server, IBM DB2, PostgreSQL ve b.), NoSQL veritabanları, Mail Server verileri, Excel tabloları, Word Belgesi, Diğer uygulama verileri, Log Dosyaları aklınıza gelebilecek tüm veri kaynakları olabilir. Özetle ne veriniz varsa bu, veri ambarı için veri kaynağıdır. Veri kaynaklarının farklılığı veya veri tabanı teknolojisi olmaması sadece bu verileri dönüştürme ve veri ambarlarına yükleme sürecini etkiler. Ki bu süreçler de ETL ve Pre-Processing süreçleridir. (Bu makalemde bu konulara detaylı yer vermesem de ilgili linklere tıklayarak konuyla alakalı detaylı bilgi alabilirsiniz)

Buradan konuyu kısaca özetleyecek olursak veri ambarı nedir sorusunun birinci yanıtı birden çok farklı veri kaynaklarını bir araya getiren teknolojidir diyebiliriz. Buradan da ikinci önemli soru ortaya çıkar. Bu verileri neden bir araya getiriyoruz?


Değişik veri kaynakları ile çalışırken siz de göreceksiniz ki veri ambarlarını oluşturma süreçleri gerçekten zahmetli ve ciddi bir efor sarf ederek oluşturulan yapılardır ki bu da ciddi kaynak tüketimi demektir. Yani bu işe başlamadan önce yanıtlanması gereken önemli sorulardan bir tanesi oluşturacağınız veri ambarı ile hangi soruları yanıtlayacağınız, aynı zamanda karşınıza daha sonra hangi soruların çıkabileceği tahminidir. Bu da bir anlamda iş zekası yani Business Intelligence alanıdır. (Konuyu ayrıntılı anlattığım makaleye buradan erişebilirsiniz...)


Veri bilimi alanı istatistik, matematik, programlama, teknoloji, yönetim, mantık, ilişki kurma, sonuç odaklı çalışma ve birçok alanı içinde barındıran komplike bir konudur. Veri ambarları ise bu işin bir anlamda orta süreçlerinde yer alır. Veri ambarı cevaplanması gereken sorular için veri kaynağıdır. Bu süreçlere kısa değinecek olursak önce cevaplanması gereken soruların belirlenmesi, veri kaynaklarının analiz edilmesi ve gerekli verilerin belirlenmesi, verilerin işlenebilecek düzeye getirilmesi, hatalardan arındırılması, ETL süreçleri ve veri ambarına yüklenmesi, en sonda ise bu verilerinden OLAP Query'lerle verilerin sorgulanması...



Veri Ambarı Oluşturma Süreçleri

Görüldüğü gibi Veri Ambarı bu işin sondan hemen önceki sürecidir. Bu makaleyi okuyorsanız da en azından süreçlerle ilgili de bilgi sahibi olmuşsunuzdur. Konunun detaylı anlatıldığı "Veri Ambarı Veri İşleme Süreçleri" makalesine de göz atmanızı tavsiye ederim.
Veri ambarı için yukarıda verilen tanımın ikinci kısmında yer alan "analiz etme ve sonuç çıkarma amaçlı bir araya getirilmesi" konusunu de elimden geldiği kadar açıklamaya çalıştım. Buradan bir veri ambarının en temel özellikleri nedir diye sorulduğunda buna vereceğimiz ikinci yanıt ise veri ambarlarının analiz ve sonuç çıkarma amacıyla veri kaynaklarının bir araya getirilmesi olarak yanıtlayabiliriz...


Son olarak veri ambarları için kullanılan OLAP(Online Analytical Processing) konusuna değinmek istiyorum. OLAP teknolojileri veri ambarlarının saklandığı ortamlara verilen genel isimdir.ROLAP, MOLAP, HOLAP, DOLAP olmak üzere dört türü vardır. Bu konuları da merak ediyorsanız ilgili linklere tıklayabilirsiniz...

Bu kadar anlatımdan sonra size veri ambarlarının kullanıldığı bir gerçek hayat problemini sunacağım. Bu problem size veri ambarının ne olduğunu açıklayabileceğini düşünüyorum.

"Bir havayolu firmasında iş analisti olarak çalışıyorsunuz. Firma yöneticileri size gelecek yıl hangi şehirlere yeni hatlar açılması gerektiğini, hangi hatlarının sıklıklarının artırılması ve ya azaltılması, hangi hatların iptal edilmesi, gelecek sene kaç tane uçak almamız gerektiği, mevcut personel sayımızın gelecek sene için yeterli olup olmayacağı ve b. sorular yönelttiğinde nasıl bir yol izleyeceksiniz?"
...

Son olarak konuyu özetleyecek olursak makalede veri ambarı nedir ve bir anlamda veri ambarlarının kullanıldığı iş zekası alanında yerini vurgulayarak veri ambarı tanımını vermeye çalıştım. Makelenin konuya başlangıç yapanlar için biraz anlaşılması zor olabileceğinin farkındayım ki bu alanla uğraşmak, bu alanda kendinizi geliştirmek istiyorsanız anlatılan konular zamanla yerine oturacaktır. Konuyla alakalı sorularınız olursa bana yazabilirsiniz...

Yorumlar

  1. Güzel bir içerik olmuş. Web sitenizde ilgimi çeken alan adınız ile web site isminiz uyuşmaması, Pewat logonun altına 'mühendisler dünyası' yazsanız daha iyi olur. En azından isminiz daha kalıcı olur.

    YanıtlaSil

Yorum Gönder

Bu blogdaki popüler yayınlar

Azərbaycan Dilində Vurğu Qəbul Etmeyen Şekilçiler

Sözlərdə hecalardan birinin digərlərinə nisbətən daha qüvvətli deyilməsinə heca vurğusu deyilir. Üzərinə vurğu düşən hecaya isə vurğulu heca deyilir. Azərbaycan dilində vurğu adətən söz sonuna düşür. Söz şəkilçi qəbul ederkən vurğu adətən şəkilçinin üzərinə keçir. Məsələn: çiç ə k - çiçəkl ə r - çiçəklərd ə n məkt ə b - məktəbl i - məktəblil ə r - məktəblilərd ə n Buna baxmayaraq dilimizdə bir sıra şəkilçilər var ki onlar vurğu qebul etmirlər. Bu məqalədə Azərbaycan dilində vurğu qebul etməyən şəkilçilər incələnəcək ve bu şekilçilərin hansı hallarda vurğu qebul edib hansı hallarda vurğu qebul etmediyi araşdırılacaqdır. Eyni zamanda bildirmək istəyirəm ki vurğu ilə bağlı daha geniş və ətraflı məlumat üçün Azərbaycan Dilində Vurğunun Praktik Məsələləri adlı məqaləyə də nəzər yetirə bilərsiniz.  1. İsimlərdəki şəxs(xəbərlik) şəkilçiləri Məsələn: müəli'məm müəli'msən müəli'mdir müəli'mik müəli'msiniz müəli'mdirlər Qeyd: -dır4

Ağaçlar Kireçle veya Badana İle Neden Boyanır?

Ağaçlar kireçle boyanmasının veya badana yapılmasının hem çevreye hem de doğaya, ağaçlara faydası var. Bu makalede bu geleneği enine boyuna tartışmaya çalıştık. Ağaca zarar veren mikrop ve bakterileri öldürür. Ağacı çok aşarı soğuk havalarda ve çok aşırı sıcak havalarda korur. Ağacın çürümesini ve kurtlanmasını önler. Ağacın gövdesinin alabileceği zararları en az düzeyde düşürmeyi sağlar. Hoş, güzel, hijyenik, temiz pırıl pırıl bir görüntü oluşturur. Ayrıca çok sıcak havalarda da ağacı yanmaya karşı korumak. En büyük etkisi soğuk havalarda ağacı don vurmalarına karşı korumak . Küresel ısınma göz önüne alındığında mevsim değişiklikleri ani don, ani ısı artışları ve azalışları sonucunun doğuracağı etkenler için yararlı etkin bir yöntem. Gövdeden obur dalların çıkmasını azaltmak için sürülür. Kireçleme ağaçları güneş yanığından korumak için yapılıyor. Ağaçlar da güneşten yanabiliyorlar. Bu arada odun dokudaki gözenekleri doldurarak kapattığı için, zararlıların yuv

Medyan (Ortanca) Nedir? Nasıl Hesaplanır? Nerelerde Kullanılır?

Medyan işlemi olasılık hesaplamalarında sıkça kullanılan bir sayı dizisinin ortalamasını hesaplamak için alternatif yöntemlerden bir tanesidir. Ortanca medyan işleminin diğer adıdır. Matematiksel olarak medyan işlemi bir sayı dizisi küçükten büyüğe sıralayarak ortada kalan elemanı medyan değeri olarak belirleme işlemidir. Örnek verecek olursak: 2, 1, 5, 4, 5, 1, 2, 3, 5 serisi sıralanırsa 1, 1, 2, 2, 3, 4, 5, 5, 5 serisi elde edilir. Bu seri 9 elemanlı olduğundan ortadaki, yani 5. eleman (medyan) olacaktır. 5. eleman 3 sayısıdır. Yani ortanca değeri 3'dür Eleman sayısı tek sayı olan bir seride medyan değerin sırasının hesaplaması şu şekilde formüle edilir. Medyanın Sırası = (Eleman Sayısı + 1) / 2 Bu formülü yukarıdaki örneği uygulayacak olursak; Medyanın Sırası = (9 + 1) / 2 = 5 Veri serisi eleman sayısı bir çift sayı ise bu durumda serinin 2 medyanı olacaktır. Örneğin 2, 1, 5, 4, 5, 1, 2, 3, 5, 4 serisi sıralandığında 1, 1, 2, 2, 3, 4, 4, 5, 5, 5 s