5 Temel Soruda Veri Madenciliği (Data Mining) Nedir?

5 Temel Soruda Veri Madenciliği (Data Mining) Nedir?

Günümüzde teknoloji şirketleri ve kurumlar büyük veriler üzerine çalışmaktadır. Büyük bir veri yığınından yararlı bilgiyi çekip çıkarabilmek ise oldukça zahmetli bir iştir. Madencilik sonucunda edinilen kazanımları göz önünde bulundurursak şirketler için sadece sahip oldukları verileri değil dışarıdan alınan verileri de koruyabilmek ve işleyebilmek son derece hassas bir konu haline gelmiştir. 

 

Haydi, 5 temel soruda Veri Madenciliği’ni inceleyelim. 

 

Basit Tanımı Nedir?

Kurumlardaki büyük ölçekli olarak tanımlanan ve milyonlarca veriye sahip yazılım sistemlerinden, ihtiyacı karşılayacak değerli verilerin elde edilmesi işlemine Veri Madenciliği denilmektedir. Bu sayede veriler arasındaki ilişkileri ortaya koymak ve gerektiğinde ileriye yönelik doğru tahminlerde bulunmak mümkün hale gelmektedir. Veri Madenciliği’nde milyarca veri üzerinde çalışılabilir. Madenciliğin temel amacının, kurumlardaki karar destek mekanizmaları olarak adlandırılan sistemler için değerli olan veriyi belirli yöntemler ve işlem süreçleri sonrası ortaya çıkarmak olduğunu söyleyebiliriz.

Uygulama Alanları Nelerdir?

Son 10 yılda piyasadaki hemen her alanda çeşitli şekillerde Veri Madenciliği yapılmaktadır. Madencilik; her türlü elektronik ortama dayalı işte, pazarlamacılıkta, bankacılık ve sigortacılıkta artık temel bir disiplin haline gelmiştir. Örneğin pazarlama alanında kullanılan Veri Madenciliği sistemi, müşterilerin satın alma alışkanlıklarını tespit ederek bunlara yönelik stratejiler izlemektedir. Müşterilerin yaş, eğitim, cinsiyet ve lokasyon gibi temel özelliklerinin incelenmesiyle ortaya çıkan satış tahminleri ve pazar sepeti analizleri, sektöre oldukça fayda sağlamaktadır.

 

Nasıl Bir Süreç İzlenmektedir?

Elde edilmek istenen verinin büyüklüğü ve buna bağlı olarak gerçekleşen işleme işleminin uzunluğuna göre farklı büyüklüklerde süreçler izlense de genel olarak Veri Madenciliği’nin ilerleme sistemini şu şekilde ifade edebiliriz:

  • Veri yığınını elde etme ve güvenliğini sağlama
  • Veri Temizleme (Smoothing)
  • Veri Bütünleştirme (Damy-Optimization)
  • Veri İndirgeme
  • Veri Dönüştürme (Normalization)
  • İlgili Veri Madenciliği Algoritmaları Uygulama (Kümeleme, Sınıflandırma, Karar Destek Ağaçları)
  • Sonuçları ilgili yazılım dillerinde test ve eğitim aşamasına sokma (R, Python, Java - Makine öğrenmesine giriş)
  • Sonuçların değerlendirilmesi ve sunulması

Veri Madenciliği Yapabilmek İçin Hangi Becerilere Sahip Olmak Gerekir?

Milyonlarca hatta bazen milyarlarca farklı özelliğe sahip veri üzerinde çalışma yapmak, sabır ve dayanıklılık gerektirmektedir. Bilgisayar sistemlerinde sıklıkla karşılaşılan birbirinden bağımsız hatalara ve verilerde meydana gelen ani değişimlere karşı veriyi koruyabilmek çok fazla dikkat gerektirmektedir. İleri seviyede matematik, istatistik, lineer cebir, optimizasyon bilgisi, yöneylem modelleme teknikleri ve gelişmiş yazılım becerisine sahip olmak ise olmazsa olmazdır. Yazılım dillerinden Veri Madenciliği için en uygun olanlar R ve Python dilleridir. Bazı test aşamaları ve deneme işlemleri yapmak için ise Java dili kullanılabilir.

Gelecekte Bizi Ne Bekliyor?

Kişisel bilgilere göre sunulan hizmet anlayışının hemen her sektördeki firmaların ortak paydası haline gelmesi, veriyi doğru elde etme ve işleme zorunluluğunu beraberinde getirmiştir. Örneğin telefonlarınızdan yaptığınız bir ayakkabı araması sonrasında gireceğiniz sitelerdeki reklamların ayakkabı reklamları olmasına, hatta belirli ayakkabı şirketlerinden kısa mesajlar almanıza neden olabilmektedir.  Yapılan araştırmalar, teknolojiye hakim olma düzeyinin artık veriyi doğru kullanma ve işleme becerisiyle orantılı olacağını ortaya koymuştur.