Teknolojinin hız kesmeden gelişmesiyle verinin üretimi, depolanması ve erişimi oldukça kolaylaşmaktadır. Yığılan bu veriler anlamlı bir bilgiye dönüşmediği sürece değersizdir. Veri madenciliği, verilerin işlenmesi ile verilere anlam kazandırmak için gerekli işlemlerden geçirilerek bilgiye dönüştürmek işlemidir.
“Veri madenciliği” ifadesini kullanan ilk makalelerden biri, 1983 yılında Michael C. Lovell tarafından yayımlanmıştır. Veri madenciliğini genel olarak anlatmak gerekirse; büyük miktarda verinin içerisinden anlamlı sonuçlar çıkartabilmek çeşitli yöntemlerle işlenmesi ve anlamlı hale gelmesidir. Kurumlardaki büyük ölçekli veriye sahip yazılım sistemlerinden, ihtiyacı karşılayacak değerli verilerin elde edilmesi işlemidir. Bu sayede veriler arasındaki ilişkiler ortaya konulur ve geleceğe yönelik tahminler gerçekleştirilebilir. Madenciliğin amaçlarından biri de kurumlardaki karar destek mekanizmaları olarak adlandırılan sistemler için değerli olan veriyi belirli yöntemler ve işlem süreçleri sonrası ortaya çıkarmak olduğunu söylenebilir.
Veri madenciliği disiplinler arası bir çalışmadır. İstatistik, veri tabanı teknolojileri, makina öğrenmesi, yapay zekâ ve görselleştirme gibi birçok farklı disiplin bünyesinde gelişen yöntemleri kullanır. İleri seviyede matematik, istatistik, lineer cebir, optimizasyon bilgisi, yöneylem modelleme teknikleri ve gelişmiş yazılım becerisine sahip olmak gerekmektedir. Yazılım dillerinden Veri Madenciliği için en uygun olanlar ise R ve Python dilleridir.
Veri madenciliği hemen her alanda çeşitli şekillerde yapılmaktadır. Madencilik; her türlü elektronik ortama dayalı işte, pazarlamacılıkta, bankacılık ve sigortacılıkta artık temel bir disiplin haline gelmiştir.
Veri madenciliği sayesinde:
- İnternet işlemleri anlamlandırılabilir.
- Müşterilerin satın alma alışkanlıkları belirlenebilir.
- Müşterilerin demografik özellikleri belirlenebilir ve özellikleri arasındaki bağlantıların bulunması gerçekleştirilebilir.
- Müşteri sadakati sağlanabilir, müşteri portföyü genişletilebilir.
- Satış tahminleri yapılabilir.
- Tıpta Bazı hastalıkların tanısının konmasında karar destek sistemi olarak ya da bazı tedavilerin hastaya özgü planlanmasında kullanılabilir.
- Sporda Futbol ve Basketbol’da rakip taktiklerini belirlemek vb. gibi genişletilebilir örneklerle uygulama alanı oldukça geniştir.
Veri Madenciliği İşlemleri
Verinin büyüklüğü ve buna bağlı olarak gerçekleşen işleminin uzunluğuna göre farklı büyüklüklerde süreçler izlense de genel olarak Veri Madenciliğinin ilerleme sistemi aşağıdaki şekildedir:
Veri Temizleme: Gürültülü, tutarsız ve eksik verilerin temizlenme sürecidir.
Veri Bütünleştirme: Birçok veri kaynağını birleştirmektir.
Veri Seçme: Probleme ilişkin olan verileri seçme sürecidir.
Veri Dönüşümü: Verinin veri madenciliği tekniğinden kullanılabilecek hale dönüşümünü gerçekleştirmek erinin uygun formlara dönüştürülmesidir.
Veri Madenciliği: Veri örüntülerini yakalayabilmek için akıllı metotları uygulamaktır.
Örüntü Değerlendirme: Bazı ölçümlere göre elde edilmiş bilgiyi temsil eden ilginç örüntüleri tanımlamaktır.
Bilgi Sunumu: Veri Madenciliği ile elde edilmiş bilginin kullanıcıya sunumunu gerçekleştirmektir.
Tüm bu aşamalarda veri madenciliği farklı disiplinlere gereksinim duyar. Son yıllarda büyük atılımların yapılmasını sağlayan makine öğrenimi ve yapay zekâ veri madenciliği için büyük bir öneme sahip olmuştur. Tüm bu disiplinlerle veri madenciliği; dijital verileri sınıflamak, yorumlamak, satışlarını arttırmak ve müşterilerin ihtiyaçlarına tam zamanında eksiksiz yanıtlar verip varlığını güçlendirmek isteyen firmalar için büyük bir önem taşır.
Veri Madenciliği Teknikleri:
Büyük veri yığınları içerisinden gelecekle ilgili tahminde bulunabilmemizi sağlayacak bağıntıların bilgisayar programı kullanarak ortaya çıkarılmasını gerçekleştiren veri madenciliğinde kullanılan tekniklerden bazıları:
- Doğrusal regresyon
- Lojistik regresyon
- Zaman serisi
- Regresyon ağaçlarının sınıflandırılması
- Nöral ağlar
- K-en yakın komşusu
- Kümeleme
- Birliktelik analizi
- Temel bileşenler Analizi
Günümüzde teknoloji şirketleri ve kurumlar büyük veriler ile çalışmaktadır. Büyük bir veri yığınından yararlı bilgiyi çıkarabilmek ise zahmetli bir iştir. Bu verilerin güvenliği de ayrı bir unsur olmaktadır. Şirketlerin veri madenciliği kullanımı birçok tüketiciyi rahatsız edebilmektedir. Şahısların veri gizliliği endişeleriyle ilgili olarak Avrupa’da, Genel Veri Koruma Yönetmeliği (GDPR) yürürlüğe girdi ve AB vatandaşları ile ilgili herhangi bir veri içeren her kuruluşu da etkilemektedir.