Veri madenciliği (data mining) nedir?

veri madenciliği nedir

Eski zamanlarda bilgilerin kaydedilebilmesi için yazı kullanılıyordu ve bu yazılar belirli kümeler halinde saklanarak, gerektiği zaman bilgiye ulaşmak mümkün oluyordu. Zamanla özellikle teknolojinin hayatımıza bilgisayarları sokması ile bu somut bilgi kaydından daha soyut bir bilgi toplama alanına geçiş yaptık. Bilgisayarların hayatımıza girmesi ile artık bilgilerimizi elektronik ortamlara kaydedebiliyor ve istediğimiz zaman oldukça hızlı sonuç veren arama yöntemleri ile bu bilgilere ulaşabiliyoruz. Ancak elbette bilgi kaydının geçmişe göre kolaylaşması ile bu daha fazla bilginin toplanabilmesine de yol açtı. Özellikle elektronik ortamda milyarlarca bilgi verisi sürekli bir şekilde toplanıyor ve kayıt altına alınıyor. Veri madenciliği yani data mining olarak da andığımız işlem ise tam olarak bu noktada devreye giriyor. Veri madenciliği nedir? Ve bize ne gibi bir imkan sağlar?

Madencilik ilk anlamı ile düşündüğümüzde, toprağın altındaki değerli madenleri bulmamıza yarar. Toprağın altında toprak ile birlikte değerli madenler bulunur ve madenlerin oranı toprağa göre daha azdır. Ve bu madenlerin topraktan ayırt edilip seçilmesi gerekir ki kullanılabilsin. Veri Madenciliği en basit tanımı ile milyarlarca veriye sahip olan yazılım sistemlerinden, önemli ve değerli verileri ortaya çıkarma işine verilen addır.  Günümüzde kurumların neredeyse tamamı elektronik altyapıları kullanmakta ve hizmetlerini elektronik olarak verebilmektedirler. Bu süreçte alınan her bilgi kayıt altına alınır ve bunlar büyük veri havuzlarını oluşturur. Ancak oldukça fazla veriye sahip bu alanlarda verilen işlenebilmesi ve verilere yönelik çalışmaların gerçekleştirilebilmesi için değerli görülen verilerin diğerlerinden ayrılması gerekir. 

Veri madenciliği yöntemleri incelendiğinde belirli bir süreç olarak bunlardan bahsetmek mümkündür. Veri madenciliği belli adımlar ile sonuca ulaşır. Veri madenciliği için öncelikle bir veri yığınına ihtiyacımız vardır. Bu veri yığınından belirli bir hedefe yönelik veriler seçilir ve hedef olarak elde edilen veriler işlenme sürecine girer. Bu ön işleme sonucunda bir ön işlem grubu elde edilir. Ön işlem grubu ise dönüştürülür. Dönüştürülen bu veriler için veri madenciliği devreye girer ve seçilen veriler ile örnek modeller ortaya konur. Bu örnek modeller ile kurumlar kendileri için önemli olan sonuçlara ulaşabilirler. 

Veri madenciliği programları neler diye bakacak olursak aslında birçok programın kullanılması söz konusudur. Çeşitli yazılım dilleri bu uygulama esnasında kullanılabilir. Yazılım dillerinin yanı sıra veri madenciliği için belirli yetilere de sahip olmak gerekir. Bu süreçte ise makineler sorumluluk üstlense de elbette iyi bir sonuç için bu iş ile ilgilenen kimselerin de yeterli donanıma sahip olması gerekir.  Makine öğrenmesi olarak karşımıza çıkan yapay zekâ sistemleri, verilerin sınıflandırılması ve işlenebilmesi için kullanılır. Yapay sinir ağları, veri görselleştirme, istatistik ve diğer disiplinler veri madenciliği ile ilgili sonuç alabilmek açısından önemlidir. Veri madenciliği için ileri bir seviyede matematik, lineer cebir ve istatistik bilgisi gereklidir. Tüm bunlar sayesine milyarlarca verilerden oluşan karmaşık yığınlar, belirli veri grupları haline gelebilir ve işlenerek kullanılabilir şekle dönüşür. Elde edilen verileri doğru işleyebilmek ve bu veriler ile ihtiyaçlara karşılık verebilmek günümüzde oldukça önemlidir. Firmalar, küçük işletmeler hatta blog yazarları bile verileri analiz edebildikleri ölçüde daha başarılı olabilirler. Veri madenciliği şirketlerin geleceği, üretim ve taleplerin karşılanması açısında önemlidir. Yapılan çalışmaların da ortaya koyduğu gibi veri madenciliği sayesinde daha iyi üretim yapmak ve gelişim mümkündür.