Yapay zeka ve makine öğrenimi algoritmalarından beklentiler arttıkça, veri etiketleme, yapay zeka projeleri için temel bir zorunluluk haline gelmeye başladı. Beklenmedik bir şekilde, veri etiketleme, yapay zeka geliştirme sürecinin ve maliyetinin büyük bir kısmını oluşturmaktadır. Cognilytica’nın veri hazırlama ve etiketleme hakkındaki raporuna göre [1], “Veri hazırlama ve etiketleme, çoğu yapay zeka ve makine öğrenimi projelerinde harcanan sürenin %80’inden fazlasını kapsıyor”. Aynı zamanda, problemin boyutu ve karmaşıklığı arttıkça maliyeti de aynı oranda artmaktadır. Ek olarak, sadece AI modellerini eğitmek için değil, aynı zamanda bu modelleri doğrulamak için de büyük miktarda veriye ve etiketine ihtiyaç duyulmaktadır.
Bir yapay zeka projesini başlatmaya karar verdikten sonra, yapay zeka ekiplerinde hemen akıllara şu soru geliyor: “Veri etiketleme aracını şirket içinde oluşturmalı ve verilerimizi dahili olarak mı etiketlemeliyiz yoksa veri etiketleme servisini üçüncü parti bir şirketten mi satın almalıyız?
Aslında, bu sorunun tek bir cevabı yok ve bu cevabı etkileyen; etiketlerin karmaşıklığı, verilerin ölçeği, uzman bilgisi gibi birçok faktör bulunmaktadır. Bu nedenle, veri etiketleme için gerekli olan temel maliyetleri listeliyor ve bu sorunun cevabını size bırakıyoruz.
Veri Etiketlemenin maliyetleri nelerdir?
Etiketleme Aracı Geliştirme: Verilerinizi etiketlemeye başlamadan önce, bir veri etiketleme ortamına ihtiyacınız vardır. Küçük ve basit görevler için, Computer Vision Annotation Tool (CVAT) veya Doccano gibi çeşitli açık kaynaklı araçlar kullanılabilir, ancak daha karmaşık problemler ve büyük veri kümeleri için, probleme özel profesyonel araçlar geliştirilmelidir. Buna ek olarak, büyük ölçekli veri kümeleri için, etiketleme aracı, görevleri çok sayıda etiketleyiciye dağıtma yeteneğine sahip olmalıdır. Örneğin, otonom bir sürüş projesi için, farklı kameralardan ve sensörlerden gelen büyük miktarda verinin, bir ortamın 3B haritasını yeniden oluşturmak için bir etiketleme aracında birleştirilmesi gerekir. Ek olarak, belki yüzlerce kişi aynı anda veri etiketleme görevi üzerinde çalışabilmelidir.
Temel işlevinin yanı sıra, veri etiketleme araçlarının kullanıcı dostu olması gerekir, böylece veri etiketleme yapan kişilerin işini kolaylaştırıp, büyük ölçekli veri etiketleme yapılabilir hale gelmelidir.
İşgücü Temini: Veri etiketleme aracını geliştirdikten sonra, etiketleyecilerinizi (çoğunlukla stajyerler) işe almanız gerekir. Tek bir kişiyi bile işe almak şirketler için zaten ağır bir yük iken bunu büyük ölçekte yapmak, yükü oldukça artırmaktadır.
Cognilytica’nın raporuna [2] göre, Üçüncü Taraf Veri Etiketlemesine harcanan her 1x dolar için, yeterince kullanılmayan insan işgücünün maliyeti dahili olarak çok daha yüksek olduğundan, dahili veri etiketleme çabalarına 5x dolar harcanmaktadır.
Çözmek istediğiniz probleminiz için insanlara ulaşmak ve etiketleme sürecini başlatmak kolay olabilir. Ancak, belirli bir süre sonra, sürekli olarak verileri etiketlemek, etiketleyenler için sıkıcı bir iş haline gelir. Sonunda, çalışanlarınızı görevlerini yerine getirmeleri için motive etme ihtiyacı ortaya çıkabilir (ve bu noktada maaş ve zam yapmak sorunu çözmeyecektir).
Uzmanlara Ulaşmak: Yapay zeka / makine öğrenimi alanlarında, birçok sorun, verileri etiketlemek için gelişmiş alan uzmanlığı gerektirir. Örneğin, tıbbi görüntü teşhisi, bankacılık / finans / hukuk / sigorta uygulamaları, belirli bir dilde dil işleme ve moda önerisi hizmetleri gibi alanlarda veri etiketlerken, ilgili alanlar kendi profesyonellerine ihtiyaç duyar. Sıradan etiketleyicilerin aksine, profesyonellere ulaşmak ve onları işe almak kolay olmayabilir ve şirketlere ekstra bir maliyet getirebilir.
Bunun yanında, şu soruyu sormak gerekir: Ya sizin spesifik probleminizin insan düzeyindeki performansı %100’ün çok altında ise? Bu durumda, tek bir alan uzmanından gelen kesin bilgi, bir AI modeli eğitmek için güvenilir olmayabilir ve farklı yaklaşımlar dikkate alınmalıdır. Birden fazla uzmana sorup cevaplarını birleştirmek bu problem için bir numaralı çözümdür. Dahası, akıllı ve yapay zeka destekli etiketleme araçları, alan uzmanlarının insan düzeyinde performansını artırmasına yardımcı olabilir.
Kapsamlı Etiketleme Talimatlarının Hazırlanması: Veri etiketleme işlemi sırasında, tutarlı ve yüksek kaliteli etiketlerin elde edilmesi için her bir etiketleyicinin birbiriyle uyumlu olduğundan emin olmanız gerekir. Bu nedenle, etiketleme ile ilgili her ayrıntı, kapsamlı bir şekilde açıklanmalıdır. Öte yandan, büyük miktarda veride sonsuz sayıda aykırı durum olabilir ve böyle bir durumda kapsamlı bir talimat listesi hazırlamak hiç de kolay olmayabilir.
Görevleri Etiketleyicilere Dağıtma: Veri etiketleme aracını geliştirdikten ve veri etiketleyenleri işe aldıktan sonra, verileri her etiketleyiciye dağıtma ve etiketleme sürecini başlatma zamanı gelmiştir. Ancak bu basit bir süreç olmayabilir. Örneğin, her bir etiketleyenin yetenekleri birbirinden farklı olabilir ve doğru görevin doğru etiketleyiciye atanması, veri etiketlemesinde önemli bir adım haline gelebilir. Ayrıca, veri örneklerini etiket belirsizliklerine göre sıralamak ve benzer verilerin sık etiketlenmesini önlemek, yeteri kadar bilinmemesine rağmen, çok önemli adımlardır.
Etiketleyicilerin Performansının Değerlendirilmesi: Veri etiketlemenin diğer bir önemli adımı, etiketleyicilerin performansının değerlendirilmesidir. Etiketleyicileri hatalarından dolayı suçlamak yerine, etiketleyicilerin yeteneklerini anlamak ve becerilerine göre doğru görevleri atamak için değerlendirme süreci önemlidir. Buna ek olarak, hayati ve hala çözülememiş bir yapay zeka problemi olan insan önyargısı, etiketleme yapılırken verilere yansıyabilmektedir. Bu nedenle, yapay zekadaki insan önyargısını veri etiketleme düzeyinden itibaren çözmeye başlıyoruz. Bu aşamada, etiketleyicilerin performansını izlemek ve değerlendirmek bu görevde çok önemli bir rol oynuyor.
Verileri Etiketlemenin Daha Akıllı Yollarını Keşfetme: Yapay zeka ve makine öğrenimindeki gelişmeler arttıkça, verileri etiketlemenin yeni ve daha akıllı yollarını keşfetme fırsatlarımız da artmaktadır. Bu fırsatları kullanarak, büyük ölçekli verilerin etiketleme süresini kısaltıp maliyetleri azaltabiliriz. Bu teknikler daha sonra ayrıntılı olarak tartışacağız.
Etiketlerin Kalitesi: Eğitim verilerinin kalitesi, yüksek doğruluktaki yapay zeka çözümleri için çok önemli bir faktördür. Veri etiketlerinin kalitesinden emin olmak için yapılması gereken birkaç şey vardır. Bunlardan ilki tek bir veri (tek bir görüntü, tek bir belge, tek bir video gibi) farklı kişiler tarafından etiketlenebilir ve nihai karar oylama mekanizması ile verilebilir. İkinci olarak, verileri etiketledikten sonra, ayrı bir ek etiketleme grubu etiketlemeleri manuel olarak doğrulayabilir. Bu yaklaşımlar, veri etiketleme görevinin ölçeğini artırsa bile, veri kalitesini iyileştirmenin en etkili yollarıdır.
Ek olarak, veri etiketlemenin kalitesini kontrol etmenin daha akıllı ve hızlı yolları vardır. Örneğin, verileri etiketleri ile birlikte görselleştirerek aykırı durumları belirlemek, yanlış etiketlenmiş veri noktalarını düzeltmek için anormallik tespiti tekniklerini kullanmak ve üçüncü bir oylama mekanizması olarak yapay zeka modellerini kullanmak, veri etiketlemenin kalitesini hızlı ve akıllı bir şekilde artırmak için en iyi tekniklerdir.
Ango AI sizin için ne yapabilir?
Ango AI, uzman etiketleyicileri ve son teknoloji yapay zeka destekli etiketleme platformu ile size en yüksek kalitede eğitim verileri sağlar. Metin, görüntü, video ve belge etiketlemesinde uzmanlaşmış araçlarımız, insan etiketleyicilerimizin işini kolay ve etkili hale getirir, böylece zahmetsizce AI ve ML geliştirmeye odaklanabilirsiniz.
Referanslar
[1] https://www.cognilytica.com/2020/01/31/data-preparation-labeling-for-ai-2020/
[2] https://www.cognilytica.com/2019/03/06/report-data-engineering-preparation-and-labeling-for-ai-2019/
[3] https://www.pexels.com/tr-tr/fotograf/insanlar-kadin-teknoloji-doktor-4226264/