Veri Etiketlemede Dış Kaynak Kullanımının Avantajları Nelerdir?

tarafından Kas 23, 2020

Yapay zeka ve makine öğrenimi algoritmalarından beklentiler arttıkça, veri etiketleme, yapay zeka projeleri için temel bir zorunluluk haline gelmeye başladı. Beklenmedik bir şekilde, veri etiketleme, yapay zeka geliştirme sürecinin ve maliyetinin büyük bir kısmını oluşturmaktadır. Cognilytica’nın veri hazırlama ve etiketleme hakkındaki raporuna göre [1], “Veri hazırlama ve etiketleme, çoğu yapay zeka ve makine öğrenimi projelerinde harcanan sürenin %80’inden fazlasını kapsıyor”. Aynı zamanda, problemin boyutu ve karmaşıklığı arttıkça maliyeti de aynı oranda artmaktadır. Ek olarak, sadece AI modellerini eğitmek için değil, aynı zamanda bu modelleri doğrulamak için de büyük miktarda veriye ve etiketine ihtiyaç duyulmaktadır.

Bir yapay zeka projesini başlatmaya karar verdikten sonra, yapay zeka ekiplerinde hemen akıllara şu soru geliyor: “Veri etiketleme aracını şirket içinde oluşturmalı ve verilerimizi dahili olarak mı etiketlemeliyiz yoksa veri etiketleme servisini üçüncü parti bir şirketten mi satın almalıyız? 

Aslında, bu sorunun tek bir cevabı yok ve bu cevabı etkileyen; etiketlerin karmaşıklığı, verilerin ölçeği, uzman bilgisi gibi birçok faktör bulunmaktadır. Bu nedenle, veri etiketleme için gerekli olan temel maliyetleri listeliyor ve bu sorunun cevabını size bırakıyoruz.

Veri Etiketlemenin maliyetleri nelerdir?

Etiketleme Aracı Geliştirme

Verilerinizi etiketlemeye başlamadan önce, bir veri etiketleme ortamına ihtiyacınız vardır. Küçük ve basit görevler için, Computer Vision Annotation Tool (CVAT) veya Doccano gibi çeşitli açık kaynaklı araçlar kullanılabilir, ancak daha karmaşık problemler ve büyük veri kümeleri için, probleme özel profesyonel araçlar geliştirilmelidir. Buna ek olarak, büyük ölçekli veri kümeleri için, etiketleme aracı, görevleri çok sayıda etiketleyiciye dağıtma yeteneğine sahip olmalıdır. Örneğin, otonom bir sürüş projesi için, farklı kameralardan ve sensörlerden gelen büyük miktarda verinin, bir ortamın 3B haritasını yeniden oluşturmak için bir etiketleme aracında birleştirilmesi gerekir. Ek olarak, belki yüzlerce kişi aynı anda veri etiketleme görevi üzerinde çalışabilmelidir.

Temel işlevinin yanı sıra, veri etiketleme araçlarının kullanıcı dostu olması gerekir, böylece veri etiketleme yapan kişilerin işini kolaylaştırıp, büyük ölçekli veri etiketleme yapılabilir hale gelir.

İşgücünü İşe Alma

Veri etiketleme aracını geliştirdikten sonra, etiketleyecilerinizi (çoğunlukla stajyerler) işe almanız gerekir. Tek bir kişiyi bile işe almak şirketler için zaten ağır bir yük iken bunu büyük ölçekte yapmak, yükü oldukça artırmaktadır.

Cognilytica’nın raporuna [2] göre, Üçüncü Taraf Veri Etiketlemesine harcanan her 1x dolar için, yeterince kullanılmayan insan işgücünün maliyeti dahili olarak çok daha yüksek olduğundan, dahili veri etiketleme çabalarına 5x dolar harcanmaktadır.

Çözmek istediğiniz problem için insanlara ulaşmak ve etiketleme sürecini başlatmak kolay olabilir. Ancak, bir süre sonra, sık sık ve sürekli olarak verileri etiketlemek, etiketleyenler için daha ağır bir görev haline gelir. Sonunda, çalışanlarınızı görevlerini yerine getirmeleri için motive etme ihtiyacı ortaya çıkabilir (ve bu noktada maaş ve zam yapmak sorunu çözmeyecektir).

Uzmanlara Ulaşmak

Yapay zeka / makine öğrenimi alanlarında, birçok sorun, verileri etiketlemek için gelişmiş alan uzmanlığı gerektirir. Örneğin, tıbbi görüntü teşhisi, bankacılık / finans / hukuk / sigorta uygulamaları, belirli bir dilde dil işleme ve moda önerisi hizmetleri gibi görevler, ilgili alanların profesyonellerine ihtiyaç duyar. Sıradan etiketleyicilerin aksine, profesyonellere ulaşmak ve onları işe almak kolay olmayabilir ve şirketlere ekstra bir maliyet getirebilir.

Bunun yanında, şu soruyu sormak gerekir: Ya sizin spesifik probleminizin insan düzeyindeki performansı %100’ün çok altında ise? Bu durumda, tek bir alan uzmanından gelen kesin bilgi, bir AI modeli eğitmek için güvenilir olmayabilir ve farklı yaklaşımlar dikkate alınmalıdır. Birden fazla uzmana sorup cevaplarını birleştirmek bu problem için bir numaralı çözümdür. Dahası, akıllı ve yapay zeka destekli etiketleme araçları, alan uzmanlarının insan düzeyinde performansını artırmasına yardımcı olabilir.

Kapsamlı Etiketleme Talimatlarının Hazırlanması

Veri etiketleme işlemi sırasında, tutarlı ve yüksek kaliteli etiketlerin elde edilmesi için her bir etiketleyicinin birbiriyle uyumlu olduğundan emin olmanız gerekir. Bu nedenle, her bir ayrıntı, kapsamlı bir şekilde açıklanmalıdır. Öte yandan, büyük miktarda veride sonsuz sayıda aykırı durum olabilir ve kapsamlı bir talimat listesi hazırlamak hiç de kolay olmayabilir.

Görevleri Etiketleyicilere Dağıtma

Veri etiketleme aracını geliştirdikten ve veri etiketleyenleri işe aldıktan sonra, verileri her etiketleyiciye dağıtma ve etiketleme sürecini başlatma zamanı gelmiştir. Ancak bu basit bir süreç olmayabilir. Örneğin, her bir etiketleyenin yetenekleri birbirinden farklı olabilir ve doğru görevin doğru etiketleyiciye atanması, veri etiketlemesinde önemli bir adım haline gelebilir. Ayrıca, veri örneklerini etiket belirsizliklerine göre sıralamak ve benzer verilerin sık etiketlenmesini önlemek, yeteri kadar önem verilmemesine rağmen, çok önemli adımlardır.

Etiketleyicilerin Performansının Değerlendirilmesi

Veri etiketlemenin diğer bir önemli adımı, etiketleyicilerin performansının değerlendirilmesidir. Etiketleyicileri hatalarından dolayı suçlamak yerine, etiketleyicilerin yeteneklerini anlamak ve becerilerine göre doğru görevleri atamak için değerlendirme süreci önemlidir. Buna ek olarak, hayati ve hala çözülmemiş bir yapay zeka sorunu olan insan önyargısı, etiketleme yapılırken verilere yansıyabilir. Bu nedenle, yapay zekadaki insan önyargısını veri etiketleme düzeyinden itibaren çözmeye başlıyoruz ve etiketleyicilerin performansını değerlendirmek bu görevde çok önemli bir rol oynuyor.

Verileri Etiketlemenin Daha Akıllı Yollarını Keşfetme

Yapay zeka ve makine öğrenimindeki gelişmeler arttıkça, verileri etiketlemenin yeni ve daha akıllı yollarını keşfetme fırsatları da artıyor. Bu fırsatları kullanarak, büyük ölçekli verileri etiketleme süresini ve maliyetini azaltabiliriz.

Kalite

Eğitim verilerinin kalitesi, yüksek doğruluktaki yapay zeka çözümleri için çok önemli bir faktördür. Veri etiketlerinin kalitesinden emin olmak için yapılması gereken birkaç şey vardır. Bunlardan ilki tek bir veri (tek bir görüntü, tek bir belge, tek bir video gibi) farklı kişiler tarafından etiketlenebilir ve nihai karar oylama mekanizması ile verilebilir. İkinci olarak, verileri etiketledikten sonra, ayrı bir ek etiketleme grubu etiketlemeleri manuel olarak doğrulayabilir. Bu yaklaşımlar, veri etiketleme görevinin ölçeğini artırsa bile, veri kalitesini iyileştirmenin en etkili yollarıdır.

Ek olarak, veri etiketlemenin kalitesini kontrol etmenin daha akıllı hızlı yolları vardır. Örneğin, verileri etiketleri ile birlikte görselleştirerek aykırı durumları belirlemek, yanlış etiketlenmiş veri noktalarını düzeltmek için anormallik tespiti teknikleri uygulamak ve üçüncü bir oylama mekanizması olarak yapay zeka modellerini kullanmak, veri etiketlemenin kalitesini akıllıca artırmak için en iyi tekniklerdir.

Ango AI sizin için ne yapabilir?

Ango AI, uzman etiketleyicileri ve son teknoloji yapay zeka destekli etiketleme platformu ile size en yüksek kalitede eğitim verileri sağlar. Metin, görüntü, video ve belge etiketlemesinde uzmanlaşmış araçlarımız, insan etiketleyicilerimizin işini kolay ve etkili hale getirir, böylece zahmetsizce AI ve ML geliştirmeye odaklanabilirsiniz.

Referanslar

[1] https://www.cognilytica.com/2020/01/31/data-preparation-labeling-for-ai-2020/

[2] https://www.cognilytica.com/2019/03/06/report-data-engineering-preparation-and-labeling-for-ai-2019/

[3] https://www.pexels.com/tr-tr/fotograf/insanlar-kadin-teknoloji-doktor-4226264/

Ücretsiz Deneyin

Ango’nun sağladığı veri etiketleme servisini hızlı ve ücretsiz şekilde
denemek ister misiniz?