Veri etiketleme nedir?
İnsan gibi davranan yapay zeka veya makine öğrenimi modelleri oluşturmak için büyük miktarda eğitim verisine ihtiyaç duyulmaktadır. Bir modelin karar verip eyleme geçmesi için belirli bilgileri anlayacak şekilde eğitilmesi gerekir. Veri etiketleme, yapay zeka uygulamaları için verileri bilgiye dönüştüren bir süreçtir. Eğitim verileri, belirli bir kullanım senaryosu için uygun şekilde sınıflandırılmalı ve etiketlenmelidir. Yüksek kaliteli veri etiketleme ile şirketler, yeni AI uygulamaları oluşturabilir veya var olan uygulamalarını iyileştirebilir. Sonuç olarak şirketler, ürün önerileri, arama motoru sonuçları, bilgisayarlı görü, konuşma tanıma, sohbet robotları gibi gelişmiş müşteri deneyimleri sunabilir.
En yaygın şekilde kullanılan veri türleri, metin, ses, görüntü ve videodur.
Metin Etiketleme
En yaygın olarak kullanılan veri türü metindir. 2020 Yapay Zeka ve Makine Öğrenimi Durum raporuna göre şirketlerin %70’i metin verilerini kullanarak anlamlı bilgiler çıkarıyor. Metin etiketleme, duygu analizi, niyet ve anlam çıkarımı gibi çok çeşitli alanları kapsar.
Duygu Etiketleme
Duygu analizi, davranışları, duyguları ve fikirleri değerlendirerek doğru eğitim verilerine sahip olmayı gerektirir. Bu verileri elde etmek için, insan açıklamaları genellikle sosyal medya ve e-ticaret siteleri de dahil olmak üzere tüm web platformlarında duyguyu değerlendirebildikleri ve içeriği denetleyebildikleri için, örneğin saygısız, hassas veya neolojik anahtar kelimeleri etiketleme ve raporlama becerisiyle kullanılır .
Niyet Etiketleme
İnsanlar insan-makine arayüzleriyle daha fazla sohbet ettikçe, makinelerin hem doğal dili hem de kullanıcı niyetini anlayabilmesi gerekmektedir. Çok amaçlı veri toplama ve sınıflandırma, amacı istek, komut, rezervasyon, öneri ve onay dahil olmak üzere temel kategorilere ayrılabilir.
Anlam Etiketleme
Anlam etiketleme hem ürün listelemelerini iyileştirir hem de müşterilerin aradıkları ürünleri bulabilmesini sağlar. Bu, tarayıcıları alıcılara dönüştürmeye yardımcı olur. Ürün başlıkları ve arama sorguları içindeki çeşitli bileşenleri etiketleyerek, anlamsal açıklama hizmetleri, algoritmanızı bu parçaları tanımak ve genel arama alaka düzeyini iyileştirmek için eğitmeye yardımcı olur.
Adlandırılmış Varlık Etiketleme
Adlandırılmış Varlık Tanıma (NER) sistemleri, büyük miktarda manuel olarak etiketlenmiş eğitim verisi gerektirir. Appen gibi kuruluşlar, e-ticaret müşterilerinin bir dizi anahtar tanımlayıcıyı tanımlamasına ve etiketlemesine yardımcı olmak veya sosyal medya şirketlerine insanlar, yerler, şirketler, kuruluşlar ve unvanlar gibi varlıkları etiketlemede yardımcı olmak gibi çok çeşitli kullanım durumlarında adlandırılmış varlık ek açıklama yetenekleri uygular. daha iyi hedeflenmiş reklam içeriğine yardımcı olmak için.
Gerçek Bir Kullanım Örneği: Microsoft Bing için Arama Kalitesini İyileştirme
Microsoft’un Bing arama motoru, arama sonuçlarının kalitesini sürekli iyileştirmek için büyük ölçekli veri kümelerine ihtiyaç duyuyordu. Bunun yanında, sonuçların hizmet verdikleri küresel pazarlarla kültürel açıdan uyumlu olması gerekiyordu. Beklentilerin çok üstünde sonuçlar elde ettik. Proje ve program yönetimi sunmanın ötesinde, yüksek kaliteli veri setleri ile yeni pazarlarda hızla büyüme olanağı sağladık.
Ses Etiketleme
Ses etiketleme, belirli telaffuz ve tonlamanın transkripsiyonu ve dil, lehçe ve konuşmacı demografiklerinin tanımlanması dahil olmak üzere konuşma verilerinin transkripsiyonu ve zaman damgasıdır. Her kullanım durumu farklıdır ve bazıları çok özel bir yaklaşım gerektirir: örneğin, güvenlik ve acil yardım hattı teknolojisi uygulamalarında kullanım için agresif konuşma göstergelerinin ve cam kırılması gibi konuşma dışı seslerin etiketlenmesi.
Gerçek Bir Kullanım Örneği: Dialpad’in çeviri modelleri, sesi yazıya dönüştürme ve sınıflandırma için platformumuzdan yararlanır
Dialpad, verilerle görüşmeleri iyileştirir. Telefon konuşmalarını toplarlar, bu diyalogları şirket içi konuşma tanıma modelleriyle yazıya dökerler ve her konuşmayı anlamak için doğal dil işleme algoritmaları kullanırlar. Bu birebir görüşme evrenini, her bir çağrıyı başarılı kılmak amacıyla, her temsilcinin ve genel olarak şirketin iyi ve neyin iyi yaptığını belirlemek için kullanıyorlar. Dialpad, bir Appen rakibi ile altı ay boyunca çalıştı ancak modellerini başarılı kılmak için bir doğruluk eşiğine ulaşmakta güçlük çekiyordu. Değişimin Dialpad için meyve vermesi ve modellerini başarılı kılmak için ihtiyaç duydukları transkripsiyon ve NLP eğitim verilerini oluşturması sadece birkaç hafta sürdü.
Resim Etiketleme
Görüntü etiketleme, bilgisayarlı görü, robotik görü, yüz tanıma ve görüntüleri yorumlamak için makine öğrenimine dayanan çözümler gibi çok çeşitli uygulamalar için hayati önem taşır. Bu çözümleri eğitmek için, meta veriler görüntülere tanımlayıcılar, başlıklar veya anahtar sözcükler biçiminde atanmalıdır.
Kendi kendini süren araçlar tarafından kullanılan bilgisayarlı görü sistemlerinden ve ürünü toplayan ve sıralayan makinelerden tıbbi durumları otomatik olarak tanımlayan sağlık uygulamalarına kadar, yüksek hacimlerde etiketli görüntü gerektiren birçok kullanım durumu vardır. Görüntü etiketleme, bu sistemleri etkili bir şekilde eğiterek hassasiyeti ve doğruluğu artırır.
Gerçek Bir Kullanım Örneği: Adobe Stock Müşterileri Mutlu Edebilmek İçin “Büyük Varlık Profilinden” Yararlanıyor
Adobe’nin en önemli ürünlerinden biri, yüksek kaliteli stok görüntülerinden oluşan Adobe Stock’tur. Kütüphanenin kendisi şaşırtıcı derecede büyük: 200 milyondan fazla veri var (15 milyondan fazla video, 35 milyon vektör, 12 milyon editoryal varlık ve 140 milyon fotoğraf, illüstrasyon, şablon ve 3D veri dahil). Bu varlıkların her birinin keşfedilebilir olması gerekiyor. Appen, bu ince öznitelikleri hem yüz milyondan fazla görüntüden oluşan kitaplığında hem de her gün yüklenen yüz binlerce yeni görüntüde ortaya çıkarabilecek bir model oluşturmak için yüksek kaliteli eğitim verileri sağladı. Bu eğitim verileri, Adobe’nin en değerli görüntülerini geniş müşteri tabanına sunmasına yardımcı olan modelleri güçlendirir. Kullanıcılar, benzer görsellerin bulunduğu sayfalarda gezinmek yerine, en yararlı olanları hızlı bir şekilde bulabilir ve onları güçlü pazarlama materyalleri oluşturmaya başlamak için kullanabilir.
Video Etiketleme
Etiketli veriler, makine öğreniminde başarının anahtarıdır. İnsanlar öznelliği yönetmede, amacı anlamada ve belirsizlikle başa çıkmada bilgisayarlardan daha başarılıdır. Örneğin, bir arama motoru sonucunun alakalı olup olmadığını belirlerken, oy birliği için birden fazla kişinin fikri gerekir. Bir bilgisayarlı görme veya örüntü tanıma çözümünü eğitirken, bir görüntüdeki ağaçları veya trafik işaretlerini içeren tüm piksellerin ana hatlarını çizmek gibi belirli verileri tanımlamak ve bunlara açıklama eklemek için insanlara ihtiyaç vardır. Bu yapılandırılmış verileri kullanarak makineler, bu ilişkileri tanımayı öğrenebilir.
Gerçek Bir Kullanım Örneği: HERE Technologies, Haritalarda Daha Hızlı İnce Ayar Yapabilmek İçin Veriler Oluşturur
Birkaç santimetreye kadar doğruluğu olan üç boyutlu haritalar oluşturma hedefi ile HERE, 80’lerin ortalarından beri bu alanda yenilikçi olmaya devam ediyor. Yüzlerce işletme ve kuruluşa ayrıntılı, kesin ve eyleme geçirilebilir konum verileri ve içgörüleri sunuyor. HERE, işaret algılama modellerine güç veren doğruluk verileri için on binlerce kilometre sürülen yolu etiketleme gibi iddialı bir hedefe sahip. Makine Öğrenimi destekli Video Nesnesi İzleme çözümümüz, bu amaç için mükemmel bir çözüm sundu. Bu başarının sebebi, video etiketlemenin hızını önemli ölçüde artırmak için insan zekasını makine öğrenimi ile birleştirmesidir.