Visi komputer dalam AI: Data yang dibutuhkan untuk berhasil

  • Whatsapp
Visi komputer dalam AI: Data yang dibutuhkan untuk berhasil


Mengembangkan kapasitas untuk membuat anotasi data dalam jumlah besar sambil mempertahankan kualitas adalah fungsi dari siklus pengembangan model yang sering diremehkan oleh perusahaan. Ini intensif sumber daya dan membutuhkan keahlian khusus.

Bacaan Lainnya

Inti dari setiap inisiatif pembelajaran mesin / kecerdasan buatan (ML / AI) yang berhasil adalah komitmen terhadap data pelatihan berkualitas tinggi dan jalur menuju data berkualitas yang terbukti dan terdefinisi dengan baik. Tanpa jalur data berkualitas ini, inisiatif ini pasti gagal.

Tim visi komputer atau ilmu data sering kali berpaling ke mitra eksternal untuk mengembangkan jalur pelatihan data mereka, dan kemitraan ini mendorong kinerja model.

Tidak ada satu definisi kualitas: “data kualitas” sepenuhnya bergantung pada visi komputer atau proyek pembelajaran mesin tertentu. Namun, ada proses umum yang dapat diikuti semua tim saat bekerja dengan mitra eksternal, dan jalur menuju data berkualitas ini dapat dipecah menjadi empat fase yang diprioritaskan.

Kriteria anotasi dan persyaratan kualitas

Kualitas data pelatihan adalah evaluasi kesesuaian kumpulan data untuk memenuhi tujuannya dalam kasus penggunaan ML / AI tertentu.

Tim visi komputer perlu menetapkan seperangkat aturan yang tidak ambigu yang menggambarkan arti kualitas dalam konteks proyek mereka. Kriteria anotasi adalah kumpulan aturan yang menentukan objek mana yang akan diberi anotasi, cara memberi anotasi dengan benar, dan apa target kualitasnya.

Target akurasi atau kualitas menentukan hasil terendah yang dapat diterima untuk metrik evaluasi seperti akurasi, recall, presisi, skor F1, dan lain-lain. Biasanya, tim computer vision akan memiliki target kualitas untuk seberapa akurat objek yang menarik diklasifikasikan, seberapa akurat objek dilokalkan, dan seberapa akurat hubungan antar objek diidentifikasi.

Pelatihan tenaga kerja dan konfigurasi platformn

Konfigurasi platform. Desain tugas dan penyiapan alur kerja memerlukan waktu dan keahlian, dan anotasi yang akurat memerlukan alat khusus tugas. Pada tahap ini, tim ilmu data membutuhkan mitra dengan keahlian untuk membantu mereka menentukan cara terbaik mengonfigurasi alat pelabelan, taksonomi klasifikasi, dan antarmuka anotasi untuk akurasi dan throughput.

Pengujian dan penilaian pekerja. Untuk memberi label data secara akurat, anotator memerlukan kurikulum pelatihan yang dirancang dengan baik sehingga mereka sepenuhnya memahami kriteria anotasi dan konteks domain. Platform anotasi atau mitra eksternal harus memastikan keakuratan dengan secara aktif melacak kemahiran anotator terhadap tugas data emas atau ketika penilaian diubah oleh pekerja atau admin yang lebih terampil.

Kebenaran dasar atau data emas. Data kebenaran dasar sangat penting pada tahap proses ini sebagai dasar untuk menilai pekerja dan mengukur kualitas keluaran. Banyak tim computer vision sudah bekerja dengan kumpulan data kebenaran dasar.

Sumber otoritas dan jaminan kualitas

Tidak ada pendekatan jaminan kualitas (QA) satu ukuran untuk semua yang akan memenuhi standar kualitas semua kasus penggunaan ML. Sasaran bisnis tertentu, serta risiko yang terkait dengan model berkinerja rendah, akan mendorong persyaratan kualitas. Beberapa proyek mencapai kualitas target menggunakan beberapa anotator. Yang lain memerlukan tinjauan kompleks terhadap data kebenaran dasar atau alur kerja eskalasi dengan verifikasi dari pakar materi pelajaran.

Ada dua sumber otoritas utama yang dapat digunakan untuk mengukur kualitas anotasi dan yang digunakan untuk menilai pekerja: data emas dan tinjauan ahli.

  • Data emas: Data emas atau kumpulan catatan kebenaran dasar dapat digunakan baik sebagai alat kualifikasi untuk menguji dan menilai pekerja di awal proses dan juga sebagai ukuran untuk kualitas keluaran. Saat Anda menggunakan data emas untuk mengukur kualitas, Anda membandingkan anotasi pekerja dengan anotasi ahli Anda untuk kumpulan data yang sama, dan perbedaan antara dua jawaban buta independen ini dapat digunakan untuk menghasilkan pengukuran kuantitatif seperti akurasi, ingatan, presisi, dan skor F1 .
  • Tinjauan ahli: Metode jaminan kualitas ini bergantung pada tinjauan ahli dari pekerja yang sangat terampil, admin, atau dari pakar di sisi pelanggan, terkadang ketiganya. Ini dapat digunakan bersama dengan data emas QA. Peninjau ahli melihat jawaban yang diberikan oleh pekerja yang memenuhi syarat dan menyetujuinya atau membuat koreksi sesuai kebutuhan, menghasilkan jawaban baru yang benar. Awalnya, tinjauan ahli dapat dilakukan untuk setiap contoh data berlabel, tetapi seiring waktu, seiring dengan peningkatan kualitas pekerja, tinjauan ahli dapat menggunakan pengambilan sampel acak untuk kontrol kualitas yang berkelanjutan.

Mengulangi keberhasilan data

Setelah tim computer vision berhasil meluncurkan pipeline data pelatihan berkualitas tinggi, hal itu dapat mempercepat kemajuan ke model siap produksi. Melalui dukungan, pengoptimalan, dan kontrol kualitas yang berkelanjutan, mitra eksternal dapat membantu mereka:

  • Kecepatan lacak: Untuk menskalakan secara efektif, sebaiknya ukur throughput anotasi. Berapa lama waktu yang dibutuhkan data untuk bergerak melalui proses? Apakah prosesnya semakin cepat?
  • Sesuaikan pelatihan pekerja: Seiring skala proyek, persyaratan pelabelan dan kualitas dapat berkembang. Ini membutuhkan pelatihan dan penilaian tenaga kerja yang berkelanjutan.
  • Melatih kasus edge: Dari waktu ke waktu, data pelatihan harus menyertakan lebih banyak casing edge untuk membuat model Anda seakurat dan sekuat mungkin.

Tanpa data pelatihan berkualitas tinggi, bahkan proyek ML / AI yang paling didanai dan paling ambisius pun tidak akan berhasil. Tim visi komputer membutuhkan mitra dan platform yang dapat mereka percayai untuk memberikan kualitas data yang mereka butuhkan dan untuk mendukung model ML / AI yang mengubah hidup dunia.

Alegion adalah partner yang terbukti untuk membangun pipeline data pelatihan yang akan mendukung model Anda di sepanjang siklus prosesnya. Hubungi Alegion di solutions@alegion.com.

Konten ini diproduksi oleh Alegion. Itu tidak ditulis oleh staf editorial MIT Technology Review.



Source

Pos terkait

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *