AI мэдээллийн багц гэж юу вэ?

AI мэдээллийн багц гэж юу вэ?

Хэрэв та хиймэл оюун ухааны системийг барьж, худалдан авч, эсвэл зүгээр л үнэлж байгаа бол хиймэл оюун ухаан гэж юу вэ, энэ нь яагаад тийм их чухал вэ? гэсэн энгийн асуулттай тулгарах болно. Богино хувилбар: энэ нь таны загварын түлш, хоолны ном, заримдаа луужин юм. 

Үүний дараа таны унших дуртай нийтлэлүүд:

🔗 AI чиг хандлагыг хэрхэн урьдчилан таамаглаж байна
Ирээдүйн үйл явдал, зан үйлийг урьдчилан таамаглахын тулд хиймэл оюун ухаан нь хэв маягт хэрхэн дүн шинжилгээ хийдэг болохыг судалдаг.

🔗 AI гүйцэтгэлийг хэрхэн хэмжих вэ
Нарийвчлал, үр ашиг, загварын найдвартай байдлыг үнэлэх хэмжүүр, арга.

🔗 AI-тай хэрхэн ярих вэ
AI-аас үүссэн хариу үйлдлийг сайжруулахын тулд илүү сайн харилцан үйлчлэлийг бий болгох заавар.

🔗 AI гэж юу вэ
Сануулгууд нь AI гаралт болон харилцааны ерөнхий чанарыг хэрхэн бүрдүүлдэг тухай тойм.


AI мэдээллийн багц гэж юу вэ? Шуурхай тодорхойлолт 🧩

Хиймэл оюун ухааны өгөгдлийн багц гэж юу вэ? Энэ нь таны загвар суралцсан эсвэл үнэлэгдсэн жишээнүүдийн цуглуулга юм. Жишээ бүр нь дараахь зүйлийг агуулна

  • Оролтууд - текстийн хэсэг, зураг, аудио, хүснэгтийн мөр, мэдрэгчийн заалт, график гэх мэт загварт хардаг онцлогууд.

  • Зорилтот - категори, тоо, текстийн хүрээ, үйлдлүүд, эсвэл заримдаа огт юу ч биш гэх мэт загвараас урьдчилан таамаглах ёстой шошго эсвэл үр дүн.

  • Мета өгөгдөл - эх сурвалж, цуглуулах арга, цагийн тэмдэг, лиценз, зөвшөөрлийн мэдээлэл, чанарын тухай тэмдэглэл зэрэг контекст.

Үүнийг загвар өмсөгчдөө зориулж сайтар савласан өдрийн хоолны хайрцаг шиг бодоорой: орц найрлага, шошго, хоол тэжээлийн мэдээлэл, тийм ээ, "энэ хэсгийг идэж болохгүй" гэсэн наалттай цаас. 🍱

Хяналттай ажлуудын хувьд та тодорхой шошготой хослуулсан оролтуудыг харах болно. Хяналтгүй ажлуудын хувьд та шошгогүй оруулгуудыг харах болно. Суралцах чадварыг сайжруулахын тулд өгөгдөл нь төлөв байдал, үйл ажиллагаа, шагнал бүхий хэсэг эсвэл замнал мэт харагддаг. Мультимодал ажлын хувьд жишээнүүд нь текст + зураг + аудиог нэг бичлэгт нэгтгэж болно. Гоёмсог сонсогдож байна; голдуу сантехник юм.

Хэрэгтэй гарын авлага ба дадал: Өгөгдлийн багцад зориулсан өгөгдлийн хуудасны санаа нь багуудад дотор нь юу байгааг болон хэрхэн ашиглах ёстойг тайлбарлахад тусалдаг [1] бөгөөд Загварын картууд нь загвар талын өгөгдлийн баримт бичгийг нөхдөг [2].

 

Хиймэл оюун ухааны өгөгдлийн багц

AI-ийн сайн мэдээллийн багцыг юу болгодог вэ ✅

Үнэнийг хэлэхэд, өгөгдлийн багц нь аймшигтай биш байсан тул олон загвар амжилтанд хүрсэн. "Сайн" мэдээллийн багц нь:

  • Зөвхөн лабораторийн нөхцөл бус бодит хэрэглээний тохиолдлын төлөөлөгч .

  • Нарийвчлалтай шошготой, тодорхой удирдамж, үе үе шүүлттэй. Хэлэлцээрийн хэмжүүрүүд (жишээлбэл, каппа маягийн хэмжүүрүүд) эрүүл саруул байдлыг шалгахад тусалдаг.

  • Урт сүүлтэй үед чимээгүй бүтэлгүйтлээс зайлсхийхэд хангалттай бүрэн бөгөөд тэнцвэртэй . Тэнцвэргүй байдал бол хэвийн үзэгдэл; хайхрамжгүй байдал бол хэвийн үзэгдэл биш

  • Гарал үүслийн хувьд тодорхой, зөвшөөрөл, лиценз, зөвшөөрлийг баримтжуулсан. Уйтгартай бичиг цаасны ажил нь сэтгэл хөдөлгөм нэхэмжлэл гаргахаас сэргийлдэг.

  • Зориулалт, хязгаарлалт, алдааны мэдэгдэж буй горимуудыг тусгасан мэдээллийн карт эсвэл мэдээллийн хуудсыг ашиглан сайн баримтжуулсан байна [1]

  • зохицуулагддаг . Хэрэв та өгөгдлийн багцыг хуулбарлаж чадахгүй бол загварыг хуулбарлаж чадахгүй. NIST-ийн хиймэл оюун ухааны эрсдэлийн удирдлагын хүрээний өгөгдлийн чанар болон баримтжуулалтыг нэгдүгээр зэрэглэлийн асуудал гэж үздэг [3].


Хийж байгаа зүйлээрээ AI мэдээллийн багцын төрлүүд 🧰

Даалгавраар

  • Ангилал - жишээлбэл, спам ба спам биш, зургийн ангилал.

  • Регресс - үнэ эсвэл температур гэх мэт тасралтгүй утгыг урьдчилан таамаглах.

  • Дарааллын шошго - нэрлэгдсэн байгууллагууд, ярианы хэсгүүд.

  • Generation - хураангуй, орчуулга, зургийн тайлбар.

  • Зөвлөмж - хэрэглэгч, зүйл, харилцан үйлчлэл, контекст.

  • Аномали илрүүлэх - цаг хугацааны цуваа эсвэл лог дахь ховор тохиолдлууд.

  • Сургалтыг бэхжүүлэх - төлөв байдал, үйлдэл, шагнал, дараагийн төлөвийн дараалал.

  • Татаж авах - баримт бичиг, асуулга, хамааралтай дүгнэлт.

Модаль байдлаар

  • Хүснэгт - нас, орлого, эргэлт зэрэг багана. Дутуу үнэлэгдсэн, хэрцгий үр дүнтэй.

  • Текст - баримт бичиг, чат, код, форумын нийтлэл, бүтээгдэхүүний тодорхойлолт.

  • Зураг - гэрэл зураг, эмнэлгийн сканнер, хиймэл дагуулын хавтан; масктай эсвэл маскгүй, хайрцаг, гол цэгүүд.

  • Аудио - долгионы хэлбэр, транскрипт, чанга яригчийн шошго.

  • Видео - хүрээ, түр зуурын тэмдэглэгээ, үйлдлийн шошго.

  • График - зангилаа, ирмэг, шинж чанарууд.

  • Цагийн цуваа - мэдрэгч, санхүү, телеметр.

Хяналтаар

  • Шошготой (алт, мөнгө, автомат шошготой), сул шошготой, шошгогүй, синтетик. Хэрэв та хайрцгийг уншвал дэлгүүрт худалдаж авсан бялуу нь сайн байж болно.


Хайрцаг дотор: бүтэц, хуваалт, мета өгөгдөл 📦

Бат бөх өгөгдлийн багц нь ихэвчлэн дараахь зүйлийг агуулдаг.

  • Схем - бичсэн талбарууд, нэгжүүд, зөвшөөрөгдсөн утгууд, null зохицуулалт.

  • Хуваах - галт тэрэг, баталгаажуулалт, туршилт. Туршилтын өгөгдлийг битүүмжилнэ үү - хамгийн сүүлчийн шоколад шиг хандаарай.

  • Түүврийн төлөвлөгөө - хүн амаас хэрхэн жишээ татсан; нэг бүс нутаг эсвэл төхөөрөмжөөс тохиромжтой дээж авахаас зайлсхий.

  • Өргөтгөх - эргүүлэх, үр тариа, чимээ шуугиан, үг хэллэг, маск. Шударга байхад сайн; зэрлэг байгальд хэзээ ч тохиолддоггүй хэв маягийг зохион бүтээх нь хортой.

  • Хувилбаржуулалт - дельтануудыг тайлбарласан өөрчлөлтийн бүртгэлтэй v0.1, v0.2 өгөгдлийн багц….

  • Лиценз ба зөвшөөрөл - ашиглалтын эрх, дахин хуваарилалт, устгах урсгал. Мэдээлэл хамгаалах үндэсний зохицуулагчид (жишээ нь, Их Британийн ICO) практик, хууль ёсны боловсруулалтын хяналтын хуудас өгдөг [4].


Датасетийн амьдралын мөчлөг, алхам алхмаар 🔁

  1. Шийдвэрийг тодорхойл - загвар юу шийдэх вэ, хэрэв буруу байвал юу болох вэ.

  2. Хамрах хүрээний онцлог, шошго - хэмжигдэхүйц, ажиглах боломжтой, цуглуулах ёс зүйтэй.

  3. Эх сурвалж өгөгдөл - хэрэгсэл, бүртгэл, судалгаа, олон нийтийн байгууллага, түншүүд.

  4. Зөвшөөрөл ба хууль эрх зүйн - нууцлалын мэдэгдэл, татгалзах, өгөгдлийг багасгах. "Яагаад" болон "хэрхэн" гэдгийг зохицуулагчийн удирдамжаас үзнэ үү [4].

  5. Цуглуулж, хадгалах - аюулгүй хадгалах, үүрэгт суурилсан хандалт, PII харьцах.

  6. Шошго - дотоод аннотатор, краудсорсинг, шинжээчид; алтны даалгавар, аудит, гэрээний хэмжүүрээр чанарыг удирдах.

  7. Цэвэрлэх, хэвийн болгох - алдааг арилгах, дутагдлыг арилгах, нэгжийг стандартчилах, кодчилолыг засах. Уйтгартай, баатарлаг ажил.

  8. Хуваах, баталгаажуулах - гоожихоос сэргийлэх; холбогдох тохиолдолд давхраалах; цаг хугацааны өгөгдлийн хувьд цаг хугацааны хувьд хуваагдахыг илүүд үздэг; баттай тооцоолол хийхдээ хөндлөн баталгаажуулалтыг сайтар ашиглана уу [5]. 

  9. Баримт бичиг - мэдээллийн хуудас эсвэл мэдээллийн карт; зориулалт, анхааруулга, хязгаарлалт [1].

  10. Хяналт болон шинэчлэлт - шилжилт илрүүлэлт, шинэчлэлтийн хэмнэл, нар жаргах төлөвлөгөө. NIST-ийн хиймэл оюун ухааны RMF нь энэхүү үргэлжилж буй засаглалын давталтыг хүрээлдэг [3].

Шуурхай, бодит дүр төрхтэй зөвлөгөө: Багууд ихэвчлэн "демо-д ялдаг" боловч тэдний мэдээллийн багц нь шинэ бүтээгдэхүүний шугам, нэр өөрчлөгдсөн талбар эсвэл өөрчлөгдсөн бодлого зэрэг чимээгүйхэн шилждэг тул үйлдвэрлэлд бүдэрдэг. Энгийн өөрчлөлтийн бүртгэл + үе үе дахин тэмдэглэгээ хийх нь ихэнх өвдөлтөөс сэргийлдэг.


Өгөгдлийн чанар, үнэлгээ нь тийм ч уйтгартай биш 🧪

Чанар нь олон хэмжээст:

  • Нарийвчлал - шошго зөв үү? Гэрээний хэмжүүр болон үе үе дүгнэлтийг ашигла.

  • Бүрэн байдал - танд үнэхээр хэрэгтэй талбар, ангиудыг хамрах.

  • Тогтвортой байдал - ижил төстэй оролтын хувьд зөрчилтэй шошгооос зайлсхий.

  • Хугацаа - хуучирсан өгөгдөл нь таамаглалыг чулууждаг.

  • Шударга байдал ба нэг талыг баримтлах байдал - хүн ам зүйн мэдээлэл, хэл, төхөөрөмж, орчныг хамарсан хамрах хүрээ; тайлбарласан аудитаар эхэлж, дараа нь стресс тест хийнэ. Баримтжуулалтыг нэн тэргүүнд тавих практик (өгөгдлийн хуудас, загвар карт) нь эдгээр шалгалтыг харагдахуйц болгодог [1] бөгөөд засаглалын хүрээ нь тэдгээрийг эрсдэлийн хяналт гэж онцолдог [3].

Загварын үнэлгээний хувьд зохих хуваалтыг , дундаж хэмжигдэхүүн болон хамгийн муу бүлгийн хэмжигдэхүүнийг хоёуланг нь дагаж мөрдөөрэй. Гялалзсан дундаж нь тогоог нууж чаддаг. Загалмайн баталгаажуулалтын үндсийг стандарт ML хэрэглүүрийн баримт бичигт сайн тусгасан байдаг [5]. 


Ёс суртахуун, хувийн нууц, лиценз - хамгаалалтын хашлага 🛡️

Ёс суртахууны өгөгдөл нь чичиргээ биш, харин үйл явц юм:

  • Зөвшөөрөл ба зорилгын хязгаарлалт - хэрэглээ болон хууль эрх зүйн үндэслэлийн талаар тодорхой байх [4].

  • PII-тэй харьцах - зохих хэмжээгээр багасгах, зохиомол нэрлэх, эсвэл нэрээ нууцлах; эрсдэл өндөр байгаа үед нууцлалыг сайжруулах технологийг анхаарч үзээрэй.

  • Нэр дэвшүүлэх болон лицензүүд - хуваалцах болон арилжааны хэрэглээний хязгаарлалтыг хүндэтгэнэ.

  • Нэг талыг баримтлах ба хор хөнөөл учруулах - хуурамч хамаарлыг шалгах ("өдрийн гэрэл = аюулгүй" гэдэг нь шөнөдөө маш их төөрөгдөлд орох болно).

  • Засах - хүсэлтийн дагуу өгөгдлийг хэрхэн устгах, үүн дээр бэлтгэгдсэн загваруудыг хэрхэн буцаах талаар мэдэх (үүнийг мэдээллийн хуудсандаа баримтжуулна уу) [1].


Хэр том хангалттай том вэ? Хэмжээ болон дохио-дуу чимээ 📏

Үндсэн дүрэм: хэрэв жишээнүүд нь хамааралтай бөгөөд бараг давхардаагүй бол илүү олон байвал тустай байдаг. Гэхдээ заримдаа уулсын замбараагүй дээжээс илүү цөөн, цэвэрхэн, илүү сайн шошготой дээж авах нь дээр байдаг

Ажиглах:

  • Суралцах муруй - өгөгдөлд суурилсан эсвэл загварт суурилсан эсэхийг харахын тулд графикийн гүйцэтгэл болон түүврийн хэмжээг харьцуулна уу.

  • Урт сүүлт хамрах хүрээ - ховор боловч чухал ангиуд ихэвчлэн илүү их хэмжээгээр биш харин зорилтот цуглуулга шаарддаг.

  • Шошгоны дуу чимээ - хэмжиж, дараа нь багасгах; бага зэрэг тэсвэрлэх чадвартай, далайн түрлэгийг тэсвэрлэдэггүй.

  • Түгээлтийн шилжилт - нэг бүс нутаг эсвэл сувгийн сургалтын өгөгдөл нөгөө рүү ерөнхийдөө тохирохгүй байж болно; зорилтот шинж чанартай тестийн өгөгдөл дээр баталгаажуулах [5].

Хэрэв эргэлзэж байвал жижиг нисгэгчдийг ажиллуулж, өргөжүүлээрэй. Энэ нь амтлагчтай адил юм - нэмэх, амтлах, тохируулах, давтах.


Датасетийг хаанаас олж, удирдах вэ 🗂️

Түгээмэл нөөц ба багаж хэрэгсэл (яг одоо URL цээжлэх шаардлагагүй):

  • Hugging Face Datasets - программын дагуу ачаалах, боловсруулах, хуваалцах.

  • Google Dataset Search - вэб дээрх мета хайлт.

  • UCI ML Repository - үндсэн мэдээлэл, заах зорилгоор сонгосон сонгодог бүтээлүүд.

  • OpenML - даалгавар + өгөгдлийн багц + гарал үүсэлтэй ажилладаг.

  • AWS Open Data / Google Cloud Public Datasets - байршуулсан, том хэмжээний корпорац.

Мэргэжлийн зөвлөгөө: зүгээр л татаж авах хэрэггүй. Лиценз болон өгөгдлийн хуудсыг уншаад, өөрийн хуулбарыг хувилбарын дугаар болон гарал үүслийн хамт баримтжуулна уу [1].


Шошго, тэмдэглэгээ - үнэн зөвийг хэлэлцдэг газар ✍️

Тэмдэглэл нь таны онолын гарын авлага бодит байдалтай тэмцэж байгаа газар юм:

  • Даалгаврын загвар - жишээ болон эсрэг жишээ бүхий тодорхой зааврыг бич.

  • Аннотаторын сургалт - алтан хариулттай үр, шалгалт тохируулгын тойрог гүйх.

  • Чанарын хяналт - гэрээний хэмжүүр, зөвшилцлийн механизм, тогтмол аудитыг ашиглах.

  • Багаж хэрэгсэл - схемийн баталгаажуулалт болон хянан шалгах дарааллыг хэрэгжүүлэх хэрэгслүүдийг сонгох; хүснэгтүүд ч гэсэн дүрэм, чектэй ажиллах боломжтой.

  • Санал хүсэлтийн гогцоонууд - гарын авлагыг сайжруулахын тулд аннотаторын тэмдэглэл, загварын алдааг бичнэ үү.

Хэрэв таслал дээр санал зөрөлдөж байгаа гурван найзтайгаа толь бичгээ засмаар санагдвал ... энэ бол хэвийн зүйл. 🙃


Өгөгдлийн баримтжуулалт - далд мэдлэгийг тодорхой болгох 📒

Хөнгөн мэдээллийн хуудас эсвэл өгөгдлийн карт нь дараахь зүйлийг агуулна.

  • Хэн, яаж, яагаад цуглуулсан.

  • Зориулалтын хэрэглээ ба хамрах хүрээнээс гадуурх хэрэглээ.

  • Мэдэгдэж буй цоорхой, хазайлт, бүтэлгүйтлийн горимууд.

  • Шошгоны протокол, QA алхамууд, гэрээний статистик.

  • Лиценз, зөвшөөрөл, асуудалтай холбоо барих, устгах үйл явц.

Загвар ба жишээнүүд: Мэдээллийн багц болон загвар картуудын нь өргөн хэрэглэгддэг эхлэл цэгүүд юм [1].

Үүнийг бүтээсний дараа биш харин барьж байхдаа бичээрэй. Санах ой нь хагархай хадгалах хэрэгсэл юм.


Харьцуулалтын хүснэгт - AI мэдээллийн багцыг олох эсвэл байршуулах газрууд 📊

Тийм ээ, энэ бол жаахан бодолтой байна. Мөн үг хэллэг нь зориудаар бага зэрэг жигд бус байна. Зүгээр дээ.

Хэрэгсэл / Репо Үзэгчид Үнэ Энэ нь яагаад практик дээр ажилладаг вэ
Тэврэх нүүрний мэдээллийн багц Судлаачид, инженерүүд Чөлөөт түвшний Хурдан ачаалах, дамжуулах, олон нийтийн скриптүүд; маш сайн баримт бичиг; хувилбарт өгөгдлийн багцууд
Google Dataset Search Хүн бүр Үнэгүй Өргөн гадаргуутай; нээлт хийхэд тохиромжтой; заримдаа хоорондоо нийцэхгүй мета өгөгдөл байдаг
UCI ML репозитор Оюутнууд, сурган хүмүүжүүлэгчид Үнэгүй Сонгодог сонгодог бүтээлүүд; жижиг боловч эмх цэгцтэй; суурь мэдээлэл болон заахдаа сайн
OpenML Репро судлаачид Үнэгүй Даалгавар + өгөгдлийн багц + хамт ажилладаг; сайхан гарал үүслийн замууд
AWS нээлттэй мэдээллийн бүртгэл Мэдээллийн инженерүүд Ихэнхдээ үнэ төлбөргүй байдаг Петабайтын хэмжээний хостинг; үүлд суурилсан хандалт; гарах зардлыг хянах
Kaggle мэдээллийн багц Дадлагажигчид Үнэгүй Хялбар хуваалцах, скрипт, уралдаан тэмцээн; олон нийтийн дохио нь дуу чимээг шүүхэд тусалдаг
Google Cloud нийтийн мэдээллийн багц Шинжээчид, багууд Үнэгүй + үүл Тооцооллын ойролцоо байршуулсан; BigQuery-г нэгтгэх; тооцоо хийхдээ болгоомжтой байх
Эрдмийн портал, лаборатори Ниш мэргэжилтнүүд Хувьсах Өндөр мэргэшсэн; заримдаа дутуу баримтжуулсан-ан хийх үнэ цэнэтэй хэвээр байна

(Хэрэв эс яриа хөөрөөтэй харагдаж байвал энэ нь санаатай үйлдэл юм.)


Эхнийхийг бүтээх нь практик эхлэлийн иж бүрдэл юм 🛠️

Та "AI өгөгдлийн багц гэж юу вэ" гэсэн хэсгээс "Би нэгийг хийсэн, энэ нь ажилладаг" руу шилжихийг хүсч байна. Энэ хамгийн бага замыг туршаад үзээрэй:

  1. Шийдвэр болон хэмжигдэхүүнийг бичнэ үү - жишээлбэл, зөв ​​багийг урьдчилан таамаглах замаар ирж буй дэмжлэгийн буруу чиглэлийг багасгах. Метрик: макро-F1.

  2. 5 эерэг ба 5 сөрөг жишээг жагсаан бич - жинхэнэ тасалбарын жишээг үз; хуурамч зүйл бүү хий.

  3. Шошгоны гарын авлагын төсөл - нэг хуудас; тодорхой оруулах/хасах дүрэм.

  4. Жижиг, жинхэнэ дээж цуглуул - ангилал тус бүрээс хэдэн зуун тасалбар; хэрэггүй PII-г устгана уу.

  5. Нэвчилтийг шалгах замаар хуваах - нэг үйлчлүүлэгчээс ирсэн бүх мессежийг нэг хэсэгт хадгалах; зөрүүг тооцоолохын тулд хөндлөн баталгаажуулалтыг ашиглана [5].

  6. QA-тай тайлбар бичих - дэд бүлэгт хоёр аннотатор; санал зөрөлдөөнийг шийдвэрлэх; гарын авлагыг шинэчлэх.

  7. Энгийн суурь үзүүлэлтийг сургах - эхлээд логистик (жишээ нь, шугаман загвар эсвэл авсаархан трансформатор). Гол нь медаль авах биш өгөгдлийг шалгах явдал юм.

  8. Алдааг шалгах - хаана, яагаад бүтэлгүйтдэг вэ; зөвхөн загвар биш өгөгдлийн багцыг шинэчлэх.

  9. Баримт бичиг - өчүүхэн мэдээллийн хуудас: эх сурвалж, шошго гарын авлагын холбоос, хуваагдал, мэдэгдэж буй хязгаар, лиценз [1].

  10. Төлөвлөгөөний шинэчлэл - шинэ категори, шинэ хэллэг, шинэ домэйнууд ирэх; жижиг, байнга шинэчлэлт хийх хуваарь [3].

Та энэ гогцооноос олон мянган халуун бичлэгээс илүү ихийг сурах болно. Мөн нөөцлөлтийг хадгал. Гуйя.


Багуудад тохиолддог нийтлэг бэрхшээлүүд 🪤

  • Өгөгдлийн алдагдал - хариулт нь онцлог шинж чанарууд руу шилждэг (жишээлбэл, үр дүнг урьдчилан таамаглахын тулд шийдвэрийн дараах талбаруудыг ашиглах). Тийм учраас хуурмаар санагддаг.

  • Гүехэн олон янз байдал - нэг газарзүй эсвэл төхөөрөмж нь дэлхийн дүр төрхтэй байдаг. Туршилтууд нь үйл явдлын эргэлтийг илрүүлэх болно.

  • Шошгоны шилжилт - шалгуур нь цаг хугацааны явцад өөрчлөгддөг ч шошгоны гарын авлага өөрчлөгддөггүй. Онтологио баримтжуулж, хувилбаржуул.

  • Тодорхой бус зорилтууд - хэрэв та муу таамаглалыг тодорхойлж чадахгүй бол таны өгөгдөл ч бас тодорхойгүй болно.

  • Эмх замбараагүй лицензүүд - одоо хусах, дараа нь уучлалт гуйх нь стратеги биш юм.

  • Хэт их өсгөх - хуванцар жимс дээр тогооч бэлтгэх гэх мэт бодит бус олдворуудыг заадаг синтетик өгөгдөл.


Энэ хэллэгийн талаархи хурдан асуултууд ❓

  • “Хиймэл оюун ухааны өгөгдлийн багц гэж юу вэ?” гэдэг нь зөвхөн тодорхойлолтын зүйл мөн үү? Ихэвчлэн, гэхдээ энэ нь загваруудыг найдвартай болгодог уйтгартай хэсгүүдэд та санаа тавьж байгаагийн дохио юм.

  • Надад үргэлж шошго хэрэгтэй юу? Үгүй. Хяналтгүй, өөрөө хянадаг, RL-ийн тохиргоонууд нь ихэвчлэн тодорхой шошгыг алгасах боловч сонгон шалгаруулах нь чухал хэвээр байна.

  • Би нийтийн өгөгдлийг ямар нэгэн зүйлд ашиглаж болох уу? Үгүй. Лиценз, платформын нөхцөл, нууцлалын үүргийг хүндэтгэ [4].

  • Илүү том эсвэл илүү сайн уу? Аль аль нь, хамгийн тохиромжтой. Хэрэв та сонгох ёстой бол эхлээд илүү сайн сонго.


Төгсгөлийн тайлбар - Та юу дэлгэцийн зураг авах боломжтой 📌

Хэрэв хэн нэгэн танаас хиймэл оюун ухааны өгөгдлийн багц гэж юу болохыг, жишээ нь: энэ нь загварыг зааж, туршдаг, хүмүүс үр дүнд нь итгэж болох засаглалд багтсан, баримтжуулсан жишээнүүдийн цуглуулга юм. Хамгийн сайн өгөгдлийн багцууд нь төлөөлөлтэй, сайн шошготой, хууль ёсны цэвэрхэн, тасралтгүй засвар үйлчилгээтэй байдаг. Үлдсэн хэсэг нь бүтэц, хуваагдал, загваруудыг замын хөдөлгөөнд орохоос сэргийлдэг жижиг хашлага гэх мэт чухал нарийн ширийн зүйлс юм. Заримдаа энэ үйл явц нь хүснэгт ашиглан цэцэрлэгжүүлэлт хийхтэй адил санагддаг; заримдаа пикселүүдийг цуглуулахтай адил. Аль ч тохиолдолд өгөгдөлд хөрөнгө оруулснаар таны загварууд тийм ч хачин харагдахгүй болно. 🌱🤖


Лавлагаа

[1] Өгөгдлийн багцын өгөгдлийн хуудас - Gebru et al., arXiv. Холбоос
[2] Загварын тайлангийн загвар картууд - Mitchell et al., arXiv. Холбоос
[3] NIST Хиймэл оюун ухааны эрсдэлийн удирдлагын хүрээ (AI RMF 1.0). Холбоос
[4] Их Британийн GDPR удирдамж ба нөөц - Мэдээллийн комиссарын алба (ICO). Холбоос
[5] Хөндлөн баталгаажуулалт: тооцоологчийн гүйцэтгэлийг үнэлэх - scikit-learn хэрэглэгчийн гарын авлага. Холбоос


Албан ёсны хиймэл оюун ухааны туслах дэлгүүрээс хамгийн сүүлийн үеийн хиймэл оюун ухааныг олоорой

Бидний тухай

Блог руу буцах