AI мэдээллийн багц гэж юу вэ?

AI мэдээллийн багц гэж юу вэ?

Хэрэв та хиймэл оюун ухааны системийг барьж, худалдан авч, эсвэл зүгээр л үнэлж байгаа бол хиймэл оюун ухаан гэж юу вэ, энэ нь яагаад тийм их чухал вэ? гэсэн энгийн асуулттай тулгарах болно. Богино хувилбар: энэ нь таны загварын түлш, хоолны ном, заримдаа луужин юм. 

Үүний дараа унших дуртай нийтлэлүүд:

🔗 AI чиг хандлагыг хэрхэн урьдчилан таамаглаж байна
Ирээдүйн үйл явдал, зан үйлийг урьдчилан таамаглахын тулд хиймэл оюун ухаан нь хэв маягт хэрхэн дүн шинжилгээ хийдэг болохыг судалдаг.

🔗 AI гүйцэтгэлийг хэрхэн хэмжих вэ
Нарийвчлал, үр ашиг, загварын найдвартай байдлыг үнэлэх хэмжүүр, арга.

🔗 AI-тай хэрхэн ярих вэ
AI-аас үүссэн хариу үйлдлийг сайжруулахын тулд илүү сайн харилцан үйлчлэлийг бий болгох заавар.

🔗 AI гэж юу вэ
Сануулгууд нь AI гаралт болон харилцааны ерөнхий чанарыг хэрхэн бүрдүүлдэг тухай тойм.


AI мэдээллийн багц гэж юу вэ? Шуурхай тодорхойлолт 🧩

AI мэдээллийн багц гэж юу вэ? Энэ нь таны загвараас суралцсан эсвэл үнэлэгдсэн жишээнүүдийн цуглуулга Жишээ бүр нь:

  • Оролтууд - текстийн хэсэг, зураг, аудио, хүснэгтийн мөр, мэдрэгчийн заалт, график гэх мэт загварт хардаг онцлогууд.

  • Зорилтот - категори, тоо, текстийн хүрээ, үйлдлүүд, эсвэл заримдаа огт юу ч биш гэх мэт загвараас урьдчилан таамаглах ёстой шошго эсвэл үр дүн.

  • Мета өгөгдөл - эх сурвалж, цуглуулах арга, цагийн тэмдэг, лиценз, зөвшөөрлийн мэдээлэл, чанарын тухай тэмдэглэл зэрэг контекст.

Үүнийг загвар өмсөгчдөө зориулж сайтар савласан өдрийн хоолны хайрцаг шиг бодоорой: орц найрлага, шошго, хоол тэжээлийн мэдээлэл, тийм ээ, "энэ хэсгийг идэж болохгүй" гэсэн наалттай цаас. 🍱

Хяналттай ажлуудын хувьд та тодорхой шошготой хослуулсан оролтуудыг харах болно. Хяналтгүй ажлуудын хувьд та шошгогүй оруулгуудыг харах болно. Суралцах чадварыг сайжруулахын тулд өгөгдөл нь төлөв байдал, үйл ажиллагаа, шагнал бүхий хэсэг эсвэл замнал мэт харагддаг. Мультимодал ажлын хувьд жишээнүүд нь текст + зураг + аудиог нэг бичлэгт нэгтгэж болно. Гоёмсог сонсогдож байна; голдуу сантехник юм.

Хэрэгтэй праймер ба дадлага: Өгөгдлийн багцад зориулсан мэдээллийн хуудас санаа нь багт юу байгаа, түүнийг хэрхэн ашиглахыг тайлбарлахад тусалдаг [1] ба Загвар картууд нь загвар талын өгөгдлийн баримт бичгийг нөхдөг [2].

 

Хиймэл оюун ухааны өгөгдлийн багц

AI-ийн сайн мэдээллийн багцыг юу болгодог вэ ✅

Үнэнийг хэлэхэд, өгөгдлийн багц нь аймшигтай биш байсан тул олон загвар амжилтанд хүрсэн. "Сайн" мэдээллийн багц нь:

  • Зөвхөн лабораторийн нөхцөл бус бодит хэрэглээний тохиолдлын төлөөлөгч

  • Нарийвчлалтай шошготой , тодорхой удирдамж, үе үе шүүлттэй. Хэлэлцээрийн хэмжүүрүүд (жишээлбэл, каппа маягийн хэмжүүрүүд) эрүүл саруул байдлыг шалгахад тусалдаг.

  • Урт сүүл дээр чимээгүй бүтэлгүйтэхээс зайлсхийхийн тулд бүрэн дүүрэн, тэнцвэртэй Тэнцвэргүй байдал хэвийн байна; хайхрамжгүй байдал нь тийм биш юм.

  • Гарал үүслийн хувьд тодорхой , зөвшөөрөл, лиценз, зөвшөөрлийг баримтжуулсан. Уйтгартай бичиг цаасны ажил нь сэтгэл хөдөлгөм нэхэмжлэл гаргахаас сэргийлдэг.

  • Зориулалт, хязгаарлалт, алдааны мэдэгдэж буй горимуудыг тусгасан мэдээллийн карт эсвэл мэдээллийн хуудсыг ашиглан сайн баримтжуулсан байна

  • Хувилбар, өөрчлөлтийн бүртгэл, зөвшөөрлөөр зохицуулагдана Хэрэв та өгөгдлийн багцыг хуулбарлаж чадахгүй бол загварыг хуулбарлах боломжгүй. NIST-ийн хиймэл оюун ухааны эрсдлийн удирдлагын тогтолцооны удирдамж нь мэдээллийн чанар, баримтжуулалтыг нэгдүгээр зэрэглэлийн асуудал гэж үздэг [3].


Хийж байгаа зүйлээрээ AI мэдээллийн багцын төрлүүд 🧰

Даалгавраар

  • Ангилал - жишээлбэл, спам ба спам биш, зургийн ангилал.

  • Регресс - үнэ эсвэл температур гэх мэт тасралтгүй утгыг урьдчилан таамаглах.

  • Дарааллын шошго - нэрлэгдсэн байгууллагууд, ярианы хэсгүүд.

  • Generation - хураангуй, орчуулга, зургийн тайлбар.

  • Зөвлөмж - хэрэглэгч, зүйл, харилцан үйлчлэл, контекст.

  • Аномали илрүүлэх - цаг хугацааны цуваа эсвэл лог дахь ховор тохиолдлууд.

  • Сургалтыг бэхжүүлэх - төлөв байдал, үйлдэл, шагнал, дараагийн төлөвийн дараалал.

  • Татаж авах - баримт бичиг, асуулга, хамааралтай дүгнэлт.

Модаль байдлаар

  • Хүснэгт - нас, орлого, эргэлт зэрэг багана. Дутуу үнэлэгдсэн, хэрцгий үр дүнтэй.

  • Текст - баримт бичиг, чат, код, форумын нийтлэл, бүтээгдэхүүний тодорхойлолт.

  • Зураг - гэрэл зураг, эмнэлгийн сканнер, хиймэл дагуулын хавтан; масктай эсвэл маскгүй, хайрцаг, гол цэгүүд.

  • Аудио - долгионы хэлбэр, транскрипт, чанга яригчийн шошго.

  • Видео - хүрээ, түр зуурын тэмдэглэгээ, үйлдлийн шошго.

  • График - зангилаа, ирмэг, шинж чанарууд.

  • Цагийн цуваа - мэдрэгч, санхүү, телеметр.

Хяналтаар

  • Шошготой (алт, мөнгө, автомат шошготой), сул шошготой , шошгогүй , синтетик . Хэрэв та хайрцгийг уншвал дэлгүүрт худалдаж авсан бялуу нь сайн байж болно.


Хайрцаг дотор: бүтэц, хуваалт, мета өгөгдөл 📦

Бат бөх өгөгдлийн багц нь ихэвчлэн дараахь зүйлийг агуулдаг.

  • Схем - бичсэн талбарууд, нэгжүүд, зөвшөөрөгдсөн утгууд, null зохицуулалт.

  • Хуваах - галт тэрэг, баталгаажуулалт, туршилт. Туршилтын өгөгдлийг битүүмжилнэ үү - хамгийн сүүлчийн шоколад шиг хандаарай.

  • Түүврийн төлөвлөгөө - хүн амаас хэрхэн жишээ татсан; нэг бүс нутаг эсвэл төхөөрөмжөөс тохиромжтой дээж авахаас зайлсхий.

  • Өргөтгөх - эргүүлэх, үр тариа, чимээ шуугиан, үг хэллэг, маск. Шударга байхад сайн; зэрлэг байгальд хэзээ ч тохиолддоггүй хэв маягийг зохион бүтээх нь хортой.

  • Хувилбар хийх - өгөгдлийн багц v0.1, v0.2… дельтануудыг тодорхойлсон өөрчлөлтийн бүртгэлтэй.

  • Лиценз ба зөвшөөрөл - ашиглалтын эрх, дахин хуваарилалт, устгах урсгал. Мэдээлэл хамгаалах үндэсний зохицуулагчид (жишээ нь, Их Британийн ICO) практик, хууль ёсны боловсруулалтын хяналтын хуудас өгдөг [4].


Датасетийн амьдралын мөчлөг, алхам алхмаар 🔁

  1. Шийдвэрийг тодорхойл - загвар юу шийдэх вэ, хэрэв энэ нь буруу бол яах вэ.

  2. Хамрах хүрээний онцлог, шошго - хэмжигдэхүйц, ажиглах боломжтой, цуглуулах ёс зүйтэй.

  3. Эх сурвалж өгөгдөл - хэрэгсэл, бүртгэл, судалгаа, олон нийтийн байгууллага, түншүүд.

  4. Зөвшөөрөл ба хууль ёсны - нууцлалын мэдэгдэл, татгалзах, өгөгдлийг багасгах. Зохицуулагчийн удирдамжаас “яагаад”, “яаж” [4]-ийг харна уу.

  5. Цуглуулж, хадгалах - аюулгүй хадгалах, үүрэгт суурилсан хандалт, PII харьцах.

  6. Шошго - дотоод аннотатор, краудсорсинг, шинжээчид; алтны даалгавар, аудит, гэрээний хэмжүүрээр чанарыг удирдах.

  7. Цэвэрлэх, хэвийн болгох - алдааг арилгах, дутагдлыг арилгах, нэгжийг стандартчилах, кодчилолыг засах. Уйтгартай, баатарлаг ажил.

  8. Хуваах, баталгаажуулах - гоожихоос сэргийлэх; холбогдох тохиолдолд давхраалах; цаг хугацааны өгөгдлийн хувьд цаг хугацааны хувьд хуваагдахыг илүүд үздэг; баттай тооцоолол хийхдээ хөндлөн баталгаажуулалтыг сайтар ашиглана уу [5].

  9. Баримт бичиг - мэдээллийн хуудас эсвэл мэдээллийн карт; зориулалт, анхааруулга, хязгаарлалт [1].

  10. Хяналт хийх, шинэчлэх - шилжилт хөдөлгөөнийг илрүүлэх, хэмнэлийг сэргээх, нар жаргах төлөвлөгөө. NIST-ийн AI RMF нь энэхүү үргэлжилсэн засаглалын гогцоог бүрдүүлдэг [3].

Шуурхай, бодит дүр төрхтэй зөвлөгөө: Багууд ихэвчлэн "демо-д ялдаг" боловч тэдний мэдээллийн багц нь шинэ бүтээгдэхүүний шугам, нэр өөрчлөгдсөн талбар эсвэл өөрчлөгдсөн бодлого зэрэг чимээгүйхэн шилждэг тул үйлдвэрлэлд бүдэрдэг. Энгийн өөрчлөлтийн бүртгэл + үе үе дахин тэмдэглэгээ хийх нь ихэнх өвдөлтөөс сэргийлдэг.


Өгөгдлийн чанар, үнэлгээ нь тийм ч уйтгартай биш 🧪

Чанар нь олон хэмжээст:

  • Нарийвчлал - шошго зөв үү? Гэрээний хэмжүүр болон үе үе дүгнэлтийг ашигла.

  • Бүрэн байдал - танд үнэхээр хэрэгтэй талбар, ангиудыг хамрах.

  • Тогтвортой байдал - ижил төстэй оролтын хувьд зөрчилтэй шошгооос зайлсхий.

  • Хугацаа - хуучирсан өгөгдөл нь таамаглалыг чулууждаг.

  • Шударга байдал, өрөөсгөл - хүн ам зүй, хэл, төхөөрөмж, хүрээлэн буй орчинд хамрах хүрээ; Тайлбарлах аудит, дараа нь стресс тестээс эхэлнэ. Баримтжуулалтын эхний практик (мэдээллийн хуудас, загвар картууд) нь эдгээр шалгалтыг харагдахуйц болгодог [1] бөгөөд засаглалын тогтолцоо нь эрсдэлийн хяналт гэж онцлон тэмдэглэдэг [3].

Загварын үнэлгээний хувьд зохих хуваалтыг , дундаж хэмжигдэхүүн болон хамгийн муу бүлгийн хэмжигдэхүүнийг хоёуланг нь дагаж мөрдөөрэй. Гялалзсан дундаж нь тогоог нууж чаддаг. Загалмайн баталгаажуулалтын үндсийг стандарт ML хэрэглүүрийн баримт бичигт сайн тусгасан байдаг [5].


Ёс суртахуун, хувийн нууц, лиценз - хамгаалалтын хашлага 🛡️

Ёс суртахууны өгөгдөл нь чичиргээ биш, харин үйл явц юм:

  • Зөвшөөрөл ба зорилгын хязгаарлалт - ашиглалт, хууль эрх зүйн үндэслэлийн талаар тодорхой байх [4].

  • PII-тэй харьцах - зохих хэмжээгээр багасгах, зохиомол нэрлэх, эсвэл нэрээ нууцлах; эрсдэл өндөр байгаа үед нууцлалыг сайжруулах технологийг анхаарч үзээрэй.

  • Атрибут ба лиценз - ижил төстэй болон арилжааны хэрэглээний хязгаарлалтыг хүндэтгэ.

  • Хагас ба хор хөнөөл - хуурамч хамаарлын аудит ("Өдрийн гэрэл = аюулгүй" нь шөнө маш их будлиантай байх болно).

  • Засах - хүсэлтийн дагуу өгөгдлийг хэрхэн устгах, үүн дээр бэлтгэгдсэн загваруудыг хэрхэн буцаах талаар мэдэх (үүнийг мэдээллийн хуудсандаа баримтжуулна уу) [1].


Хэр том хангалттай том вэ? Хэмжээ болон дохио-дуу чимээ 📏

Үндсэн дүрэм: илүү олон жишээнүүд нь ихэвчлэн хамааралтай, бараг давхардаагүй тохиолдолд эмх замбараагүй дээжээс цөөн, цэвэрхэн, илүү сайн шошготой авах нь дээр

Ажиглах:

  • Сурах муруй - та өгөгдөлд холбогдсон эсвэл загварт холбогдсон эсэхээ харахын тулд гүйцэтгэл ба түүврийн хэмжээг харьцуулна уу.

  • Урт сүүлт хамрах хүрээ - ховор боловч чухал ангиуд ихэвчлэн илүү их хэмжээгээр биш харин зорилтот цуглуулга шаарддаг.

  • Шошгоны дуу чимээ - хэмжиж, дараа нь багасгах; бага зэрэг тэсвэрлэх чадвартай, далайн түрлэгийг тэсвэрлэдэггүй.

  • Түгээлтийн шилжилт - нэг бүс нутаг эсвэл сувгийн сургалтын өгөгдөл нөгөө рүү ерөнхийдөө тохирохгүй байж болно; зорилтот шинж чанартай тестийн өгөгдөл дээр баталгаажуулах [5].

Хэрэв эргэлзэж байвал жижиг нисгэгчдийг ажиллуулж, өргөжүүлээрэй. Энэ нь амтлагчтай адил юм - нэмэх, амтлах, тохируулах, давтах.


Датасетийг хаанаас олж, удирдах вэ 🗂️

Түгээмэл нөөц ба багаж хэрэгсэл (яг одоо URL цээжлэх шаардлагагүй):

  • Hugging Face Datasets - программын дагуу ачаалах, боловсруулах, хуваалцах.

  • Google Dataset Search - вэб дээрх мета хайлт.

  • UCI ML Repository - үндсэн мэдээлэл, заах зорилгоор сонгосон сонгодог бүтээлүүд.

  • OpenML - даалгавар + өгөгдлийн багц + гарал үүсэлтэй ажилладаг.

  • AWS Open Data / Google Cloud Public Datasets - байршуулсан, том хэмжээний корпорац.

Мэргэжлийн зөвлөгөө: зүгээр л татаж авах хэрэггүй. Лиценз болон мэдээллийн хуудсыг уншаад дараа нь хувилбарын дугаар болон гарал үүсэлтэй [1] хуулбараа баримтжуулна уу.


Шошго, тэмдэглэгээ - үнэн зөвийг хэлэлцдэг газар ✍️

Тэмдэглэл нь таны онолын гарын авлага бодит байдалтай тэмцэж байгаа газар юм:

  • Даалгаврын загвар - жишээ болон эсрэг жишээ бүхий тодорхой зааврыг бич.

  • Аннотаторын сургалт - алтан хариулттай үр, шалгалт тохируулгын тойрог гүйх.

  • Чанарын хяналт - гэрээний хэмжүүр, зөвшилцлийн механизм, тогтмол аудитыг ашиглах.

  • Багаж хэрэгсэл - схемийн баталгаажуулалт болон хянан шалгах дарааллыг хэрэгжүүлэх хэрэгслүүдийг сонгох; хүснэгтүүд ч гэсэн дүрэм, чектэй ажиллах боломжтой.

  • Санал хүсэлтийн гогцоонууд - гарын авлагыг сайжруулахын тулд аннотаторын тэмдэглэл, загварын алдааг бичнэ үү.

Хэрэв таслал дээр санал зөрөлдөж байгаа гурван найзтайгаа толь бичгээ засмаар санагдвал ... энэ бол хэвийн зүйл. 🙃


Өгөгдлийн баримтжуулалт - далд мэдлэгийг тодорхой болгох 📒

Хөнгөн мэдээллийн хуудас эсвэл өгөгдлийн карт нь дараахь зүйлийг агуулна.

  • Хэн, яаж, яагаад цуглуулсан.

  • Зориулалтын хэрэглээ ба хамрах хүрээнээс гадуурх хэрэглээ.

  • Мэдэгдэж буй цоорхой, хазайлт, бүтэлгүйтлийн горимууд.

  • Шошгоны протокол, QA алхамууд, гэрээний статистик.

  • Лиценз, зөвшөөрөл, асуудалтай холбоо барих, устгах үйл явц.

Загвар ба жишээнүүд: Мэдээллийн багц болон загвар картуудын нь өргөн хэрэглэгддэг эхлэл цэгүүд юм [1].

Үүнийг бүтээсний дараа биш харин барьж байхдаа бичээрэй. Санах ой нь хагархай хадгалах хэрэгсэл юм.


Харьцуулалтын хүснэгт - AI мэдээллийн багцыг олох эсвэл байршуулах газрууд 📊

Тийм ээ, энэ бол жаахан бодолтой байна. Мөн үг хэллэг нь зориудаар бага зэрэг жигд бус байна. Зүгээр дээ.

Хэрэгсэл / Репо Үзэгчид Үнэ Энэ нь яагаад практик дээр ажилладаг
Тэврэх нүүрний мэдээллийн багц Судлаачид, инженерүүд Чөлөөт түвшний Хурдан ачаалах, дамжуулах, олон нийтийн скриптүүд; маш сайн баримт бичиг; хувилбарт өгөгдлийн багцууд
Google Dataset Search Хүн бүр Үнэгүй Өргөн гадаргуутай; нээлт хийхэд тохиромжтой; заримдаа хоорондоо нийцэхгүй мета өгөгдөл байдаг
UCI ML репозитор Оюутнууд, сурган хүмүүжүүлэгчид Үнэгүй Сонгодог сонгодог бүтээлүүд; жижиг боловч эмх цэгцтэй; суурь мэдээлэл болон заахдаа сайн
OpenML Репро судлаачид Үнэгүй Даалгавар + өгөгдлийн багц + хамт ажилладаг; сайхан гарал үүслийн замууд
AWS нээлттэй мэдээллийн бүртгэл Мэдээллийн инженерүүд Ихэнхдээ үнэ төлбөргүй байдаг Петабайтын хэмжээний хостинг; үүлд суурилсан хандалт; гарах зардлыг хянах
Kaggle мэдээллийн багц Дадлагажигчид Үнэгүй Хялбар хуваалцах, скрипт, уралдаан тэмцээн; олон нийтийн дохио нь дуу чимээг шүүхэд тусалдаг
Google Cloud нийтийн мэдээллийн багц Шинжээчид, багууд Үнэгүй + үүл Тооцооллын ойролцоо байршуулсан; BigQuery-г нэгтгэх; тооцоо хийхдээ болгоомжтой байх
Эрдмийн портал, лаборатори Ниш мэргэжилтнүүд Өөр өөр байдаг Өндөр мэргэшсэн; заримдаа дутуу баримтжуулсан-ан хийх үнэ цэнэтэй хэвээр байна

(Хэрэв эс яриа хөөрөөтэй харагдаж байвал энэ нь санаатай үйлдэл юм.)


Эхнийхийг бүтээх нь практик эхлэлийн иж бүрдэл юм 🛠️

Та "AI өгөгдлийн багц гэж юу вэ" гэсэн хэсгээс "Би нэгийг хийсэн, энэ нь ажилладаг" руу шилжихийг хүсч байна. Энэ хамгийн бага замыг туршаад үзээрэй:

  1. Шийдвэр болон хэмжигдэхүүнийг бичнэ үү - жишээлбэл, зөв ​​багийг урьдчилан таамаглах замаар ирж буй дэмжлэгийн буруу чиглэлийг багасгах. Метрик: макро-F1.

  2. 5 эерэг ба 5 сөрөг жишээг жагсаах - бодит тасалбарын дээж; бүү зохио.

  3. Шошгоны гарын авлагын төсөл - нэг хуудас; тодорхой оруулах/хасах дүрэм.

  4. Жижиг, бодит дээж цуглуулах - ангиллын хэдэн зуун тасалбар; Танд хэрэггүй PII устгана уу.

  5. Нэвчилтийг шалгах замаар хуваах - нэг үйлчлүүлэгчээс ирсэн бүх мессежийг нэг хэсэгт хадгалах; зөрүүг тооцоолохын тулд хөндлөн баталгаажуулалтыг ашиглана [5].

  6. QA-тай тайлбар бичих - дэд бүлэгт хоёр аннотатор; санал зөрөлдөөнийг шийдвэрлэх; гарын авлагыг шинэчлэх.

  7. Энгийн суурь үзүүлэлтийг сургах - эхлээд логистик (жишээ нь, шугаман загвар эсвэл авсаархан трансформатор). Гол нь медаль авах биш өгөгдлийг шалгах явдал юм.

  8. Алдааг шалгах - хаана, яагаад бүтэлгүйтдэг вэ; зөвхөн загвар биш өгөгдлийн багцыг шинэчлэх.

  9. Баримт бичиг - өчүүхэн мэдээллийн хуудас: эх сурвалж, шошго гарын авлагын холбоос, хуваагдал, мэдэгдэж буй хязгаар, лиценз [1].

  10. Төлөвлөгөөний шинэчлэл - шинэ категори, шинэ хэллэг, шинэ домэйнууд ирэх; жижиг, байнга шинэчлэлт хийх хуваарь [3].

Та энэ гогцооноос олон мянган халуун бичлэгээс илүү ихийг сурах болно. Мөн нөөцлөлтийг хадгал. Гуйя.


Багуудад тохиолддог нийтлэг бэрхшээлүүд 🪤

  • Өгөгдлийн алдагдал - хариулт нь онцлог шинж чанарууд руу шилждэг (жишээлбэл, үр дүнг урьдчилан таамаглахын тулд шийдвэрийн дараах талбаруудыг ашиглах). Тийм учраас хуурмаар санагддаг.

  • Гүехэн олон янз байдал - нэг газарзүй эсвэл төхөөрөмж нь дэлхийн дүр төрхтэй байдаг. Туршилтууд нь үйл явдлын эргэлтийг илрүүлэх болно.

  • Шошгоны шилжилт - шалгуур үзүүлэлтүүд цаг хугацааны явцад өөрчлөгддөг боловч шошгоны хөтөч өөрчлөгддөггүй. Өөрийн онтологийг баримтжуулж, хувилбар болго.

  • Дутуу тодорхойлогдоогүй зорилтууд - Хэрэв та муу таамаглалыг тодорхойлж чадахгүй бол таны өгөгдөл бас тийм биш байх болно.

  • Эмх замбараагүй лицензүүд - одоо хусах, дараа нь уучлалт гуйх нь стратеги биш юм.

  • Хэт их өсгөх - хуванцар жимс дээр тогооч бэлтгэх гэх мэт бодит бус олдворуудыг заадаг синтетик өгөгдөл.


Энэ хэллэгийн талаархи хурдан асуултууд ❓

  • "AI өгөгдлийн багц гэж юу вэ?" зүгээр л тодорхойлолт юм уу? Ихэнхдээ, гэхдээ энэ нь загваруудыг найдвартай болгодог уйтгартай хэсгүүдэд санаа тавьдаг дохио юм.

  • Надад үргэлж шошго хэрэгтэй юу? Үгүй. Хяналтгүй, өөрөө хянадаг, RL-ийн тохиргоонууд нь ихэвчлэн тодорхой шошгыг алгасах боловч сонгон шалгаруулах нь чухал хэвээр байна.

  • Би нийтийн өгөгдлийг ямар нэгэн зүйлд ашиглаж болох уу? Үгүй. Лиценз, платформын нөхцөл, нууцлалын үүргийг хүндэтгэ [4].

  • Илүү том эсвэл илүү сайн уу? Аль аль нь, хамгийн тохиромжтой. Хэрэв та сонгох ёстой бол эхлээд илүү сайн сонго.


Төгсгөлийн тайлбар - Та юу дэлгэцийн зураг авах боломжтой 📌

Хэрэв хэн нэгэн танаас хиймэл оюун ухааны мэдээллийн багц гэж юу вэ гэж : Энэ нь загварчлалыг зааж, туршиж үзсэн, үр дүнд нь итгэж болохуйц засаглалаар бүрхэгдсэн, загварчилсан, баримтжуулсан жишээнүүдийн цуглуулга гэж хэлээрэй. Шилдэг өгөгдлийн багцууд нь төлөөлөх, сайн шошготой, хууль ёсны дагуу цэвэр, байнгын засвар үйлчилгээтэй байдаг. Үлдсэн хэсэг нь нарийн ширийн зүйлс - чухал нарийн ширийн зүйлс - бүтэц, хаалт, загвар өмсөгчдийг замын хөдөлгөөнд оруулахаас хамгаалдаг бүх жижиг хашлага. Заримдаа үйл явц нь хүснэгтээр цэцэрлэгжүүлэлт хийх мэт санагддаг; заримдаа пикселийг маллах дуртай. Аль ч тохиолдолд өгөгдөлд хөрөнгө оруулалт хий, тэгвэл таны загварууд хачирхалтай байх болно. 🌱🤖


Лавлагаа

[1] Өгөгдлийн багцад зориулсан мэдээллийн хуудас - Gebru et al., arXiv. Холбоос
[2] Загварын тайлангийн загвар картууд - Mitchell et al., arXiv. Холбоос
[3] NIST хиймэл оюун ухааны эрсдэлийн удирдлагын тогтолцоо (AI RMF 1.0) . Холбоос
[4] Их Британийн GDPR-ийн удирдамж ба нөөц - Мэдээллийн комиссарын алба (ICO). Холбоос
[5] Загалмайн баталгаажуулалт: тооцоологчийн гүйцэтгэлийг үнэлэх - scikit-learn хэрэглэгчийн гарын авлага. Холбоос


Албан ёсны AI Assistant дэлгүүрээс хамгийн сүүлийн үеийн хиймэл оюун ухааныг олоорой

Бидний тухай

Блог руу буцах