Хэзээ нэгэн цагт тэнд суугаад толгойгоо маажиж, энэ зүйл хаанаас гараад байна вэ ? Хиймэл оюун ухаан нь тоостой номын сангуудаар эргэлдэж, YouTube-ийн шортнуудыг заль мэхээр эргэлдүүлдэггүй. Гэсэн хэдий ч энэ нь ямар нэгэн байдлаар лазанья хакердахаас эхлээд хар нүхний физик хүртэл бүх зүйлийн хариултыг олж авдаг - дотор нь ёроолгүй файлын шүүгээ байгаа юм шиг. Бодит байдал нь таны таамаглаж байснаас илүү хачирхалтай, магадгүй илүү сонирхолтой юм. Үүнийг бага зэрэг задалцгаая (тиймээ, замдаа хэд хэдэн домог яриад байж магадгүй).
Энэ нь ид шид мөн үү? 🌐
Энэ нь ид шид биш, гэхдээ заримдаа ийм мэдрэмж төрдөг. Бүрээсний доор юу болж байгаа нь үндсэндээ хэв маягийг урьдчилан таамаглах явдал . Том хэлний загварууд (LLMs) нь таны тархи эмээгийн жигнэмэгийн жорыг баримталдаг шиг баримтуудыг хадгалдаггүй оронд нь өмнөх үгэнд тулгуурлан дараагийн үгийг (жетон) таахад сургагдсан байна [2]. Практикт энэ нь тэд харилцаанд холбогддог гэсэн үг юм: аль үгс нь хоорондоо холбогддог, өгүүлбэрүүд ихэвчлэн хэрхэн бүтдэг, бүхэл бүтэн санаанууд хэрхэн бүтээгдсэн байдаг. Тийм ч учраас гаралт нь сонсогдож байгаа хэдий ч-бүрэн үнэнч байх-энэ нь ойлгох чадвар биш статистикийн дуураймал юм [4].
Тэгэхээр хиймэл оюун ухаанаар үүсгэсэн мэдээллийг юу хэрэгтэй вэ? Цөөн хэдэн зүйл:
-
Өгөгдлийн олон янз байдал - нэг нарийн урсгал биш, тоо томшгүй олон эх сурвалжаас авах.
-
Шинэчлэлтүүд - сэргээх мөчлөггүйгээр хурдан хуучирдаг.
-
Шүүлтүүр - хог хаягдлыг нэвчихээс нь өмнө барьж авахад тохиромжтой (энэ тор нь нүхтэй байдаг ч бодит байя).
-
Хөндлөнгөөс шалгах - эрх мэдлийн эх сурвалжид тулгуурлах (НАСА, ДЭМБ, томоохон их дээд сургуулиуд гэх мэт) нь хиймэл оюун ухааны удирдлагын ихэнх номонд заавал байх ёстой [3].
Гэсэн хэдий ч заримдаа энэ нь өөрөө өөртөө итгэлтэйгээр зохиодог. хий үзэгдэл гэж нэрлэгддэг үү? Үндсэндээ өнгөлсөн утгагүй зүйлийг шулуун царайгаар хүргэсэн [2][3].
Үүний дараа унших дуртай нийтлэлүүд:
🔗 AI сугалааны дугаарыг урьдчилан таамаглаж чадна
AI сугалааны таамаглалын талаархи домог, баримтуудыг судлах.
🔗 AI-д цогц байдлаар хандах нь юу гэсэн үг вэ
Ёс зүй, нөлөөллийн талаархи тэнцвэртэй хэтийн төлөв бүхий хиймэл оюун ухааныг ойлгох.
🔗 Библид хиймэл оюун ухааны талаар юу гэж хэлдэг вэ?
Технологи ба хүний бүтээлийн талаархи библийн хэтийн төлөвийг судлах.
Шуурхай харьцуулалт: AI хаанаас гардаг вэ 📊
Эх сурвалж бүр адил тэгш байдаггүй ч тус бүр өөрийн үүргийг гүйцэтгэдэг. Энд агшин зуурын зураг байна.
| Эх сурвалжийн төрөл | Хэн үүнийг ашигладаг вэ (AI) | Зардал/Үнэ цэнэ | Энэ яагаад ажилладаг вэ (эсвэл ажиллахгүй байна ...) |
|---|---|---|---|
| Ном, нийтлэл | Том хэлний загварууд | Үнэгүй (ш) | Өтгөн, бүтэцтэй мэдлэг - хурдан хөгширдөг. |
| Вэбсайт ба Блогууд | Бараг бүх хиймэл оюун ухаан | Үнэгүй (дуу чимээтэй) | Зэрлэг төрөл зүйл; гялбаа, үнэмлэхүй хогны холимог. |
| Эрдмийн баримт бичиг | Судалгааны хүнд хэлбэрийн хиймэл оюун ухаан | Заримдаа цалинтай байдаг | Хатуу + найдвартай байдал, гэхдээ хатуу үг хэллэгээр илэрхийлсэн. |
| Хэрэглэгчийн өгөгдөл | Хувь хүний хиймэл оюун ухаан | Маш мэдрэмтгий ⚠️ | Хурц оёдол, гэхдээ хувийн нууц нь толгой өвддөг. |
| Бодит цагийн вэб | Хайлттай холбоотой хиймэл оюун ухаан | Үнэгүй (хэрэв онлайн бол) | Мэдээллийг шинэлэг байлгах; сул тал нь цуурхал олшрох эрсдэл юм. |
The Training Data Universe 🌌
Энэ бол "хүүхдийн суралцах" үе шат юм. Хүүхдэд сая сая үлгэрийн ном, мэдээний хайчилбар, Википедиагийн туулайн цоорхойг нэг дор өгнө гэж төсөөлөөд үз дээ. Урьдчилсан бэлтгэл ийм л харагддаг. Бодит ертөнцөд үйлчилгээ үзүүлэгчид олон нийтэд нээлттэй өгөгдөл, лицензтэй эх сурвалж, сургагч багшийн үүсгэсэн текстийг [2].
Дээр нь давхарласан: сайн хариултууд, муу хариултууд, зөв чиглэлд түлхэх - хүч чадлыг эхлүүлэхээс өмнө сонгосон хүний жишээнүүд [1].
Ил тод байдлын анхааруулга: компаниуд бүх нарийн ширийн зүйлийг задруулдаггүй. Зарим хашлага нь нууцлалтай (IP, аюулгүй байдлын асуудал) тул та зөвхөн бодит хольц руу хэсэгчлэн нэвтрэх боломжтой болно [2].
Бодит цагийн хайлт: Нэмэлт оргил 🍒
Зарим загвар өмсөгчид одоо бэлтгэлийнхээ хөөсийг харах боломжтой болсон. Энэ бол "Retrieval-augmented Generation (RAG)" юм - үндсэндээ шууд индекс эсвэл баримт бичгийн дэлгүүрээс хэсэг хэсгүүдийг татаж аваад хариу болгон нэхэх [5]. Мэдээний гарчиг, хувьцааны үнэ зэрэг хурдан өөрчлөгдөж буй зүйлсэд тохиромжтой.
Үрэлт? Интернет бол суут ухаан, хогийн гал хоёрын нэг юм. Шүүлтүүр эсвэл гарал үүслийн шалгалт сул байвал та ямар эрсдэлийн тогтолцооноос сэрэмжлүүлдэг [3] гэх мэт хог хаягдал мэдээлэл буцаагдах эрсдэлтэй.
Түгээмэл шийдэл: компаниуд загваруудаа өөрсдийн дотоод мэдээллийн сандаа холбодог тул хариултууд нь одоогийн хүний нөөцийн бодлого эсвэл шинэчлэгдсэн бүтээгдэхүүний баримт бичгийг жигүүрлэхийн оронд иш татдаг. Бодоод үз дээ: "өө-өө" цөөн хором, илүү найдвартай хариулт.
Нарийн тохируулга: хиймэл оюун ухааны өнгөлгөөний алхам 🧪
Урьдчилан бэлтгэгдсэн загварууд нь бүдүүлэг байдаг. Тиймээс тэд нарийн тааруулж байна :
-
тустай, хор хөнөөлгүй, шударга байхыг заах (хүний санал хүсэлт, RLHF) [1].
-
Найдваргүй эсвэл хортой ирмэгийг зүлгүүрээр буулгах (зохицуулах) [1].
-
Дууны аяыг тохируулах - энэ нь найрсаг, албан ёсны эсвэл хөгжилтэй ёжтой байна уу.
Энэ нь статистикийн нурангид өртөж, харилцан ярианы хамтрагч шиг авирлахын тулд алмазыг өнгөлөх биш юм.
Тохиолдол ба бүтэлгүйтэл 🚧
Үүнийг өө сэвгүй мэт дүр эсгэх хэрэггүй:
-
Галлюцинация - тодорхой буруу хариултууд [2][3].
-
Хязгаарлалт - энэ нь өгөгдөлд шатаасан хэв маягийг тусгадаг; шалгахгүй бол бүр өсгөж болно [3][4].
-
Анхны гар туршлага байхгүй - энэ нь ярьж боловч хэзээ ч амталж байгаагүй [4].
-
Хэт итгэлтэй байдал - зохиол нь мэдэхгүй байсан ч мэддэг шигээ урсдаг. Эрсдлийн хүрээнүүдийн стресс дарцаглах таамаглалууд [3].
Яагаад санагддаг 🧠
Энэ нь ямар ч итгэл үнэмшилгүй, хүний хувьд ой санамжгүй, мэдээжийн хэрэг би байхгүй. ойлгож байгаа мэт уншдаг . Болж буй зүйл бол ердөө л асар том хэмжээний дараагийн токен таамаглал : секундын дотор хэдэн триллион магадлалыг хэмнэдэг [2].
"стохастик тоть" гэж нэрлэдэг .
Хүүхдэд ээлтэй зүйрлэл 🎨
Номын сангийн бүх номыг уншдаг тоть гэж төсөөлөөд үз дээ. Энэ нь олж авдаггүй ч үгсийг ухаалаг мэдрэмж төрүүлэхүйц болгож чадна. Заримдаа энэ нь газар дээр нь байдаг; Заримдаа энэ нь утгагүй юм-гэхдээ хангалттай ур чадварын хувьд та үргэлж ялгааг хэлж чадахгүй.
Үүнийг дуусгах: хиймэл оюун ухааны мэдээлэл хаанаас гардаг вэ 📌
Энгийнээр хэлбэл:
-
Их хэмжээний сургалтын өгөгдөл (олон нийтийн + лицензтэй + сургагч багшийн үүсгэсэн) [2].
-
Дууны ая/зан төлөвийг төлөвшүүлэхийн тулд хүний санал хүсэлтийг нарийн тааруулах
-
Мэдээллийн шууд дамжуулалтад холбогдсон үед сэргээх системүүд
AI ямар нэг зүйлийг "мэддэггүй" - энэ нь текстийг урьдчилан таамагладаг . Энэ бол түүний супер хүч, Ахиллесийн өсгий аль аль нь юм. Доод шугам? Итгэмжлэгдсэн эх сурвалжаас чухал зүйлийг үргэлж шалгаарай [3].
Лавлагаа
-
Ouyang, L. et al. (2022). Хүний санал хүсэлтийн дагуу зааврыг дагаж мөрдөх хэлний загваруудыг сургах (InstructGPT) . arXiv .
-
OpenAI (2023). GPT-4 Техникийн тайлан - лицензтэй, олон нийтийн болон хүний үүсгэсэн өгөгдлийн холимог; дараагийн тэмдгийн таамаглалын зорилго ба хязгаарлалт. arXiv .
-
NIST (2023). AI эрсдэлийн удирдлагын тогтолцоо (AI RMF 1.0) - гарал үүсэл, найдвартай байдал, эрсдэлийн хяналт. PDF .
-
Бендер, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Стохастик тотьны аюулын талаар: Хэлний загварууд хэтэрхий том байж болох уу? PDF .
-
Lewis, P. et al. (2020). Мэдлэг шаардсан NLP-д зориулсан сэргээх-Өргөтгөсөн үеийн . arXiv .