хиймэл оюун ухааны өгөгдөл хадгалах шаардлага

Хиймэл оюун ухаанд зориулсан өгөгдөл хадгалах шаардлага: Таны мэдэх ёстой зүйлс

Хиймэл оюун ухаан бол зүгээр л гял цал загварууд эсвэл хүмүүсийг дуурайдаг ярьдаг туслахууд биш юм. Энэ бүхний цаана уул мэт, заримдаа далай мэт өгөгдөл байдаг. Үнэнийг хэлэхэд, тэр өгөгдлийг хадгалах уу? Энд л бүх зүйл ихэвчлэн замбараагүй болдог. Та дүрс таних хоолойнуудын талаар ярьж байгаа эсвэл аварга том хэлний загваруудыг сургаж байгаа эсэхээс үл хамааран хиймэл оюун ухааны өгөгдөл хадгалах шаардлага хурдан хяналтаас гарч болзошгүй. Хадгалалт яагаад ийм том амьтан болохыг, ямар сонголтууд байгааг, мөн шатаахгүйгээр өртөг, хурд, цар хүрээг хэрхэн зохицуулах талаар авч үзье.

Үүний дараа таны унших дуртай нийтлэлүүд:

🔗 Өгөгдлийн шинжлэх ухаан ба хиймэл оюун ухаан: Инновацийн ирээдүй
Хиймэл оюун ухаан болон өгөгдлийн шинжлэх ухаан нь орчин үеийн инновацийг хэрхэн хөдөлгөж байгааг судлах.

🔗 Хиймэл шингэн оюун ухаан: Хиймэл оюун ухаан болон төвлөрсөн бус өгөгдлийн ирээдүй
Төвлөрсөн бус хиймэл оюун ухааны өгөгдөл болон шинээр гарч ирж буй инновацийн талаарх тойм.

🔗 Таны анхаарах ёстой хиймэл оюун ухааны хэрэгслүүдийн өгөгдлийн менежмент
Хиймэл оюун ухааны өгөгдлийн хадгалалт болон үр ашгийг сайжруулах гол стратегиуд.

🔗 Өгөгдлийн шинжээчдэд зориулсан шилдэг хиймэл оюун ухааны хэрэгслүүд: Шинжилгээний шийдвэр гаргалтыг сайжруулах
Өгөгдлийн шинжилгээ болон шийдвэр гаргалтыг сайжруулдаг шилдэг хиймэл оюун ухааны хэрэгслүүд.


Тэгэхээр... Хиймэл оюун ухааны өгөгдөл хадгалах систем юугаараа сайн бэ? ✅

Энэ нь зүгээр л "илүү их терабайт" биш юм. Жинхэнэ хиймэл оюун ухаанд ээлтэй хадгалах сан нь сургалтын болон дүгнэлтийн ажлын ачааллын аль алинд нь ашиглахад тохиромжтой, найдвартай, хангалттай хурдан

Анхаарах ёстой хэдэн онцлог шинж чанарууд:

  • Өргөтгөх чадвар : Архитектураа дахин бичихгүйгээр GB-ээс PB руу үсрэх.

  • Гүйцэтгэл : Өндөр хоцрогдол нь GPU-г өлсгөлөнд хүргэх болно; тэд саад бэрхшээлийг уучлахгүй.

  • Давхардал : Хувилбар, хуулбарлалт, хувилбарчлал - учир нь туршилтууд эвдэрдэг, хүмүүс ч бас эвдэрдэг.

  • Зардлын үр ашиг : Зөв шатлал, зөв ​​мөч; эс тэгвээс төлбөр нь татварын аудит шиг сэмхэн гарч ирнэ.

  • Тооцоолоход ойрхон байдал : Хадгалах зайг GPU/TPU-уудын хажууд байрлуул эсвэл өгөгдөл дамжуулах багажийг харна уу.

Үгүй бол энэ нь зүлэг хадагч машины түлшээр Ferrari жолоодох гэж оролдохтой адил юм - техникийн хувьд энэ нь хөдөлдөг ч удаан биш.


Харьцуулсан хүснэгт: Хиймэл оюун ухааны түгээмэл сонголтууд

Хадгалах сангийн төрөл Хамгийн сайн тохирох Зардлын талбай Яагаад ажилладаг (эсвэл ажилладаггүй)
Үүлэн объектын хадгалалт Стартап болон дунд хэмжээний бизнесүүд $$ (хувьсагч) Уян хатан, бат бөх, өгөгдлийн нууруудад төгс тохирно; гаралтын төлбөр + хүсэлтийн цохилтоос болгоомжил.
Байрны NAS Мэдээллийн технологийн багуудтай томоохон байгууллагууд $$$$ Урьдчилан таамаглах боломжтой хоцрогдол, бүрэн хяналт; урьдчилсан капиталын зардал + үргэлжилж буй үйл ажиллагааны зардал.
Эрлийз Үүл Дагаж мөрдөхөд хэцүү тохиргоонууд $$$ Орон нутгийн хурдыг уян хатан үүлтэй хослуулдаг; найрал хөгжим нь толгой өвдөхөд хүргэдэг.
Бүх Флаш Массивууд Төгс төгөлдөр байдалд дуртай судлаачид $$$$$ Инээдтэй хурдан IOPS/гарц; гэхдээ TCO бол тоглоом биш.
Тархсан файлын системүүд Хиймэл оюун ухааны хөгжүүлэгчид / HPC кластерууд $$–$$$ Ноцтой хэмжээний зэрэгцээ I/O (Гялбаа, Спектрийн хэмжээс); үйл ажиллагааны ачаалал бодитой байна.

Хиймэл оюун ухааны өгөгдлийн хэрэгцээ яагаад огцом өсч байна вэ 🚀

Хиймэл оюун ухаан зүгээр л селфи цуглуулж байгаа юм биш. Энэ бол шунал юм.

  • Сургалтын багцууд : ImageNet-ийн ILSVRC нь зөвхөн ~1.2 сая шошготой зургийг багтаасан бөгөөд домэйнд тохирсон корпусууд үүнээс хамаагүй илүү юм [1].

  • Хувилбар : Шошго, хуваалт, нэмэлт өөрчлөлт бүр өөр нэг "үнэн"-ийг бий болгодог.

  • Дамжуулах оролтууд : Шууд хараа, телеметр, мэдрэгчийн тэжээл... энэ бол байнгын галын хоолой юм.

  • Бүтэцлэгдээгүй форматууд : Текст, видео, аудио, логууд - цэвэрхэн SQL хүснэгтүүдээс хамаагүй том хэмжээтэй.

Энэ бол та идэж чадах бүхнээ хийх боломжтой буфет бөгөөд загвар өмсөгч үргэлж амттан авахаар буцаж ирдэг.


Үүлэн технологи ба Байранд ашиглах технологи: Хэзээ ч дуусашгүй мэтгэлцээн 🌩️🏢

Үүлэн технологи нь сонирхол татахуйц харагдаж байна: бараг хязгааргүй, дэлхийн хэмжээний, төлбөрөө төлөх боломжтой. Таны нэхэмжлэхээс гарах төлбөр - гэнэт таны "хямд" хадгалах сангийн зардал өрсөлдөгчийн тооцооллын зардалд хүрэх хүртэл [2].

Нөгөөтэйгүүр, On-prem нь хяналт болон бат бөх гүйцэтгэлийг өгдөг боловч та мөн техник хангамж, цахилгаан, хөргөлт болон хүүхдийн тавиур харах хүмүүст мөнгө төлж байна.

Ихэнх багууд замбараагүй дунд хэсэгт суурьшдаг: эрлийз тохиргоонууд. Халуун, мэдрэмтгий, өндөр хүчин чадалтай өгөгдлийг GPU-тэй ойрхон байлгаж, үлдсэнийг нь үүлэн түвшинд архивладаг.


Хадгалалтын зардал гэнэт нэмэгддэг 💸

Хүчин чадал нь зөвхөн өнгөц давхарга юм. Нууц зардал овоорч байна:

  • Өгөгдлийн хөдөлгөөн : Бүс нутаг хоорондын хуулбар, үүл хоорондын дамжуулалт, тэр ч байтугай хэрэглэгчийн гаралт [2].

  • Давхардал : 3-2-1- (гурван хувь, хоёр медиа, нэг сайтаас гадуур) зай эзэлдэг ч өдрийг хэмнэдэг [3].

  • Цахилгаан ба хөргөлт : Хэрэв энэ нь таны тавиур бол таны халаалтын асуудал юм.

  • Саатлын буулт : Хямд түвшин нь ихэвчлэн мөстлөгийн нөхөн сэргээлтийн хурдыг илэрхийлдэг.


Аюулгүй байдал ба дүрэм журмын хэрэгжилт: Чимээгүй гэрээ зөрчигчид 🔒

Журам нь байтууд хаана байрлаж байгааг шууд утгаар нь зааж өгч болно. Их Британийн GDPR-ийн хувийн мэдээллийг Их Британиас гадагш зөөхөд хууль ёсны дамжуулах замууд (SCC, IDTA эсвэл хүрэлцээний дүрэм) шаардлагатай. Орчуулга: таны хадгалах байгууламжийн дизайн газарзүйг "мэдэх" ёстой [5].

Эхний өдрөөс эхлэн жигнэх үндсэн зарчмууд:

  • Шифрлэлт - амрах болон аялах аль алинд нь.

  • Хамгийн бага эрхтэй хандалт + аудитын мөрүүд.

  • Өөрчлөгдөхгүй байдал эсвэл объектын түгжээ гэх мэт хамгаалалтыг устгана уу


Гүйцэтгэлийн саад тотгор: Хоцрогдол бол чимээгүй алуурчин⚡

GPU-ууд хүлээх дургүй. Хэрэв санах ойн хоцрогдол гарвал тэд алдартай халаагуур юм. NVIDIA GPUDirect Storage CPU-ийн зуучлагчийг багасгаж, өгөгдлийг NVMe-ээс GPU санах ой руу шууд дамжуулдаг - яг л их хэмжээний сургалтын хүсдэг зүйл [4].

Нийтлэг засварууд:

  • Халуун бэлтгэлийн хэлтэрхийд зориулсан NVMe бүх флаш.

  • Олон зангилааны нэвтрүүлэх чадварт зориулсан зэрэгцээ файлын системүүд (Luster, Spectrum Scale).

  • GPU-г сул зогсолтоос сэргийлэхийн тулд sharding + prefetch бүхий асинхрон ачаалагчид.


Хиймэл оюун ухааны хадгалалтыг удирдах практик алхамууд 🛠️

  • Шатлалт : NVMe/SSD дээрх халуун хэлтэрхий; хуучирсан багцуудыг объект эсвэл хүйтэн шатлал болгон архивлана.

  • Dedup + delta : Суурь утгуудыг нэг удаа хадгалж, зөвхөн diff + manifest утгуудыг хадгална.

  • Амьдралын мөчлөгийн дүрэм : Автомат шатлалт болон хуучин гаралтын хугацаа дуусах [2].

  • 3-2-1 уян хатан байдал : Үргэлж олон хуулбарыг өөр өөр хэвлэл мэдээллийн хэрэгслээр хадгалж, нэгийг нь тусгаарлана [3].

  • Хэмжих хэрэгсэл : Гүйцэтгэлийг хянах, p95/p99 хоцрогдол, уншилт амжилтгүй болох, ажлын ачааллаас шалтгаалан гарах гарц.


Түргэн (зохиомол боловч ердийн) тохиолдол 📚

Алсын харааны баг үүлэн объектын хадгалалтад ~20 ТБ багтаамжтайгаар ажлаа эхлүүлэв. Дараа нь тэд туршилт хийх зорилгоор бүс нутгуудад өгөгдлийн багцыг клончилж эхлэв. Тэдний зардал өссөн нь хадгалалтаас биш, харин гарах урсгалаас байв. Тэд халуун хэсгүүдийг GPU кластерын ойролцоох NVMe руу шилжүүлж, каноник хуулбарыг объектын хадгалалтад (амьдралын мөчлөгийн дүрмүүдтэй) хадгалж, зөвхөн хэрэгтэй дээжүүдийг л зүүдэг. Үр дүн: GPU-ууд илүү ачаалалтай, төлбөр багатай, өгөгдлийн эрүүл ахуй сайжирсан.


Дугтуйны ар талын багтаамжийн төлөвлөлт 🧮

Тооцооллын ойролцоо томъёо:

Багтаамж ≈ (Түүхий өгөгдлийн багц) × (Хуулбарлах хүчин зүйл) + (Урьдчилан боловсруулсан / Нэмэлт өгөгдөл) + (Шалгах цэгүүд + Бүртгэлүүд) + (Аюулгүй байдлын хязгаар ~15–30%)

Дараа нь үүнийг дамжуулах чадварын дагуу эрүүл ухаанаар шалгана уу. Хэрэв зангилаа тус бүрийн ачаалагчдад ~2–4 ГБ/с тогтвортой хурд шаардлагатай бол та объектын хадгалалтыг үндсэн үнэний дагуу халуун замуудын хувьд NVMe эсвэл зэрэгцээ FS-ийг хайж байна.


Энэ зөвхөн орон зайн тухай биш 📊

хиймэл оюун ухааны хадгалах шаардлагын талаар ярихдаа терабайт эсвэл петабайт гэж төсөөлдөг. Гэхдээ жинхэнэ заль мэх нь тэнцвэрт байдал юм: өртөг ба гүйцэтгэл, уян хатан байдал ба нийцэл, инноваци ба тогтвортой байдал. Хиймэл оюун ухааны өгөгдөл удахгүй багасахгүй. Хадгалалтаа загвар дизайнд эрт нэгтгэдэг багууд өгөгдлийн намагт живэхээс зайлсхийдэг бөгөөд эцэст нь тэд илүү хурдан бэлтгэл хийдэг.


Лавлагаа

[1] Руссаковский болон бусад. ImageNet-ийн Том хэмжээний Харааны Таних Сорилт (IJCV) — өгөгдлийн багцын хэмжээс ба сорилт. Холбоос
[2] AWS — Amazon S3 Үнэ ба зардал (өгөгдөл дамжуулах, гарах, амьдралын мөчлөгийн түвшин). Холбоос
[3] CISA — 3-2-1 нөөцлөлтийн дүрмийн зөвлөгөө. Холбоос
[4] NVIDIA Docs — GPUDirect Storage тойм. Холбоос
[5] ICO — Олон улсын өгөгдөл дамжуулах Их Британийн GDPR дүрэм. Холбоос


Албан ёсны хиймэл оюун ухааны туслах дэлгүүрээс хамгийн сүүлийн үеийн хиймэл оюун ухааныг олоорой

Бидний тухай

Блог руу буцах