AI-д зориулсан өгөгдөл хадгалах шаардлага

AI-д зориулсан өгөгдөл хадгалах шаардлага: Таны мэдэх ёстой зүйл

Хиймэл оюун ухаан бол зүгээр л хүмүүсийг дуурайдаг гялалзсан загвар өмсөгч, ярьдаг туслахууд биш юм. Энэ бүхний цаана өгөгдлийн уул, заримдаа далай байдаг. Үнэнийг хэлэхэд, энэ өгөгдлийг хадгалах уу? Энд л юмнууд ихэвчлэн замбараагүй болдог. Та зураг таних шугамын талаар ярьж байна уу, эсвэл аварга том хэлний загваруудыг сургаж байна уу, хэрэв та үүнийг сайн бодохгүй бол AI-д зориулсан өгөгдөл хадгалах шаардлага Хадгалалт яагаад ийм араатан байдгийг, ширээн дээр ямар сонголтууд байгааг, мөн та зардал, хурд, цар хүрээг шатаалгүйгээр хэрхэн яаж зохицуулах талаар ярилцъя.

Үүний дараа унших дуртай нийтлэлүүд:

🔗 Өгөгдлийн шинжлэх ухаан ба хиймэл оюун ухаан: Инновацийн ирээдүй
AI болон өгөгдлийн шинжлэх ухаан орчин үеийн инновацийг хэрхэн хөдөлгөж байгааг судлах.

🔗 Хиймэл шингэн оюун ухаан: AI болон төвлөрсөн бус мэдээллийн ирээдүй
Төвлөрсөн бус хиймэл оюун ухааны өгөгдөл болон шинээр гарч ирж буй инновацийн талаархи тойм.

🔗 Таны үзэх ёстой AI хэрэгслүүдийн мэдээллийн менежмент
AI мэдээллийн хадгалалт, үр ашгийг дээшлүүлэх гол стратеги.

🔗 Өгөгдлийн шинжээчдэд зориулсан хиймэл оюун ухааны шилдэг хэрэгслүүд: Шинжилгээний шийдвэр гаргах чадварыг сайжруулна
Өгөгдлийн шинжилгээ, шийдвэр гаргахад түлхэц өгдөг шилдэг хиймэл оюун ухааны хэрэгслүүд.


Тэгэхээр... AI мэдээллийн хадгалалтыг юу сайн болгодог вэ? ✅

Энэ нь зөвхөн "илүү терабайт" биш юм. Жинхэнэ AI-д ээлтэй хадгалах сан нь ашиглах боломжтой, найдвартай бөгөөд сургалтын болон дүгнэлтийн ажлын ачаалалд хангалттай хурдан байх явдал юм.

Анхаарал татахуйц цөөн хэдэн шинж тэмдэг:

  • Өргөтгөх чадвар : Архитектураа дахин бичихгүйгээр GB-ээс PB руу шилжих.

  • Гүйцэтгэл : Өндөр хоцролт нь GPU-г өлсгөх болно; тэд саад бэрхшээлийг уучлахгүй.

  • Илүүдэл : Хормын хувилбарууд, хуулбарлах, хувилбар гаргах - учир нь туршилтууд эвдэрч, хүмүүс ч бас хийдэг.

  • Зардлын үр ашиг : Зөв түвшин, зөв ​​мөч; тэгэхгүй бол хуулийн төсөл татварын шалгалт шиг сэмхэн гүйдэг.

  • Тооцоолоход ойр байх : Хадгалах санг GPU/TPU-ийн хажууд байрлуулах эсвэл өгөгдөл дамжуулах багалзуурыг үзээрэй.

Үгүй бол энэ нь Ferrari-г зүлэгжүүлэгч түлшээр ажиллуулахыг оролдохтой адил юм - техникийн хувьд энэ нь хөдөлдөг, гэхдээ удаан биш.


Харьцуулах хүснэгт: AI-д зориулсан нийтлэг хадгалах сонголтууд

Хадгалах төрөл Хамгийн тохиромжтой Бөмбөгийн талбайн зардал Энэ яагаад ажилладаг вэ (эсвэл ажиллахгүй байна)
Үүлэн объект хадгалах Эхлэл ба дунд хэмжээний үйл ажиллагаа $$ (хувьсагч) Уян хатан, удаан эдэлгээтэй, дата нууруудад тохиромжтой; гарах хураамж + хүсэлтийн цохилтоос болгоомжил
Байгууллагын NAS Мэдээллийн технологийн багтай томоохон байгууллагууд $$$$ Урьдчилан таамаглах боломжтой хоцролт, бүрэн хяналт; урьдчилгаа зардал + байнгын ажиллагааны зардал.
Гибрид үүл Тохиромжтой тохируулга $$$ Орон нутгийн хурдыг уян харимхай үүлтэй хослуулсан; найрал хөгжим нь толгой өвдөхөд хүргэдэг.
Бүх Flash массивууд Гайхалтай судлаачид $$$$$ Инээдтэй хурдан IOPS/дамжуулах чадвар; гэхдээ TCO нь тоглоом биш юм.
Тархсан файлын системүүд AI хөгжүүлэгчид / HPC кластерууд $$–$$$ Зэрэгцээ I/O ноцтой масштабтай (Lustre, Spectrum Scale); үйл ажиллагааны ачаалал бодит юм.

AI мэдээллийн хэрэгцээ яагаад ихсэж байна вэ 🚀

AI бол зүгээр л селфи цуглуулаад байгаа юм биш. Харамсаж байна.

  • Сургалтын багц : ImageNet-ийн ILSVRC нь дангаараа ~1.2 сая шошготой дүрсийг багтаасан бөгөөд домэйны тусгай корпорацууд үүнээс илүү хол давсан байдаг [1].

  • Хувилбар : Шошго, хуваах, нэмэгдүүлэх гэх мэт тохируулга бүр өөр "үнэн"-ийг бий болгодог.

  • Дамжуулах оролтууд : Шууд хараа, телеметр, мэдрэгчийн тэжээл... энэ нь байнгын галын хоолой юм.

  • Бүтэцлэгдээгүй форматууд : Текст, видео, аудио, бүртгэлүүд нь эмх цэгцтэй SQL хүснэгтүүдээс хамаагүй том юм.

Энэ бол таны идэж болох бүх буфет бөгөөд загвар өмсөгч нь амттангаар үргэлж ирдэг.


Cloud vs On-Premises: Дуусашгүй мэтгэлцээн 🌩️🏢

Үүл нь сэтгэл татам харагдаж байна: бараг л хязгааргүй, дэлхий даяарх, хүссэнээрээ төлнө. гарах төлбөрийг харуулах хүртэл - гэнэт таны "хямд" хадгалах сангийн зардал өрсөлдөгч тооцооны зардал [2].

Нөгөө талаас, on-prem нь хяналт, хатуу гүйцэтгэлийг өгдөг боловч та тоног төхөөрөмж, эрчим хүч, хөргөлт, хүүхэд асрах тавиурын хүмүүст зориулж мөнгө төлж байна.

Ихэнх багууд замбараагүй дунд суурьшдаг: эрлийз тохиргоо. Халуухан, мэдрэмтгий, өндөр дамжуулалттай өгөгдлийг GPU-д ойр байлгаж, үлдсэнийг нь үүлэн давхаргад архивлаарай.


Хадгалах зардал 💸

Хүчин чадал нь зөвхөн гадаргуугийн давхарга юм. Нуугдмал зардал нэмэгддэг:

  • Өгөгдлийн хөдөлгөөн : Бүс хоорондын хуулбар, үүл хоорондын дамжуулалт, бүр хэрэглэгчийн гаралт [2].

  • Илүүдэл : 3-2-1- (гурван хувь, хоёр хэвлэл мэдээллийн хэрэгсэл, нэг сайтаас гадуур) зайг иддэг боловч өдрийг хэмнэдэг [3].

  • Эрчим хүч, хөргөлт : Хэрэв энэ нь таны тавиур бол энэ нь таны дулааны асуудал юм.

  • Хоцролт : Хямдралтай байх нь ихэвчлэн мөстлөгийг сэргээх хурдыг илэрхийлдэг.


Аюулгүй байдал ба дагаж мөрдөх: Чимээгүй хэлцэл 🔒

Зохицуулалт нь байт хаана амьдрахыг шууд зааж өгч болно. Их Британийн GDPR-ийн дагуу хувийн мэдээллийг Их Британиас гаргахын тулд хууль ёсны дамжуулах маршрут (ХЗХ, IDTA эсвэл хангалттай байдлын дүрэм) шаардлагатай. Орчуулга: таны хадгалалтын загвар газарзүйг “мэдэх” ёстой [5].

Эхний өдрөөс эхлэн жигнэх үндсэн зүйлс:

  • Шифрлэлт - амрах, аялах.

  • Хандалтын хамгийн бага эрх + аудитын замууд.

  • хамгаалалтыг устгана уу .


Гүйцэтгэлийн саад бэрхшээл: Хоцролт бол чимээгүй алуурчин ⚡

GPU нь хүлээх дургүй. Хадгалалт нь хоцрогдсон бол тэдгээр нь халаагуурыг алдаршуулсан байна. NVIDIA GPUDirect Storage гэх мэт хэрэгслүүд нь CPU-ийн зуучлагчийг багасгаж, өгөгдлийг NVMe-ээс GPU санах ой руу шууд шилжүүлдэг бөгөөд энэ нь яг л том багц сургалтыг хүсдэг [4].

Нийтлэг засварууд:

  • Халуун сургалтын хэлтэрхийд зориулсан NVMe бүх флаш.

  • Зэрэгцээ файлын системүүд (Lustre, Spectrum Scale).

  • GPU-г сул зогсолтгүй байлгахын тулд sharding + prefetch бүхий асинхрон дуудагч.


AI хадгалах санг удирдах практик алхамууд 🛠️

  • Давхарга : NVMe/SSD дээрх халуун хэсгүүд; Архивын хуучирсан багцуудыг объект эсвэл хүйтэн давхарга болгон хадгалах.

  • Dedup + дельта : Үндсэн үзүүлэлтүүдийг нэг удаа хадгал, зөвхөн ялгаа + манифестийг хадгал.

  • Амьдралын мөчлөгийн дүрэм : Хуучин гаралтыг автоматаар давхарлаж, хугацаа нь дуусна [2].

  • 3-2-1 уян хатан байдал : Үргэлж олон хуулбарыг өөр өөр хэвлэл мэдээллийн хэрэгслээр, нэгийг нь тусгаарлаж хадгална [3].

  • Багаж хэрэгсэл : Дамжуулах чадвар, p95/p99 хоцролт, уншилт амжилтгүй, ажлын ачааллаас гарах гарц.


Түргэн (бүтээсэн боловч ердийн) хэрэг 📚

Алсын харааны баг ~20 TB-ийн багтаамжтай үүлэн объектын хадгалалтаар ажиллаж байна. Хожим нь тэд туршилт хийхээр бүс нутгуудад өгөгдлийн багцыг хувилж эхэлдэг. Тэдний зардал нь бөмбөлөг - агуулахаас биш, харин гарах урсгалаас . Тэд халуун хэсгүүдийг GPU кластерт ойрхон NVMe руу шилжүүлж, каноник хуулбарыг объектын санах ойд (амьдралын мөчлөгийн дүрмээр) хадгалж, зөвхөн шаардлагатай дээжийг хавчуулна. Үр дүн: GPU илүү завгүй, төлбөр тооцоо багасч, мэдээллийн эрүүл ахуй сайжирна.


Дугтуйны арын хүчин чадлын төлөвлөлт 🧮

Тооцоолох бүдүүлэг томъёо:

Хүчин чадал ≈ (Түүхий мэдээллийн багц) × (Хуулбарлах хүчин зүйл) + (Урьдчилан боловсруулсан / Өргөтгөсөн өгөгдөл) + (Шалгах цэг + Бүртгэл) + (Аюулгүй байдлын хэмжээ ~15–30%)

Дараа нь эрүүл мэндийг нэвтрүүлэх чадварын эсрэг шалгана уу. Хэрэв зангилаа тус бүрд дуудагч ~2–4 ГБ/с тогтвортой ажиллах шаардлагатай бол та NVMe эсвэл зэрэгцээ FS-ийг ашиглах боломжтой бөгөөд объектын хадгалалт нь үндсэн үнэн юм.


Энэ нь зөвхөн сансар огторгуйн тухай биш 📊

хиймэл оюун ухааны хадгалалтын шаардлага гэж хэлэхэд терабайт эсвэл петабайтыг дүрсэлдэг. Гэхдээ жинхэнэ заль мэх бол тэнцвэртэй байх явдал юм: зардал ба гүйцэтгэл, уян хатан байдал ба дагаж мөрдөх, инноваци ба тогтвортой байдал. AI өгөгдөл ойрын үед багасахгүй. Хадгалах санг загвар дизайн болгон эвхдэг багууд өгөгдлийн намагт живэхээс сэргийлж, бэлтгэлээ ч хурдан хийдэг.


Лавлагаа

[1] Руссаковский нар. ImageNet Large Scale Visual Recognition Challenge (IJCV) — өгөгдлийн багцын хэмжээ ба сорилт. Холбоос
[2] AWS — Amazon S3 Үнэ болон зардал (мэдээлэл дамжуулах, гарах, амьдралын мөчлөгийн үе шат). Холбоос
[3] CISA — 3-2-1 нөөц дүрмийн зөвлөгөө. Холбоос
[4] NVIDIA Docs — GPUDirect Storage тойм. Холбоос
[5] ICO — Олон улсын өгөгдөл дамжуулах тухай Их Британийн GDPR дүрэм. Холбоос


Албан ёсны AI Assistant дэлгүүрээс хамгийн сүүлийн үеийн хиймэл оюун ухааныг олоорой

Бидний тухай

Блог руу буцах