Компьютер дээрээ хиймэл оюун ухаан хэрхэн хийх вэ. Бүрэн гарын авлага.

За, та "хиймэл оюун ухаан" бүтээх талаар сонирхож байна. Холливудын утгаар оршин тогтнолыг авч үздэггүй, харин зөөврийн компьютер дээрээ ажиллуулж болох, таамаглал дэвшүүлдэг, юмс ангилдаг, магадгүй бүр бага зэрэг чатладаг төрлийнх. "Компьютер дээрээ хиймэл оюун ухаан хэрхэн бүтээх вэ" гарын авлага бол таныг юу ч үгүй байдлаас орон нутагт үнэхээр ажилладаг зүйл рүү чирэх гэсэн миний оролдлого юм . Богино холбоос, шулуун шударга санал бодол, хааяа нэг хазайхыг хүлээгээрэй, учир нь үнэнийг хэлэхэд, өөрчлөлт хэзээ ч цэвэр байдаггүй.

Үүний дараа таны унших дуртай нийтлэлүүд:

🔗 Хиймэл оюун ухааны загварыг хэрхэн хийх вэ: бүрэн алхамуудыг тайлбарласан
Хиймэл оюун ухааны загвар бүтээх үйл явцыг эхнээс нь дуустал нь тодорхой тайлбарласан.

🔗 Бэлгэдлийн хиймэл оюун ухаан гэж юу вэ: таны мэдэх ёстой бүх зүйл
Бэлгэдлийн хиймэл оюун ухааны үндэс, түүх болон орчин үеийн хэрэглээг сур.

🔗 Хиймэл оюун ухааны өгөгдөл хадгалах шаардлага: танд юу хэрэгтэй вэ
Үр ашигтай, өргөтгөх боломжтой хиймэл оюун ухааны системүүдийн хадгалах сангийн хэрэгцээг ойлгох.

Одоо яагаад санаа зовох ёстой гэж? 🧭

Учир нь "зөвхөн Google-ийн хэмжээний лабораториуд л хиймэл оюун ухаан хийж чадна" гэсэн эрин үе ард хоцорчээ. Өнөө үед энгийн зөөврийн компьютер, нээлттэй эхийн хэрэгслүүд, зөрүүд зангаараа та имэйлийг ангилах, текстийг нэгтгэх эсвэл зургийг шошголох жижиг загваруудыг бэлтгэж болно. Өгөгдлийн төв шаардлагагүй. Танд зөвхөн дараах зүйлс хэрэгтэй:

төлөвлөгөө,
цэвэрхэн тохиргоо,
мөн машинаа цонхоор шидэхийг хүсэхгүйгээр дуусгаж чадах зорилго.

Үүнийг дагах нь юугаараа үнэ цэнэтэй вэ ✅

“Компьютер дээрээ хиймэл оюун ухаан хэрхэн хийх вэ” гэж асуудаг хүмүүс ихэвчлэн докторын зэрэг хүсдэггүй. Тэд үнэхээр ажиллуулж чадах зүйл хүсдэг. Сайн төлөвлөгөө нь хэд хэдэн зүйлийг агуулдаг:

Бага багаас эхэл: "оюун ухааныг шийдвэрлэх" биш, харин сэтгэл хөдлөлийг ангил.
Давтах чадвар: conda эсвэл venv тул та сандралгүйгээр маргаашийг дахин бүтээж чадна.
Тоног төхөөрөмжийн үнэнч байдал: CPU нь scikit-learn-д тохиромжтой, GPU нь deep net-д тохиромжтой (хэрэв та азтай бол) [2][3].
Цэвэр өгөгдөл: буруу шошготой хог хаягдал байхгүй; үргэлж train/valid/test гэж хуваагдана.
Тодорхой утгатай хэмжүүрүүд: нарийвчлал, нарийвчлал, эргэн санах, F1. Тэнцвэргүй байдлын хувьд ROC-AUC/PR-AUC [1].
Хуваалцах арга: жижиг API, CLI эсвэл демо апп.
Аюулгүй байдал: сэжигтэй өгөгдлийн багц байхгүй, хувийн мэдээлэл алдагдахгүй, эрсдэлийг тодорхой тэмдэглэнэ үү [4].

Эдгээрийг зөв хий, тэр ч байтугай таны "жижиг" загвар ч гэсэн бодит юм.

Аймшигтай харагдахгүй замын зураг 🗺️

Жижиг асуудал + нэг хэмжүүр сонгоно уу.
Python болон хэд хэдэн түлхүүр санг суулгана уу.
Цэвэр орчин бүрдүүл (та дараа нь өөртөө талархах болно).
Өгөгдлийн сангаа ачаалж, зөв хуваана уу.
Тэнэг боловч шударга суурь шугамыг сурга.
Зөвхөн үнэ цэнэ нэмсэн тохиолдолд л мэдрэлийн сүлжээг туршаад үзээрэй.
Демо багцлах.
Ирээдүйд хэдэн тэмдэглэл хөтлөөрэй - та талархах болно.

Хамгийн бага хэрэгсэл: хэт төвөгтэй болгож болохгүй 🧰

Python: python.org сайтаас татаж авна уу.
Орчин: Conda эсвэл venv нь pip-тэй.
Дэвтэр: Тоглоомд зориулсан Юпитер.
Редактор: VS Code, ээлтэй, хүчирхэг.
Гол номын сангууд
- пандас + NumPy (өгөгдлийн маргаан)
- scikit-learn (сонгодог ML)
- PyTorch эсвэл TensorFlow (гүнзгий суралцах, GPU нь материалыг бүтээдэг) [2][3]
- Тэврэлттэй нүүрний хувиргагчид, spaCy, OpenCV (NLP + хараа)
Хурдатгал (заавал биш)
- NVIDIA → CUDA-ийн бүтээн байгуулалтууд [2]
- AMD → ROCm бүтээлтүүд [2]
- Apple → Металл арын хэсэгтэй PyTorch (MPS) [2]

⚡ Хажуугийн тэмдэглэл: Хэрэв та албан ёсны суулгагчдад тохиргооныхоо яг тодорхой командыг өгвөл ихэнх "суулгалтын бэрхшээл" арилдаг . Хуулбарлаад буулгаад дуусгана уу [2][3]

Үндсэн дүрэм: эхлээд CPU дээр мөлхөж, дараа нь GPU дээр гүйнэ.

Өөрийн стекийг сонгох нь: гялалзсан зүйлсээс татгалз 🧪

Хүснэгтийн өгөгдөл → scikit-learn. Логистик регресс, санамсаргүй ой мод, градиентийн өсөлт.
Текст эсвэл зураг → PyTorch эсвэл TensorFlow. Текстийн хувьд жижиг трансформаторыг нарийн тохируулах нь маш том давуу тал юм.
Чатботтой адил → llama.cpp нь зөөврийн компьютер дээр жижиг LLM-үүдийг ажиллуулж чаддаг. Ид шид хүлээх хэрэггүй, гэхдээ энэ нь тэмдэглэл болон хураангуйд ажилладаг [5].

Цэвэр орчны тохиргоо 🧼

# Conda way conda create -n localai python=3.11 conda activate localai # OR venv python -m venv .venv source .venv/bin/activate # Windows: .venv\Scripts\activate

Дараа нь үндсэн зүйлсийг суулгана уу:

pip install numpy pandas scikit-learn jupyter pip install torch torchvision torchaudio # эсвэл tensorflow pip install transformers өгөгдлийн багц

(GPU хувилбаруудын хувьд албан ёсны сонгогчийг [2][3] ашиглаарай.)

Анхны ажиллаж байгаа загвар: жижиг байлга 🏁

Суурь мэдээлэл эхлээд. CSV → онцлог + шошго → логистик регресс.

sklearn.linear_model-с LogisticRegression-г импортлох ... print("Accuracy:", accuracy_score(y_test, preds)) print(classification_report(y_test, preds))

Хэрэв энэ нь санамсаргүй байдлаас илүү үр дүнтэй бол та баярлана. Кофе эсвэл жигнэмэг бол таны сонголт ☕.
Тэнцвэргүй ангиудын хувьд түүхий нарийвчлалын оронд нарийвчлал/санах + ROC/PR муруйнуудыг ажиглаарай [1].

Мэдрэлийн тор (зөвхөн тусалсан тохиолдолд л) 🧠

Тексттэй юу, сэтгэл хөдлөлийн ангилал хэрэгтэй байна уу? Урьдчилан бэлтгэсэн жижиг трансформаторыг нарийн тохируулаарай. Хурдан, цэвэрхэн, таны машиныг шатаахгүй.

трансформатороос AutoModelForSequenceClassification импортлох ... trainer.train() хэвлэх (trainer.evaluate())

Мэргэжлийн зөвлөгөө: жижиг дээжээс эхэл. Өгөгдлийн 1%-ийг алдааг олж засварлах нь цаг хэмнэдэг.

Өгөгдөл: алгасаж болохгүй үндсэн зүйлс 📦

Олон нийтийн мэдээллийн сангууд: Kaggle, Hugging Face, academic repo (лицензийг шалгана уу).
Ёс зүй: хувийн мэдээллийг устгах, эрхийг хүндэтгэх.
Хуваалтууд: сургах, баталгаажуулах, шалгах. Хэзээ ч бүү шагай.
Шошго: Тогтвортой байдал нь гоёмсог загваруудаас илүү чухал юм.

Үнэн бөмбөг: Үр дүнгийн 60% нь архитектурын ид шидээс бус, цэвэр шошгоноос гардаг.

Таныг үнэнч байлгах хэмжүүрүүд 🎯

Ангилал → нарийвчлал, нарийвчлал, эргэн санах, F1.
Тэнцвэргүй олонлогууд → ROC-AUC, PR-AUC нь илүү чухал юм.
Регресс → MAE, RMSE, R².
Бодит байдлын шалгалт → нүдээр хэдэн гаралт харагдана; тоонууд худлаа хэлж болно.

Хэрэгтэй лавлагаа: scikit-learn метрикийн гарын авлага [1].

Хурдатгалын зөвлөмжүүд 🚀

NVIDIA → PyTorch CUDA бүтээх [2]
AMD → ROCm [2]
Apple → MPS арын хэсэг [2]
TensorFlow → албан ёсны GPU суулгалтыг дагах + баталгаажуулах [3]

Гэхдээ суурь шугамаа дуусгахаас өмнө оновчтой болгож болохгүй. Энэ нь машин дугуйтай болохоос өмнө обуд өнгөлөхтэй адил юм.

Орон нутгийн үүсгэгч загварууд: нялх луунууд 🐉

Хэл → llama.cpp [5] файлаар квантжуулсан LLM-үүд . Тэмдэглэл эсвэл кодын зөвлөмжид тохиромжтой, гүнзгий ярианд биш.
Зураг → Тогтвортой диффузийн хувилбарууд байдаг; лицензийг анхааралтай уншина уу.

Заримдаа даалгаварт тохирсон нарийн тохируулгатай Трансформатор нь жижиг техник хангамж дээр хөөсөн LLM-ийг ялдаг.

Сав баглаа боодлын үзүүлэн: хүмүүст дарж үзүүлээрэй 🖥️

Gradio → хамгийн хялбар хэрэглэгчийн интерфэйс.
FastAPI → цэвэр API.
Flask → хурдан скриптүүд.

импортлох градиог gr clf = дамжуулах хоолой ("сэтгэл хөдлөлийн шинжилгээ") ... demo.launch()

Таны хөтөч үүнийг харуулахад ид шид мэт санагддаг.

Эрүүл ухаанаа авардаг зуршлууд 🧠

Хувилбарын хяналтад зориулсан Git.
Туршилтыг хянах MLflow эсвэл тэмдэглэлийн дэвтэр.
DVC эсвэл хэш ашиглан өгөгдлийн хувилбаржуулалт.
Хэрэв бусад хүмүүс таны зүйлсийг ажиллуулах шаардлагатай бол Docker.
Пин хамаарлууд (requirements.txt).

Надад итгээрэй, ирээдүйд та талархах болно.

Алдааг олж засварлах: нийтлэг "өө" гэсэн мөчүүд 🧯

Суулгалтын алдаа байна уу? Зүгээр л env файлыг арчиад дахин бүтээнэ үү.
GPU илрээгүй байна уу? Драйвер таарахгүй байна, хувилбаруудыг шалгана уу [2][3].
Загварчлах нь суралцаж чадахгүй байна уу? Суралцах түвшинг бууруулах, хялбарчлах эсвэл шошгыг цэвэрлэх.
Хэт их тохируулга хийх үү? Тогтмол болгох, хасах, эсвэл зүгээр л илүү их мэдээлэл авах.
Хэтэрхий сайн үзүүлэлт үү? Та тестийн багцыг алдагдуулсан байна (энэ нь таны бодож байгаагаас ч олон удаа тохиолддог).

Аюулгүй байдал + хариуцлага 🛡️

PII зурвас.
Лицензийг хүндэтгэ.
Орон нутгийн-эхлээд = нууцлал + хяналт, гэхдээ тооцооллын хязгаарлалттай.
Эрсдэлийг баримтжуулах (шударга ёс, аюулгүй байдал, уян хатан байдал гэх мэт) [4].

Хэрэгтэй харьцуулах хүснэгт 📊

Багаж хэрэгсэл	Хамгийн сайн нь	Яагаад үүнийг ашиглах вэ?
scikit-learn	Хүснэгтийн өгөгдөл	Хурдан ялалт, цэвэр API 🙂
PyTorch	Захиалгат гүн тор	Уян хатан, асар том нийгэмлэг
ТензорФлоу	Үйлдвэрлэлийн дамжуулах хоолой	Экосистем + үйлчлэх сонголтууд
Трансформерууд	Текст даалгаварууд	Урьдчилан бэлтгэгдсэн загварууд тооцооллыг хэмнэдэг
рашаан сувиллын газар	NLP дамжуулах хоолойнууд	Аж үйлдвэрийн хүч чадал, прагматик
Градио	Демо/интерфейсүүд	1 файл → UI
FastAPI	API-ууд	Хурд + автомат баримт бичиг
ONNX ажиллах хугацаа	Хүрээ хоорондын хэрэглээ	Зөөврийн + үр ашигтай
llama.cpp	Жижиг орон нутгийн LLM-үүд	CPU-д ээлтэй квантжуулалт [5]
Докер	Хуваалцах хүрээ	"Энэ нь хаа сайгүй ажилладаг"

Гурван илүү гүн шумбалт (та үнэндээ ашиглах болно) 🏊

Хүснэгтүүдийн онцлог инженерчлэл → хэвийн болгох, нэг удаагийн халуун, модны загваруудыг туршиж үзэх, хөндлөн баталгаажуулалт [1].
Текстэд зориулсан шилжүүлэн суралцах → жижиг трансформаторуудыг нарийн тохируулах, дарааллын уртыг дунд зэрэг байлгах, ховор ангиудад F1 хийх [1].
Орон нутгийн дүгнэлтийг оновчлох → тоон үзүүлэлт, ONNX экспортлох, кэш токенизаторууд.

Сонгодог алдаанууд 🪤

Хэтэрхий том, хэтэрхий эрт барилга барьж байна.
Өгөгдлийн чанарыг үл тоомсорлох.
Туршилтын хуваалтыг алгасах.
Сохор хуулбарлах-буулгах кодчилол.
Юу ч баримтжуулахгүй байна.

README ч гэсэн хэдэн цагийн дараа хэмнэлт гаргадаг.

Цаг заваа гаргах үнэ цэнэтэй сургалтын материалууд 📚

Албан ёсны баримт бичиг (PyTorch, TensorFlow, scikit-learn, Transformers).
Google ML-ийн краш курс, DeepLearning.AI.
Харааны үндсийн OpenCV баримт бичиг.
NLP дамжуулах хоолойн spaCy хэрэглээний гарын авлага.

Жижигхэн амьдралын хакер: таны GPU суулгах командыг үүсгэдэг албан ёсны суулгагчид бол амь аврах болно [2][3].

Бүгдийг нь нэгтгэж байна 🧩

Зорилго → дэмжлэгийн тасалбаруудыг 3 төрөлд ангилах.
Өгөгдөл → CSV экспорт, нэргүй, хуваасан.
Суурь → scikit-learn TF-IDF + логистик регресс.
Шинэчлэлт → Хэрэв суурь шугам гацвал трансформаторыг нарийн тохируулна уу.
Демо → Gradio текст хайрцаг апп.
Хөлөг онгоц → Докер + УНШИХ МЭДЭЭ.
Давтах → алдааг засах, дахин шошголох, давтах.
Хамгаалалт → баримт бичгийн эрсдэл [4].

Энэ нь уйтгартай үр дүнтэй.

TL;DR 🎂

Компьютер дээрээ хиймэл оюун ухаан хэрхэн хийхийг сурах нь = нэг жижиг асуудлыг сонгоод, суурь шугам байгуулж, зөвхөн тус болсон үед л өргөжүүлж, тохиргоогоо давтах боломжтой байлга. Үүнийг хоёр удаа хийвэл та өөрийгөө чадварлаг гэж мэдрэх болно. Үүнийг таван удаа хийвэл хүмүүс танаас тусламж хүсч эхлэх бөгөөд энэ нь нууцаар хамгийн хөгжилтэй хэсэг юм.

Тийм ээ, заримдаа талх шарагчинд шүлэг бичихийг зааж байгаа юм шиг санагддаг. Зүгээр дээ. Өөрийгөө сайжруулсаар байгаарай. 🔌📝

Лавлагаа

[1] scikit-learn — Хэмжүүр ба загварын үнэлгээ: холбоос
[2] PyTorch — Орон нутгийн суулгац сонгогч (CUDA/ROCm/Mac MPS): холбоос
[3] TensorFlow — Суулгах + GPU баталгаажуулалт: холбоос
[4] NIST — Хиймэл оюун ухааны эрсдэлийн удирдлагын хүрээ: холбоос
[5] llama.cpp — Орон нутгийн LLM репозитор: холбоос

Албан ёсны хиймэл оюун ухааны туслах дэлгүүрээс хамгийн сүүлийн үеийн хиймэл оюун ухааныг олоорой

Бидний тухай

Блог руу буцах