Тэгэхээр хиймэл оюун ухаан гарын үсэг уншиж чадах уу ?
Тийм ээ. Хиймэл оюун ухаан нь гарын үсгийг уншиж чаддаг - заримдаа маш сайн - гэхдээ энэ нь үргэлж төгс байдаггүй. Гар бичмэлийн хэв маяг, сканнердах чанар, хэл, мөн систем нь үнэхээр гар бичмэлд зориулагдсан эсэхээс (зөвхөн хэвлэсэн текст биш) хамааран үр дүн нь ихээхэн хэлбэлзэж болно.
Үүний дараа унших дуртай нийтлэлүүд:
🔗 Бодит хэрэглээнд хиймэл оюун ухаан хэр нарийвчлалтай вэ
Төрөл бүрийн даалгавруудад хиймэл оюун ухааны нарийвчлалд юу нөлөөлж байгааг задлан шинжилдэг.
🔗 Хиймэл оюун ухааныг алхам алхмаар хэрхэн сурах вэ
Хиймэл оюун ухааныг өөртөө итгэлтэйгээр сурч эхлэхэд зориулсан анхан шатны хүмүүст ээлтэй замын зураг.
🔗 Хиймэл оюун ухаан хэр их ус хэрэглэдэг вэ
Хиймэл оюун ухааны усны хэрэглээ хаанаас гаралтай, яагаад гэдгийг тайлбарладаг.
🔗 Хиймэл оюун ухаан чиг хандлага болон хэв маягийг хэрхэн урьдчилан таамагладаг вэ
Загварууд эрэлт, зан байдал, зах зээлийн өөрчлөлтийг хэрхэн урьдчилан таамаглаж байгааг харуулдаг.
Хиймэл оюун ухаан гарын үсэгтэй үсгийг найдвартай уншиж чадах уу? 🤔
Хиймэл оюун ухаан гарын үсгийг уншиж чадах уу? Тийм ээ - орчин үеийн OCR/гар бичмэл таних систем нь зураг болон сканнердсан текстийг гаргаж авах боломжтой, ялангуяа бичвэр нь тогтвортой, зураг нь тодорхой байвал. Жишээлбэл, OCR-ийн түгээмэл платформууд гар бичмэлийг гаргаж авахыг санал болгож буй зүйлийнхээ нэг хэсэг болгон шууд дэмждэг. [1][2][3]
Гэхдээ "найдвартай" гэдэг нь таны юу гэж хэлэхээс үнэхээр хамаарна:
-
Хэрэв та "гол санааг нь ойлгоход хангалттай сайн" - ихэвчлэн тийм ✅
-
Хэрэв та "хууль ёсны нэр, хаяг, эмнэлгийн тэмдэглэлийг шалгахгүйгээр хангалттай нарийвчлалтай" - үгүй, аюулгүй биш 🚩
-
Хэрэв та "ямар ч бичээсийг тэр даруй төгс текст болгон хувирга" - үнэнийг хэлэхэд... үгүй 😬
Хиймэл оюун ухаан дараах үед хамгийн их бэрхшээлтэй тулгардаг:
-
Үсгүүд хоорондоо холилдох (сонгодог курсив бодлого)
-
Бэх нь бүдгэрсэн, цаас нь бүтэцтэй эсвэл гоожиж байна
-
Гар бичмэл нь маш хувийн шинж чанартай (хачин гогцоо, тогтворгүй налуу)
-
Текст нь түүхэн/загварчилсан эсвэл ер бусын үсгийн хэлбэр/зөв бичгийн дүрмийг ашигласан
-
Зураг нь гажуудсан, бүдэг, сүүдэртэй байна (дэнлүүний доор утсан дээр авсан зураг... бид бүгд үүнийг хийсэн)
Тиймээс илүү сайн хүрээ нь: хиймэл оюун ухаан нь курсив үсгийг уншиж чаддаг боловч зөв тохиргоо болон зөв хэрэгсэл хэрэгтэй . [1][2][3]

Яагаад курсив нь "ердийн" OCR-ээс хэцүү байдаг вэ 😵💫
Хэвлэсэн OCR нь Lego тоосгыг уншихтай адил юм - тусдаа хэлбэрүүд, цэгцтэй ирмэгүүд.
Курсив нь спагетти шиг - холбогдсон зураас, тогтворгүй зай, хааяа нэг... уран сайхны шийдвэрүүд 🍝
Өвдөлтийн гол цэгүүд:
-
Сегментчилэл: үсэгнүүд холбогддог тул "нэг үсэг хаана зогсдог вэ" гэдэг нь бүхэл бүтэн асуудал болж хувирдаг
-
Хувилбар: хоёр хүн "ижил" захидлыг огт өөр аргаар бичдэг
-
Контекст хамаарал: замбараагүй үсгийг тайлахын тулд танд үгийн түвшний таавар хэрэгтэй байдаг
-
Дуу чимээний мэдрэмж: бага зэрэг бүдгэрүүлэлт нь үсгийг тодорхойлдог нимгэн зураасыг арчиж чадна
хуучин сургуулийн "тэмдэгт бүрийг тусад нь олох" логикоос илүү машин сургалт / гүнзгий сургалтын загварт тулгуурлах хандлагатай байдаг
Сайн "хиймэл оюун ухаант курсив уншигч"-ыг юу болгодог вэ ✅
Хэрэв та шийдэл сонгож байгаа бол үнэхээр сайн гар бичмэл/курсив тохиргоо нь ихэвчлэн дараахтай байдаг:
-
Гар бичмэлийн дэмжлэг (зөвхөн хэвлэсэн текст биш) [1][2][3]
-
Байршлын мэдлэг (ингэснээр зөвхөн нэг текст мөр биш, баримт бичгүүдийг зохицуулж чадна) [2][3]
-
Итгэлцлийн оноо + хязгаарын хайрцагнууд (ингэснээр та эргэлзээтэй хэсгүүдийг хурдан хянаж болно) [2][3]
-
Хэлний хэрэглээ (холимог бичгийн хэв маяг болон олон хэлний текстүүд байдаг) [2]
-
Аливаа чухал зүйлийн (эмнэлгийн, хууль эрх зүйн, санхүү) хүний давтамжид суурилсан сонголтууд
Мөн - уйтгартай ч гэсэн бодит - энэ нь таны оруулсан мэдээллийг боловсруулах ёстой: зураг, PDF, олон хуудастай сканнердсан, мөн "Би үүнийг машинд өнцгөөр авсан" гэсэн зургууд 😵. [2][3]
Харьцуулсан хүснэгт: хүмүүс "Хиймэл оюун ухаан курсив уншиж чадах уу?" гэж асуухад ашигладаг хэрэгслүүд 🧰
Энд үнийн амлалт байхгүй (учир нь үнэ өөрчлөгдөх дуртай). Энэ бол боломжийн уур амьсгал болохоос төлбөрийн тэрэг биш.
| Хэрэгсэл / Платформ | Хамгийн сайн нь | Энэ яагаад ажилладаг вэ (мөн хаана ажилладаггүй вэ) |
|---|---|---|
| Google Cloud Vision (гар бичвэр бичих чадвартай OCR) [1] | Зураг/сканнердсан файлаас хурдан гаргаж авах | гар бичмэлийг илрүүлэх зориулалттай ; зураг цэвэрхэн байх үед маш сайн суурь үзүүлэлттэй, гар бичмэл эмх замбараагүй болох үед бага сэтгэл ханамжтай байдаг. [1] |
| Microsoft Azure Read OCR (Azure Vision / Document Intelligence) [2] | Холимог хэвлэмэл + гар бичмэл баримт бичиг | Хэвлэсэн + гар бичмэл гаргаж авахыг тодорхой дэмждэг бөгөөд байршил + итгэл үнэмшлийг өгөгдлийг илүү чанга хянахын тулд орон нутгийн контейнеруудаар дамжуулан ажиллуулж болно |
| Амазон Текстракт [3] | Маягт/бүтэцлэгдсэн баримт бичиг + гар бичмэл + “гарын үсэг зурсан уу?” гэсэн шалгалтууд | Текст/гар бичвэр/өгөгдлийг гаргаж авах ба гарын байршил + итгэл үнэмшлийг буцаадаг Signatures . Бүтэц хэрэгтэй үед маш сайн; эмх замбараагүй догол мөрүүдийг хянах шаардлагатай хэвээр байна. [3] |
| Транскрибус [4] | Түүхийн баримт бичиг + нэг гараас авсан олон хуудас | Тодорхой гар бичмэлийн хэв маягт зориулж олон нийтийн загваруудыг ашиглах эсвэл захиалгат загваруудыг сургах |
| Кракен (OCR/HTR) [5] | Судалгаа + түүхийн зохиолууд + захиалгат сургалт | холбогдсон скриптүүдэд тусгайлан тохирсон, сегментчилээгүй мөрийн өгөгдлөөс суралцах боломжтой (ингэснээр та эхлээд курсивыг төгс жижиг үсэг болгон хуваах шаардлагагүй болно). Тохиргоо нь илүү практик юм. [5] |
Гүнзгий шумбалт: хиймэл оюун ухаан хэрхэн гарын үсэгтэй бичвэрийг уншдаг вэ 🧠
Ихэнх амжилттай курсив унших системүүд нь "үсэг бүрийг цэгцлэх" гэхээсээ илүү транскрипц . Тийм ч учраас орчин үеийн OCR баримт бичгүүд нь энгийн тэмдэгтийн загвараас илүү машин сургалтын загварууд болон гар бичмэлийн гаргаж авах талаар ярьдаг. [2][5]
Хялбаршуулсан дамжуулах хоолой:
-
Урьдчилан боловсруулалт (ширээний тохиргоо, дуу чимээг бууруулах, тодосгогчийг сайжруулах)
-
Текстийн хэсгүүдийг (бичих боломжтой газруудыг)
-
Шугамын сегментчилэл (гар бичмэлийн тусдаа мөрүүд)
-
Дарааллыг таних (мөрний дагуух текстийг урьдчилан таамаглах)
-
Гаралт + өөртөө итгэх итгэл (ингэснээр хүмүүс тодорхойгүй хэсгүүдийг хянаж чадна) [2][3]
"Шугамын дагуух дараалал" гэсэн санаа нь гар бичмэлийн загварууд курсорыг даван туулж чаддаг гол шалтгаан юм: тэд "үсгийн хил хязгаар бүрийг төгс таах" албагүй. [5]
Та ямар чанарыг бодитоор хүлээж болох вэ (хэрэглээний тохиолдлоор) 🎯
Энэ бол хүмүүсийн алгасаад дараа нь уурладаг хэсэг. Тэгэхээр... энд байна.
Сайн магадлалтай 👍
-
Шугаман цаасан дээр цэвэрхэн курсор бичээс
-
Нэг зохиолч, тууштай хэв маяг
-
Сайн контрасттай өндөр нягтралтай сканнердах
-
Нийтлэг үгсийн сантай богино тэмдэглэлүүд
Холимог магадлал 😬
-
Ангийн тэмдэглэл (сараамал + сум + захын эмх замбараагүй байдал)
-
Хуулбарын хуулбарууд (мөн хараал идсэн гурав дахь үеийн бүдэгрүүлэлт)
-
Бүдгэрсэн бэхтэй тэмдэглэлүүд
-
Нэг хуудсан дээр олон зохиолч байна
-
Товчлол, хоч, онигоотой тэмдэглэлүүд
Эрсдэлтэй - шүүмжгүйгээр итгэж болохгүй 🚩
-
Эмнэлгийн тэмдэглэл, хууль ёсны баталгаа, санхүүгийн амлалт
-
Нэр, хаяг, үнэмлэхний дугаар, дансны дугаартай аливаа зүйл
-
Ер бусын зөв бичгийн дүрэм эсвэл үсгийн хэлбэр бүхий түүхэн гар бичмэлүүд
Хэрэв энэ нь чухал бол хиймэл оюун ухааны гаралтыг эцсийн үнэн биш, харин ноорог мэтээр авч үз.
Ердийн ажилладаг ажлын урсгалын жишээ:
Гараар бичсэн маягтыг дижиталжуулдаг баг OCR ажиллуулж, дараа нь зөвхөн итгэл багатай талбаруудыг (нэр, огноо, үнэмлэхний дугаар) гараар шалгадаг. Энэ бол "хиймэл оюун ухаан санал болгож, хүн баталгаажуулдаг" гэсэн хэв маяг бөгөөд та хурд , эрүүл ухаанаа хэрхэн хадгалдаг вэ. [2][3]
Илүү сайн үр дүнд хүрэх (хиймэл оюун ухааныг төөрөгдөлд оруулахгүй байх) 🛠️
Зураг авах зөвлөмж (утас эсвэл сканнер)
-
Гэрэлтүүлэг жигд байх ( хуудасны дагуу сүүдрээс зайлсхий)
-
Камерыг цаасан дээр зэрэгцээ
-
Танд хэрэгтэй гэж бодож байгаагаас илүү өндөр нягтралтайгаар үзээрэй
-
Түрэмгий "гоо сайхны шүүлтүүрүүд"-ээс зайлсхий - тэд нимгэн зураасыг арилгаж чадна
Цэвэрлэгээний зөвлөмжүүд (танихаас өмнө)
-
Текстийн хэсэг рүү тайрах (баяртай, ширээний ирмэг, гар, кофены аяга ☕)
-
Контрастыг бага зэрэг нэмэгдүүл (гэхдээ цаасны бүтцийг цасан шуурга болгож болохгүй)
-
Хуудсыг тэгшлэх (ширээ)
-
Хэрэв шугамууд давхцаж эсвэл зах нь замбараагүй байвал тусдаа зургуудад хуваана уу
Ажлын урсгалын зөвлөмжүүд (чимээгүйхэн хүчтэй)
-
Гар бичмэл бичих чадвартай OCR ашиглах (ойлгомжтой сонсогдож байна... хүмүүс үүнийг алгассаар л байна) [1][2][3]
-
Итгэлцлийн оноо : эхлээд итгэл багатай цэгүүдийг хянана уу [2][3]
-
Хэрэв танд нэг зохиолчийн олон хуудас байгаа бол захиалгат сургалтыг (энэ нь "ммм" → "вау" үсрэлт болдог газар юм) [4][5]
Гарын үсэг болон жижиг сараачлагад зориулсан "Хиймэл оюун ухаан курсив уншиж чадах уу?" 🖊️
Гарын үсэг гэдэг бол өөрийн гэсэн араатан юм.
уншигдахуйц текстээс илүү тэмдэгтэй ойр байдаг "нэр болгон хөрвүүлэх" гэхээсээ илүү илрүүлэх Signatures функц нь "бичсэн нэрийг таах" биш харин гарын үсэг/эхний үсгийг илрүүлэх, байршил + итгэлийг буцаахад чиглэдэг. [3]
Тиймээс хэрэв таны зорилго "гарын үсэгнээс хүний нэрийг гаргаж авах" бол гарын үсэг нь бараг уншигдахуйц гар бичмэл биш л бол урам хугарна гэж найдаж болно.
Нууцлал ба аюулгүй байдал: гараар бичсэн тэмдэглэл байршуулах нь үргэлж тайван байдаггүй 🔒
Хэрэв та эмнэлгийн бүртгэл, оюутны мэдээлэл, үйлчлүүлэгчийн маягт эсвэл хувийн захидал боловсруулж байгаа бол эдгээр зургууд хаашаа явж байгаад болгоомжтой хандана уу.
Илүү аюулгүй загварууд:
-
Эхлээд танигчдыг (нэр, хаяг, дансны дугаар) арилгах
-
орон нутгийн/байрны илүүд үзэх (зарим OCR стекүүд нь контейнер байршуулахыг дэмждэг) [2]
-
Чухал талбаруудад хүний шинжилгээний давталттай байгаарай
Давуу тал: зарим баримт бичгийн ажлын урсгалууд нь засварлах хоолойг дэмжихийн тулд байршлын мэдээллийг (хязгаарлах хайрцаг) ашигладаг. [3]
Эцсийн сэтгэгдэл 🧾✨
Хиймэл оюун ухаан гарын үсэгтэй үсгийг уншиж чадах уу? Тийм ээ - мөн дараах тохиолдолд гайхалтай сайн байдаг:
-
зураг цэвэрхэн байна
-
гар бичмэл нь тогтвортой байна
-
Энэ хэрэгсэл нь гар бичмэлийг таних зорилгоор үнэхээр бүтээгдсэн [1][2][3]
Гэхдээ курсив нь угаасаа замбараагүй байдаг тул шударга дүрэм бол: хиймэл оюун ухаан ашиглан транскрипцийг хурдасгаад дараа нь гаралтыг хянана уу .
Лавлагаа
[1] Google Cloud OCR хэрэглээний тойм, үүнд Cloud Vision-ээр дамжуулан гар бичмэл илрүүлэх дэмжлэг багтсан. дэлгэрэнгүй унших
[2] Microsoft-ын хэвлэсэн + гар бичмэл задлах, итгэлцлийн оноо, контейнер байршуулах сонголтуудыг хамарсан OCR (Унших) тойм. дэлгэрэнгүй унших
[3] Textract-ын Signatures функцийг байршил + итгэлцлийн гаралтаар гарын үсэг/эхний үсгийг илрүүлэх зорилгоор тайлбарласан AWS бичлэг.
[4] Текст таних загварыг тодорхой гар бичмэлийн хэв маягт яагаад (ба хэзээ) сургах талаарх Transkribus гарын авлага. дэлгэрэнгүй унших [
5] Холбогдсон скриптүүдийн хувьд сегментчилээгүй мөрийн өгөгдлийг ашиглан OCR/HTR загваруудыг сургах талаархи Kraken баримт бичиг. дэлгэрэнгүй унших