Хэрэв та сүүлийн хэдэн жил цахилгаангүй, хэвлэл мэдээллийн холболтгүй алслагдсан арал дээр амьдардаггүй байсан бол машин сурах тухай сонссон байх. Өөрөө жолооддог автомашин, чат-бот, AlphaGo, эсвэл урьдчилан таамаглах анализ хийх бүрт машин сургалт арга техникийг хэрэгжүүлсэн байдаг. Түүх өгөгдөл, сайн өгөгдөл элбэг байдаг ч, машинаар сурах нь бизнесийн хувьд хараахан ашиг олох эх үүсвэр болж чадаагүй байна. Гэхдээ одоо цаг үед энэ тал дээр илүү судлагдаж байгаа аж.
1. Data Science ухааны нэр томъёо
Машин сургалт тухай ойлголтыг анх 1950-иад онд анх танилцуулж байсан нь хиймэл оюун ухааны анхдагчдын үе байсан юм. 1950 онд Alan Turing “Тооцоолох техник хэрэгсэл ба оюун ухаан” өгүүлэл хэвлүүлжээ. 1959 онд Arthur Lee Samueal “машин сурах” гэсэн нэр томъёог гаргаж ирсэн. Өнөө үед бидний ашиглаж буй олон онолын нээлтүүд тэр үед хийгдсэн байдаг.
Хамгийн чухал ялгаа нь тооцоолох чадвар, бидний цуглуулж, дүн шинжилгээ хийх боломжтой өгөгдлийн хэмжээ нь өмнөх хэдэн арван жилийнхтэй харьцуулахад ялгаатай юм. Өнөөдөр ухаалаг гар утас нь хэд хэдэн өрөө эзэлж байсан 60-аад оны томоохон компьютерээс илүү их мэдээллийг хадгалж, боловсруулж чаддаг. Сайтар боловсруулсан, жижиг мэдээллийн багцад найдахын оронд олон мянган параметр бүхий том өгөгдлийг ашиглан алгоритм сургах, таамаглал гаргах боломжтой. Өгөгдлийн хэмжээ, чанар нь орчин үеийн машин сургалт арга техникийг статистикээс ялгаж салгаж өгдөг зүйл юм. Статистик нь хэв маягийг олж авахад цөөн хэдэн хувьсагч дээр тулгуурладаг бол машин сургалт нь олон мянган өгөгдлийн шинж чанарыг ашиглан үр дүнтэй ашиглаж болно.
1.1 Data Science
Мэдээллийн шинжлэх ухаан гэдэг нэр томъёо нь 1960-аад оноос хойш бий болжээ. Үүний талаар олон тодорхойлолт байдаг боловч бизнесийн чиг баримжаатай болохыг MailChimp-ийн мэдээллийн ахлах эрдэмтэн John B.Foreman хэлсэн байдаг аж.
“Дата шинжлэх ухаан бол математик, статистикийг ашиглан өгөгдлийг үнэ цэнэтэй ойлголт, шийдвэр, бүтээгдэхүүн болгон хувиргах явдал юм.”
Data Science нь цаг хугацаа өнгөрөх тусам хөгжиж, шинэ “хэрэгсэл” олж авахын хэрээр бизнесийн үндсэн зорилгот ашигтай хэв маягийг олох, өгөгдлөөс үнэтэй ойлголт авахад чиглэгдсэн. Өнөө үед data science нь олон төрлийн салбаруудад ашиглагдаж, янз бүрийн аналитик асуудлуудад туслаж байна. Жишээлбэл, маркетинг хийхдээ үйлчлүүлэгчийн нас, хүйс, байршил, зан төлөвийг судлах нь үйлчлүүлэгчид хэр их худалдан авалт хийх хандлагатай байгааг үнэлэх, өндөр зорилтот кампанит ажил хийх боломжийг олгодог. Банкны хувьд үйлчлүүлэгчдийг гаднын нөлөөллөөр залилангийн гэмт хэрэг хийж байгааг илрүүлэхэд ашигладаг. Эрүүл мэндийн тусламж үйлчилгээнд өвчтөнүүдийн эрүүл мэндийн дэвтэрт, түүхэн мэдээлэлд дүн шинжилгээ хийж ямар өвчин тусах магадлалыг харуулдаг.
Data Science өөр өөр техник, хэрэгслийг ашиглан харилцан уялдаатай олон талбарыг хамардаг.
Data Science мэргэжлийн чиглэлүүд
1.2 Мэдээллийн сан дахь өгөгдлийн олборлолт ба мэдлэгийн нээлт
Диаграмаас харахад Data science-ын үндсэн үйл ажилгаатай холбооттой бүх салбар өгөгдлийн олборлолтой холбоотой байдаг. Өгөгдөл олборлолтын үндсэн асуудал бол бэлэн байгаа өгөгдлийг зураглаж, шингэц сайтай хэлбэрт шилжүүлэх юм. Өгөгдөл олборлолтыг 1984 онд Gregory Piatetsky-Shapio нэвтрүүлсэн үүнийг өгөгдлийн сангаас мэдлэгийг нээлт (KDD) хэмээх өргөн цар хүрээтэй үйл явцын нэг хэсэг гэж үзсэн байна.
Fayyad, Piatetsky-Shapio & Smyth 1996
Өгөгдөл олборлолт ба (KDD-Knowledge Discovery Database) нь зөвхөн өгөгдлийн шинжлэх ухааны гол асуудлыг шийддэг юм шиг санагдаж байгаа боловч машин сургалтаар бизнесийн үр ашгийг нэмэгдүүлдэг.
1.3 Машин сургалт
Мэдээлэл олборлох, маш их алдартай машин сурах хоёрын хооронд ялгаа бий. Машин сургалтын алгоритм хийх нь илүү үнэ цэнтэй ойлголтыг олж авах, энэ нь динамикаар өөрчлөгдөж буй орчинд тасралтгүй ашиглахад ихээхэн чиглэгддэг бөгөөд өмнөх туршлага дээр үндэслэн алгоритмийг тохируулах, давтан сургах, шинэчлэхэд анхаардаг. Машин сургалтын зорилго нь шинэ өгөгдөлд байнга дасан зохицож, тэдгээрээс шинэ хэв маяг, дүрмийг олж илрүүлдэг. Заримдаа үүнийг хүний удирдамж, тодорхой програмчлалгүйгээр хэрэгжүүлэх боломжтой байдаг. Машин сургалт нь сүүлийн үеийн онол, технологийн ололт амжилтаас үүдэн өнөө үед өгөгдлийн шинжлэх ухааны хамгийн динамик хөгжиж буй салбар болжээ. Байгалийн хэлийг боловсруулах (NLP) Siri, Alexa,Spell check, Чимэгэ Keyboard гэх мэт , дүрс таних, эсвэл бүр шинэ зураг, хөгжим, текстийг машинаар бий болгоход хүргэсэн. Машин сургалт нь хиймэл оюун ухааныг бий болгох гол “хэрэгсэл” хэвээр байна.
1.4 Хиймэл оюун ухаан (Artificial Intelligence)
Хиймэл оюун ухаан нь DataScience бүрэн тодорхойлогдож чадаагүй байна. Хиймэл оюун ухааныг бий болгох цаад гол санаа бол машин сургалт аргыг ашиглан хүн шиг сэтгэж, сэтгэх чадвартай хэрэгсэл бий болгох юм. Хиймэл оюун ухааныг албан ёсны болгоход хэцүү байдаг бөгөөд түүнийг тодорхойлох арга нь олон байдаг. Бизнесийн хэлээр хиймэл оюун ухааныг шинэ асуудлыг шийдвэрлэх чадвар гэж ойлгож болно. Асуудлыг шийдэх нь боловсруулах, шалтгаан хайж олох, шүүх, гарсан үр дүнгийг тунгааж бодох үр дүнтэй.
Хүмүүсийн үзэж байгаагаар хиймэл оюун ухааныг машин сургалтын чадвар дээр салбаруудтай холбоотой асуудлыг шийдвэрлэж чадах машин гэж үздэг. Энэ нь тэднийг хүнтэй зарим талаар төстэй болгох юм. Гэсэн хэдий ч ерөнхий хиймэл оюун ухаан (AGI) хэмээх ойлголт нь шинжлэх ухааны уран зөгнөлийн хүрээнд хэвээр байгаа бөгөөд одоо байгаа орчин үеийн дэвшилтэт зүйлстэй хараахан нийцдэггүй. Саяхан Texas Hold’em-д хүмүүсийг зодсон AlphaGo, IBM Watson, эсвэл Libratus зэрэг алдартай системүүд нь хиймэл нарийн оюун ухааны (ANI) төлөөлөгчид юм. Маш алдартай AlphaGo, IBM Watson, Libratus системүүд яг хүнтэй адил болсон байна. Энэ зүйл нь яг адилхан өгөгдөл дээр суурилаж хийгдсэн аргаар хийгдсэн ажил юм.
1.5 Том дата
Том дата гэдэг нь хэт олон талаас харж болох ойлголт юм. Бизнес дэх дижитал өөрчлөлтийн өсөлт нь олон төрлийн болон харилцагчийн, ажилчдийн бүтцэд ороогүй том өгөгдлийг цуглуулж байдаг. Эдгээр нь хүн ам зүй, харилцан үйлчлэл, зан байдал болон шууд утгаараа дижитал хэрэгслээр хянах боломжтой бүх зүйлтэй холбоотой юм. Гэхдээ эхдгээр бүтэцлэгдээгүй өгөгдөл нь том өгөгдөл биш юм.
“Өгөгдөл цуглуулаад байх нь өгөгдлөөс шинэ мэдлэг нээлт олон гэсэн үг биш юм “
Sean McClure, Ph.D. Director, Data Science at Space-Time Insight
Олон тооны мэдээлэл цуглуулах боломжтой боловч энэ нь гүн гүнзгий ойлголтыг олж чадна гэсэн үг биш юм. Том өгөгдлийн тухай ойлголт нь өгөгдөл олборлох, машин сургалтын арга техникийг ашиглан томоохон мэдээллийн багц дахь хэв маягийг олж илрүүлэхийг хэлнэ.
2. Машин сургалт хийх алхамууд
Тэгэхээр бид алгоритмуудыг өгөгдөлд ашигтай хэв маягийг олохын тулд яаж хийх вэ?. Машин сургалт болон ердийн програмчлагдсан алгоритмын хоорондох гол ялгаа нь тодорхой программын тусламжгүйгээр өгөгдлийг боловсруулах чадвартай байдаг. Энэ нь үнэн хэрэгтээ инженерээс өгөгдлийн бичлэгийн төрөл тус бүрийг хэрхэн боловсруулах талаар машинд нарийн зааварчилгаа өгөх шаардлагагүй гэсэн үг юм. Инженерээс өгөгдлийг тус бүрийг хэрхэн боловсруулах талаар машинд нарийн зааварчилгаа өгөх шаардлагагүй гэсэн үг юм. Машин сургалт оролтын өгөгдөлд тулгуурлан эдгээр дүрмийг өөрөө тодорхойлдог.
Аливаа машины сургалтын гүйцэтгэлийн гол олдвор нь түүхэн өгөгдлийн дэд багцаар сургагдсаны дараа алгоритм шинэ өгөгдлийг хэрхэн боловсруулдаг болохыг дүрсэлсэн математик загвар юм. Сургалтын зорилго нь зорилтот утга (шинж чанар), өгөгдлийн объект бүрийн үл мэдэгдэх утгыг томъёолох чадвартай загварыг боловсруулахад оршино. Энэ нь төвөгтэй санагдаж байгаа ч үнэндээ тийм биш юм. Жишээлбэл, та eCommerce дэлгүүрийн үйлчлүүлэгчид худалдан авалт хийх эсвэл худалдан авалт хийхгүй эсэхийг урьдчилан таамаглах хэрэгтэй. Эдгээр урьдчилсан таамаглалууд нь бидний хайж буй зорилтот шинж чанарууд байдаг. Энэ төрлийн таамаглалын загварыг сургахын тулд та алгоритмд шаардлагтай ялгаатай өгөгдлүүдийг оруулах хэрэгтэй (үйлчлүүлэгчид орхисон эсвэл худалдан авалт хийсэн эсэхээс үл хамааран). Энэхүү түүхэн өгөгдлөөс сурч мэдсэнээр загвар нь ирээдүйн өгөгдөлд таамаглал дэвшүүлэх боломжтой болно.
Машин сургалтын ажлын зураглал
Ерөнхий дараах алхамууд байна.
- Дата цуглуулах . Дижитал дэд бүтэц болон бусад эх сурвалжаа ашиглан аль болох их хэрэгцээтэй өгөгдөл цуглуулж, мэдээллийн санд нэгтгэх.
- Дата бэлдэх. Өөрийн өгөгдлийг хамгийн сайн аргаар боловсруулахад бэлтгэх. Өгөгдлийг урьдчилан боловсруулах, цэвэрлэх нь нэлээд боловсронгуй байж болох боловч баганад ижил утгыг өөр өөрөөр хэлбэрээр оруулсан байх ба дутуу утгыг бөглөх, өгөгдлийн бусад алдааг арилгахыг зорьдог (жишээлбэл, 2016 оны 12-р сарын 14, 2016.12.14).
- Өгөгдлийг хуваах. Загварыг сургахын тулд өгөгдлийн дэд хэсгээр салгаж, сургаж шинэ өгөгдөл оруулахад хэр загвар ажиллаж байгааг мэдэхэд хэрэглэгдэнэ.
- Загварыг сургах. Алгоритм нь өгөгдлийн хэв шинж, зан төлөвийг таниж мэдэх.
- Тест болон бататгах загвар. Өгөгдлийн тест, баталгаажуулалтын дэд хэсгүүдийг ашиглан загварын гүйцэтгэлийг үнэлэх, таамаглал хэр үнэн зөв болохыг ойлгох
- Загварын өргөтгөл. Туршилт хийсэн загварыг аналитик шийдлийн нэг хэсэг болгон шийдвэр гаргах тогтолцоондоо оруулах эсвэл хэрэглээнд чадварыг ашиглах боломжийг олгох (жишээлбэл, бүтээгдэхүүний санал болгох системийг сайжруулах).
- Дахин сэргээх. Загварыг шат дараалалтай сайжруулахын тулд шинэ өгөгдлийг цуглуулах.