User:NLP and corpus researcher/sandbox

Sintaktik ierarxik tahlil bu –gaplarni tahlil qilish va ularga informatsion sintaktik tahlillar bilan izoh berishdir. Avtomatik sintaktik tahlil qilishning maqsadi yangi, o`rganilmagan matnlarga aniqlik bilan izoh beradigan inson annotatori bilan solishtirsa bo`ladigan kompyuter dasturlarini yaratish hisoblanadi. Ushbu sintaktik tahlillarni, sintaktik-ierarxik yondashuvlarni yaratishdan maqsad so'zlarni bir biriga bog'laydigan yashirin tuzilmani aniqlashdir. Biz avtomatlashtirilgan tizim ishlab chiqarishga qodir bo'lgan tizim rejalashtirish jarayoni bir qator muhim savollarni tug'diradi masalan tilning haqiqiy tuzilishi borasida. Ehtimoliy yondashuv sifatida xizmat qiluvchi butun dunyo tillari doirasida kuzatilayotgan hodisalarni kuzatuvchi bir qator sintaktik nazariyalar mavzud. Tabiiy tillarni qayta ishlash jarayonining empirik maydoni doirasida tahliliy hodisalar avtomatik sintaktik, daraxtsimon tahlil qilish vazifasini bajaradi. Ta`kidlash joiz, tahliliy tuzilmalarning eng keng tarqalgan uslubi bu kontekstdan ozod holdagi ya`ni kontekstsiz grammatikadir. (Context-free Grammars). Ushbu kontekstsiz grammatika til bilimlarni undagi tarkibiy qismlarni ifodalash va birga qo`shilganda gaplar qanday ma`no anglatishini belgilash orqali aniqlab tahlil qilb boradi. Lavozimi ko`tarilayotgan ayol mukofot bilan taqdirlandi. Biz dastlab yuqorida keltirilgan misolni tahlilini chuqur anglab olishimiz zarur. Undagi olti so`z ishtiroki va dumli gap bo`laklariga ahamiyat beramiz: −Lavozimi ko`tarilayotgan ayol mukofot bilan taqdirlandi. Ot kesim ega ot y-chi kesim OB FB E OB FB Aksariyat tabiiy tillar qayta ishlash (NLP) tizimlari ushbu teglarga kirish huquqiga ega deb hisoblashadi. Gap bo`lakli teglar ya`ni dumlar so`zlarning (morfo) sintaktik sinflarga kirishini ko`rsatuvchi oddiy uyushisqlardir. Bu yerda Penn ierarxiyasi(daraxtsimon tahlili) bo`chicha ko`rsatildi.63 Tagli gap bo`laklari. Gap bo`laklari teglari individual so'zlar bilan bog'langan asosiy morfosintaktik ma'lumotlarni ifodalaydi. Teg to'plamlari hajmi va o'ziga xosligi bo'yicha tilning morfologiyasi va ularning yasovchilari tomonidan qabul qilingan qarorlariga qarab farqlanadi. Quyida bizning misol jumlamiz uchun Penn Treebank teglari keltirilgan: Penn diagrammasi           Tasnifi                               UGBT DT-(A)           Aniqlovchi                                 ANCHI NN-(E)           Ega                                        EGA VBG-(F.K)        Fe`l-kesim                                 KESIM VBN (K, S)       Fe`l o`tgan zamon/ sifatdosh               KESIM VBZ-F. Fe`l, 3-shaxs birlik/hozirgi zamon        KESIM Gapdagi grammatik bog`lanishlar. Kontekstsiz parser daraxtidan osonlikcha tiklanmaydigan ma'lumotlarning bir turi sintaktik boshlanganlik tushunchasi. Misol uchun, gapni tahlili jarayonida gapdagi kesimning to`ldiruvchisi yoki egasini aniqlash kerak bo`ladi. Bu ma`lumotlar izohlanishi va bevosita muqobil formalizmda modellashtirilishi mumkin ya`ni bog`lanishli grammatikada. Bog‘lanish grammatikalari so‘z-so‘z munosabatlariga asoslanadi. Xususan, bog`lanishlar grammatikasi iboralar va tobelanuvhchi daraxtsiimon birliklarni so`zlar va funksional kategoriyali so`zlar o`rtasidagi arkalarga yo`naltirilgan tizilmali kategoriyalarni almashtirishga xizmat qiladi. 64 Quyidagi gapda bir xil gap bo1aklarini bog`lanishlar tahlili ifoda etiladi:

Lavozimi ko`tarilayotgan ayol mukofot bilan taqdirlandi. FB             AB        E        AB          K

Tobelanuvchi grammatik jarayonda so`zlar oralig`i va so`zlarning tub tizilmali birlashuvini biriktirib chiqildi. Ularga parser darxtini tugatishda qanday va qayerda foydalanish mumkinligini ko`rsatuvchi sifatida (ot-ibora, fe`l ibora...., ) deya nom berildi. Bog`lanishlar grammatik tahlilida terminal bo'lmagan so'zlar orasiga yoylar chiziladi, lekin buning o'rniga barcha ma'lumotlar belgili yoyning yo`nalishi va yorlig`ini tanlash orqali amalga oshiriladi. Yoylar ildiz ya`ni bosh so`zlardan bog`lanib keluvchilarga tomon chizilgan. Boshli so`zlar uchun bir qator kriteiyalar mavjud. Masalan, so'z tobe bo'lishi mumkin, chunki u ixtiyoriy so'z (masalan, o'zgartiruvchi) gapning ma'nosiga ta'sir qilmasdan tushirilib qoldirilishi mumkin. So`zlarning tobe bo`lishining boshqa sababi esa ular boshqa so`zlarning ergashuvchisi (masalan otlar fe`llarning ergashuvchisi). Sintaktik boshni aniqlash biroz mushkul. Tobelik grammatikasida biz baholab boradigan modellar daraxtsiom ierarxiyaning asosiy qismi bo`lib xizmat qilsa, bu muhokama qilingan misollarning ba`zilari hajm bo`yicha ko`riladi. Nihoyat funksiya bajaruvchi belgilar har bir yoyga qo`shib boriladi. Masalan, belgilar ot so`z turkumiga kiruvchi ayol so`zini nsubj deb, vositali to`ldiruvchi bo`lgan mukofot bilan so`zini esa dobj deya ko`rsatadi. Tobelanuvchi daraxtsimon tahlilda bir necha o`nlab yasovchilar orasidagi muhim farqlarni ko`rsatuvhi belgi yoylar mavjud. Hisoblash murakkabligi va ekpressivligi. Grammatikada tobelanish va ergashuvchi gaplar tahili, bularning har ikkisi ham tabiiy tillar jarayoni (NLP)da, kompyuter lingvistikasida va ierarxik (daraxtsimon parserda) tahlillovchi treynerlar o`nlab tilar uchun qilinganligi sabab foydalaniladi. Tag gap bo`laklari farqlovchi va tilda lingvistik hodisalarini ajratuvchi hisoblanadi. Qaysi turdagi konstruksiyalarni izohlash va namoyish qilish har ikkalasi ham til xususiyatlari va uni tadbiq qilinishi va foydalanilishi bilan bog`liq bo`lgan amaliy savollar hisoblanuvchi nazariy lingvistik savollardir. Tilning kompyuter ierarxiyasida odatiy grammatikdan rekursiv sanaladigan ierarxiyaga tomon harakatlanishda kompyuterning kuchi chekli holat avtomatidan Tyuring mashinasiga o'tishini hisobga olishini talab qiladi. Shunday qilib, tilni kontekstsiz grammatika bilan tahlil qilishni tanlab biz hisoblashimizni chegaralab, grammatikani tahlil qilishni osonlashtirmoqdamiz faqat pastga surish avtomatlarini talab qiladi (O(n3) da samarali tahlil qilish mumkin). Shu bilan birga, biz murakkabligi va inson tilining ifoda kuchi haqida lingvistik taxminlar qilishimiz mumkin.66 Ushbu formalizatsiyalashda qo`shimvha murakkab jarayonlar kuzatiladi, bular tobe bog`lanib keluvchilarning biri boshqasini yoki bir-birini kesib o`tishiga erishilishiga ruxsat beradi. Bog'liqlik tahlili yan`i parser doirasida bu loyihaviy bo'lmagan tahlil qilish deb nomlanadi Kesishuvchi tobelanishlar O`zbek tilida quruvchi so`zlarni mutanosib so`zi orqali tahlil qilganimizda sodir bo`ladi. Grammatik formalizmda qancha kompyuter kuchi hisoblanishi esa hali ham to`liq anglab yetilmagan jumboqdir Qizil va sariq, olma va banan, mutanosibdir. Tobelanuvchi parserlarda turli xildagi teglar (dumlar) gaplardagi ikki so`zlarning o`zaro bog`liqligini va aloqasini namoyish etishda xizmat qiladi. Ushbu teglar deya ta`kidlaganimiz esa tobelanuvchi teglardir. Masalan: yomg`irli ob-havo jumlasida yomg`irli so`zi ot vazifasidadi ob-havo so`ziniga bog`lanib keladi.