Khai thác kho ngữ liệu chú giải cú pháp cho phân tích cú pháp tiếng Việt

Bài báo đã trình bày việc phát triển thuật toán trích rút tự động bộ luật của văn phạm PCFG (Probability Context Free Grammar) từ VietTreebank và thuật toán phân tích cú pháp tiếng Việt, xây dựng bộ phân tích cú pháp tiếng Việt trên văn phạm PCFG. Trong đó thuật toán phân tích cú pháp cho mỗi câu được phát triển từ thuật toán của Jurafsky and Martin. Mời các bạn tham khảo! | Khai thác kho ngữ liệu chú giải cú pháp cho phân tích cú pháp tiếng Việt Kü thuËt ®iÖn tö & Khoa häc m¸y tÝnh Khai th¸c kho ng÷ liÖu chó gi¶i có ph¸p cho ph©n tÝch có ph¸p tiÕng ViÖt Phan thÞ Hµ, hµ H¶I Nam Tãm t¾t: Bµi b¸o ®· tr×nh bµy viÖc ph¸t triÓn thuËt to¸n trÝch rót tù ®éng bé luËt cña v¨n ph¹m PCFG (Probability Context Free Grammar) tõ VietTreebank vµ thuËt to¸n ph©n tÝch có ph¸p tiÕng ViÖt, x©y dùng bé ph©n tÝch có ph¸p tiÕng ViÖt trªn v¨n ph¹m PCFG. Trong ®ã thuËt to¸n ph©n tÝch có ph¸p cho mçi c©u ®­îc ph¸t triÓn tõ thuËt to¸n cña Jurafsky and Martin [5]. Víi c¸ch tiÕp cËn cho tiÕng ViÖt, mét c©u ®Çu vµo ®· ®­îc g¸n nh·n tõ lo¹i b»ng c«ng cô cã s½n, trong khi ®èi víi Jurafsky vµ Martin th× c©u ®Çu vµo lµ mét chuçi c¸c tõ ch­a ®­îc g¸n nh·n tõ lo¹i, viÖc t¸ch tõ dùa vµo kho¶ng tr¾ng. Keywords: CFG, PCFG, CYK, PCYK, Treebank, Probability Context Free Grammar, Parser 1. Giíi thiÖu Ph©n tÝch có ph¸p lµ b­íc quan träng trong qu¸ trÝnh xö lý ng«n ng÷ tù nhiªn, víi bé ph©n tÝch có ph¸p chÊt l­îng cao sÏ gióp t¨ng tÝnh hiÖu qu¶ cña c¸c hÖ thèng xö lý ng«n ng÷ tù nhiªn nh­ dÞch m¸y, tãm t¾t v¨n b¶n, c¸c hÖ thèng hái ®¸p . §èi víi tiÕng ViÖt, mäi bé ph©n tÝch có ph¸p ®Òu cÇn bé luËt có ph¸p tiÕng ViÖt, hay cßn gäi lµ v¨n ph¹m cho tiÕng ViÖt, ®­îc biÓu diÔn bëi mét hÖ v¨n ph¹m h×nh thøc cô thÓ nµo ®ã. Bé luËt nµy cã thÓ thu thËp tõ mét sè kho ng÷ liÖu ®­îc x©y dùng trong dù ¸n , ®ã lµ kho ng÷ liÖu chó gi¶i có ph¸p (VietTreebank). Trong VietTreebank, nhãm c¸c chuyªn gia ng«n ng÷ häc ®· thùc hiÖn viÖc chó gi¶i th«ng tin có ph¸p cho mét kho v¨n b¶n tiÕng ViÖt theo ®Þnh d¹ng chó gi¶i thµnh phÇn vµ ®· ®­îc m· hãa d­íi d¹ng ®Æt ngoÆc. Kho ng÷ liÖu ®­îc chia lµm ba tËp t­¬ng øng víi ba møc g¸n nh·n lµ t¸ch tõ, g¸n nh·n tõ lo¹i vµ g¸n nh·n có ph¸p. TËp g¸n nh·n có ph¸p gåm 10471 c©u (225085 ®¬n vÞ tõ vùng). §é dµi cña c¸c c©u n»m trong kho¶ng tõ 2 tíi 105 tõ, víi ®é dµi trung b×nh lµ tõ. Cã

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU LIÊN QUAN
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.