Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 5a - Viện Công nghệ Thông tin và Truyền thông

Bài giảng Xử lý ngôn ngữ tự nhiên (Natural language processing): Bài 5a cung cấp cho học viên những nội dung về: phân tích cú pháp; bài toán phân tích cú pháp; các ứng dụng của phân tích cú pháp; dạng chuẩn Chomsky; văn phạm phi ngữ cảnh (Context-Free Grammar); . Mời các bạn cùng tham khảo chi tiết nội dung bài giảng! | Phân tích cú pháp Viện Công nghệ Thông tin và Truyền thông 1 Bài toán PTCP cây PTCP mẫu P T tính độ chính xác C điểm câu P Các bộ PTCP cây cú pháp hiện nay có độ Văn phạm chính xác cao Eisner Collins Charniak etc. 2 Các ứng dụng của PTCP Dịch máy Alshawi 1996 Wu 1997 . các thao tác với cây tiếng Anh tiếng Việt Nhận dạng tiếng nói sử dụng PTCP Chelba et al 1998 Put the file in the folder. Put the file and the folder. 3 3 Các ứng dụng của PTCP Kiểm tra ngữ pháp Microsoft Trích rút thông tin Hobbs 1996 Kho văn bản CSDL NY Times câu truy vấn 4 4 Định nghĩa Văn phạm grammar là dạng biểu diễn hình thức của các cấu trúc được chấp nhận trong 1 ngôn ngữ Thuật toán PTCP parsing algorithm là phương pháp xác định cấu trúc câu trên cơ sở ngữ pháp đã có. Chương trình PTCP parser là chương trình xác định cấu trúc ngữ pháp của câu. 5 Ví dụ về văn phạm Văn phạm 1 tập luật viết lại Ký hiệu kết thúc các ký hiệu không thể phân rã được nữa. Ký hiệu không kết thúc các ký hiệu có thể phân rã được. Xét văn phạm G S NP VP NP John garbage VP laughed walks G có thể sinh ra các câu sau John laughed. John walks. Garbage laughed. Garbage walks. 6 Ví dụ về văn phạm Phân tích câu Bò vàng gặm cỏ non Cây cú pháp C Tập luật C CN VN CN VN CN DN VN ĐgN DN ĐgN ĐgN ĐgT DN DT TT ĐgT DN DN DT TT Bò vàng gặm DT TT cỏ non 7 Văn phạm Một văn phạm sản sinh là một hệ thống G T N S R trong đó T terminal tập ký hiệu kết thúc N non terminal tập ký hiệu không kết thúc S start ký hiệu khởi đầu R rule tập luật R T N gọi là luật sản xuất 8 Ví dụ G1 a b X X X X aXb Xác định L G1 G2 a b X X X X aXb X XX Xác định L G2 9 Dạng chuẩn Chomsky Mọi NNPNC không chứa đều có thể sinh từ một văn phạm trong đó mọi sản xuất đều có dạng A BC hoặc A a với A B C N và a T Ví dụ Tìm dạng chuẩn Chomsky cho văn phạm G với T a b N S A B R như sau S bA aB A bAA aS a B aBB bS b 10 Văn phạm phi ngữ cảnh Context-Free Grammar còn gọi là văn phạm cấu trúc đoạn G T tập các ký hiệu kết thúc terminals N - tập các ký hiệu không kết thúc .

Không thể tạo bản xem trước, hãy bấm tải xuống
TÀI LIỆU MỚI ĐĂNG
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.