Báo cáo tài liệu vi phạm
Giới thiệu
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
THỊ TRƯỜNG NGÀNH HÀNG
NÔNG NGHIỆP, THỰC PHẨM
Gạo
Rau hoa quả
Nông sản khác
Sữa và sản phẩm
Thịt và sản phẩm
Dầu thực vật
Thủy sản
Thức ăn chăn nuôi, vật tư nông nghiệp
CÔNG NGHIỆP
Dệt may
Dược phẩm, Thiết bị y tế
Máy móc, thiết bị, phụ tùng
Nhựa - Hóa chất
Phân bón
Sản phẩm gỗ, Hàng thủ công mỹ nghệ
Sắt, thép
Ô tô và linh kiện
Xăng dầu
DỊCH VỤ
Logistics
Tài chính-Ngân hàng
NGHIÊN CỨU THỊ TRƯỜNG
Hoa Kỳ
Nhật Bản
Trung Quốc
Hàn Quốc
Châu Âu
ASEAN
BẢN TIN
Bản tin Thị trường hàng ngày
Bản tin Thị trường và dự báo tháng
Bản tin Thị trường giá cả vật tư
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
NGÀNH HÀNG
NÔNG NGHIỆP, THỰC PHẨM
Gạo
Rau hoa quả
Nông sản khác
Sữa và sản phẩm
Thịt và sản phẩm
Dầu thực vật
Thủy sản
Thức ăn chăn nuôi, vật tư nông nghiệp
CÔNG NGHIỆP
Dệt may
Dược phẩm, Thiết bị y tế
Máy móc, thiết bị, phụ tùng
Nhựa - Hóa chất
Phân bón
Sản phẩm gỗ, Hàng thủ công mỹ nghệ
Sắt, thép
Ô tô và linh kiện
Xăng dầu
DỊCH VỤ
Logistics
Tài chính-Ngân hàng
NGHIÊN CỨU THỊ TRƯỜNG
Hoa Kỳ
Nhật Bản
Trung Quốc
Hàn Quốc
Châu Âu
ASEAN
BẢN TIN
Bản tin Thị trường hàng ngày
Bản tin Thị trường và dự báo tháng
Bản tin Thị trường giá cả vật tư
Thông tin
Tài liệu Xanh là gì
Điều khoản sử dụng
Chính sách bảo mật
0
Trang chủ
Công Nghệ Thông Tin
Kỹ thuật lập trình
Biểu diễn ngữ cảnh trong khai triển chữ viết tắt dùng tiếp cận học máy
Đang chuẩn bị liên kết để tải về tài liệu:
Biểu diễn ngữ cảnh trong khai triển chữ viết tắt dùng tiếp cận học máy
Thục Trang
101
5
pdf
Không đóng trình duyệt đến khi xuất hiện nút TẢI XUỐNG
Tải xuống
Bài viết này giải quyết vấn đề chuẩn hóa chữ viết tắt trong văn bản tiếng Việt khi có nhiều lựa chọn để khai triển. Để khử nhập nhằng trong khai triển chữ viết tắt, tiếp cận học máy được sử dụng, trong đó thông tin ngữ cảnh của chữ viết tắt được biểu diễn bởi một trong hai mô hình: Bag-of-words hoặc Doc2vec. | ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG SỐ 05 114 .2017-Quyển 2 31 BIỂU DIỄN NGỮ CẢNH TRONG KHAI TRIỂN CHỮ VIẾT TẮT DÙNG TIẾP CẬN HỌC MÁY REPRESENTING CONTEXT IN ABBREVIATION EXPANSION USING MACHINE LEARNING APPROACH Ninh Khánh Duy Nguyễn Văn Quý Trường Đại học Bách khoa Đại học Đà Nẵng nkduy@dut.udn.vn quynguyen3490@gmail.com Tóm tắt - Chuẩn hóa văn bản là bài toán rất cần thiết trong các Abstract - Text normalization is an essential problem in ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên vì văn bản đầu applications involving natural language processing since the input vào thường chứa nhiều từ không chuẩn như chữ viết tắt chữ số text often contains non-standard words such as abbreviations và từ ngữ nước ngoài. Bài báo này giải quyết vấn đề chuẩn hóa numbers and foreign words. This paper deals with the problem of chữ viết tắt trong văn bản tiếng Việt khi có nhiều lựa chọn để khai normalizing abbreviations in Vietnamese text when there are triển. Để khử nhập nhằng trong khai triển chữ viết tắt tiếp cận học several possible expansions of an abbreviation. To disambiguate máy được sử dụng trong đó thông tin ngữ cảnh của chữ viết tắt the abbreviation expansions the machine learning approach is được biểu diễn bởi một trong hai mô hình Bag-of-words hoặc used in which contextual information of abbreviations is Doc2vec. Các thử nghiệm với bộ phân lớp Naïve Bayes trên một represented by either of the two models Bag-of-words or Doc2vec. bộ dữ liệu chữ viết tắt do chúng tôi xây dựng cho thấy tỉ lệ khai Experiments with Naïve Bayes classifier on a dataset of triển đúng trung bình của hai mô hình Bag-of-words và Doc2vec abbreviations collected by us show that the average ratios of lần lượt là 86 0 và 79 7 . Kết quả thực nghiệm cũng cho thấy expanding correctly for Bag-of-words and Doc2vec are 86.0 and thông tin ngữ cảnh đóng vai trò quan trọng trong việc lựa chọn khai 79.7 respectively. Experimental results also show that triển đúng cho một chữ viết .
TÀI LIỆU LIÊN QUAN
Bài giảng Biểu diễn tri thức
Giáo án Ngữ văn 12 tuần 9: Phát biểu theo chủ đề
Bài giảng Ngữ văn 12 tuần 9: Phát biểu theo chủ đề
Bài giảng Ngôn ngữ biểu diễn Ontology OWL - Lê Thanh Hương
Bài giảng Ngữ văn 12 tuần 13: Luyện tập vận dụng kết hợp các phương thức biểu đạt trong Bài giảng Ngữ văn 12 tuần 13: văn nghị luận
Bài giảng môn Ngữ văn lớp 7 - Tiết 19: Đề văn biểu cảm và cách làm bài văn biểu cảm
Bài giảng Ngôn ngữ hình thức - Chương 1: Đại cương về ngôn ngữ và biểu diễn ngôn ngữ
Thành ngữ biểu hiện ý nghĩa cực cấp trong tiếng Việt
Giáo án Ngữ văn 12 tuần 13: Luyện tập vận dụng kết hợp các phương thức biểu đạt trong văn nghị luận
Bài giảng Ngữ văn 12 tuần 30: Phát biểu tự do
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.