Báo cáo tài liệu vi phạm
Giới thiệu
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
THỊ TRƯỜNG NGÀNH HÀNG
NÔNG NGHIỆP, THỰC PHẨM
Gạo
Rau hoa quả
Nông sản khác
Sữa và sản phẩm
Thịt và sản phẩm
Dầu thực vật
Thủy sản
Thức ăn chăn nuôi, vật tư nông nghiệp
CÔNG NGHIỆP
Dệt may
Dược phẩm, Thiết bị y tế
Máy móc, thiết bị, phụ tùng
Nhựa - Hóa chất
Phân bón
Sản phẩm gỗ, Hàng thủ công mỹ nghệ
Sắt, thép
Ô tô và linh kiện
Xăng dầu
DỊCH VỤ
Logistics
Tài chính-Ngân hàng
NGHIÊN CỨU THỊ TRƯỜNG
Hoa Kỳ
Nhật Bản
Trung Quốc
Hàn Quốc
Châu Âu
ASEAN
BẢN TIN
Bản tin Thị trường hàng ngày
Bản tin Thị trường và dự báo tháng
Bản tin Thị trường giá cả vật tư
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
NGÀNH HÀNG
NÔNG NGHIỆP, THỰC PHẨM
Gạo
Rau hoa quả
Nông sản khác
Sữa và sản phẩm
Thịt và sản phẩm
Dầu thực vật
Thủy sản
Thức ăn chăn nuôi, vật tư nông nghiệp
CÔNG NGHIỆP
Dệt may
Dược phẩm, Thiết bị y tế
Máy móc, thiết bị, phụ tùng
Nhựa - Hóa chất
Phân bón
Sản phẩm gỗ, Hàng thủ công mỹ nghệ
Sắt, thép
Ô tô và linh kiện
Xăng dầu
DỊCH VỤ
Logistics
Tài chính-Ngân hàng
NGHIÊN CỨU THỊ TRƯỜNG
Hoa Kỳ
Nhật Bản
Trung Quốc
Hàn Quốc
Châu Âu
ASEAN
BẢN TIN
Bản tin Thị trường hàng ngày
Bản tin Thị trường và dự báo tháng
Bản tin Thị trường giá cả vật tư
Thông tin
Tài liệu Xanh là gì
Điều khoản sử dụng
Chính sách bảo mật
0
Trang chủ
Công Nghệ Thông Tin
Cơ sở dữ liệu
So sánh các độ đo trong phân cụm văn bản tiếng Việt
Đang chuẩn bị liên kết để tải về tài liệu:
So sánh các độ đo trong phân cụm văn bản tiếng Việt
Minh Hưng
341
9
pdf
Không đóng trình duyệt đến khi xuất hiện nút TẢI XUỐNG
Tải xuống
Bài viết trình bày tập trung nghiên cứu so sánh các độ đo sử dụng trong các giải thuật phân cụm phổ biến như HDBSCAN, PAM và Hierarchical Clustering để tìm độ đo thích hợp cho các thuật toán. Nghiên cứu thực hiện so sánh các giải thuật phân cụm sử dụng các độ đo Euclidean, City-Block, Cosine, Jaccard Coefficient và Chebyshev trên tập dữ liệu gồm 2,000 văn bản được thu thập ngẫu nhiên từ hai trang báo điện tử vnexpress.net và vietnamnet.vn. | Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR Huế ngày 07-08 6 2019 DOI 10.15625 vap.2019.00053 SO SÁNH CÁC ĐỘ ĐO TRONG PHÂN CỤM VĂN BẢN TIẾNG VIỆT Tô Khánh Toàn1 Võ Hải Đăng2 Trần Thị Cẩm Tú3 Trƣơng Quốc Định2 Huỳnh Xuân Hiệp2 1 Khoa Công nghệ thông tin Trường Đại học Bạc Liêu 2 Khoa Công nghệ thông tin và Truyền thông Trường Đại học Cần Thơ 3 Khoa Công nghệ thông tin Trường Đại học Sư phạm Kỹ thuật Vĩnh Long tktoan@blu.edu.vn vhdang@ctu.edu.vn tuttc@vlute.edu.vn tqdinh@ctu.edu.vn hxhiep@ctu.edu.vn TÓM TẮT Phân cụm văn bản là quá trình nhóm các tập văn bản có các tính chất tương tự nhau trong một tập dữ liệu vào các cụm sao cho các văn bản trong cùng một cụm có các tính chất tương đồng nhau. Phân cụm văn bản đóng vai trò quan trọng trong các lĩnh vực như phân loại văn bản tự động trích xuất chủ đề văn bản tự động hay tìm kiếm và trích lọc thông tin. Có nhiều giải thuật phân cụm đã được đề xuất trong các nghiên cứu về phân cụm văn bản. Mỗi thuật toán sử dụng các độ đo tương tự hay độ đo khoảng cách để xác định một văn bản giống hay khác biệt với các văn bản khác. Do đó việc chọn độ đo không phù hợp sẽ cho ra kết quả phân cụm không mong muốn. Trong bài báo này chúng tôi tập trung nghiên cứu so sánh các độ đo sử dụng trong các giải thuật phân cụm phổ biến như HDBSCAN PAM và Hierarchical Clustering để tìm độ đo thích hợp cho các thuật toán. Nghiên cứu thực hiện so sánh các giải thuật phân cụm sử dụng các độ đo Euclidean City-Block Cosine Jaccard Coefficient và Chebyshev trên tập dữ liệu gồm 2 000 văn bản được thu thập ngẫu nhiên từ hai trang báo điện tử vnexpress.net và vietnamnet.vn. Kết quả thực nghiệm cho thấy giải thuật HDBSCAN kết hợp độ đo Euclidean cho ra kết quả tốt nhất so với các kết hợp còn lại Độ đo Chebyshev cho ra kết quả tốt nhất trên giải thuật PAM với k 3. Từ khóa HDBSCAN PAM Hierarchical Clustering Euclidean Jaccard Coefficient Cosine City-Block Chebyshev phân cụm văn bản tiếng Việt. I. PHÂN CỤM
TÀI LIỆU LIÊN QUAN
So sánh các từ chỉ mức độ màu sắc trong tiếng Nhật và tiếng Việt
Luận văn tốt nghiệp đại học: Xác định hoạt độ của các đồng vị phóng xạ trong mẫu Moss – Soil bằng hệ phổ kế Gamma phông thấp cho bài toán so sánh quốc tế của Iaea
Đồ án: Tìm hiểu và so sánh các kỹ thuật mã hóa trong kết nối VPN
So sánh các độ đo trong phân cụm văn bản tiếng Việt
Tính toán và so sánh độ khó của câu hỏi theo các lí thuyết khảo thí cổ điển - hiện đại bằng các phần mềm CETA/R
Tiểu luận:So sánh sự khác nhau trong nội dung của các khái niệm lợi thế trong thương mại quốc tế. Theo các dấu hiệu lợi thế, hãy phân tích nội dung quan hệ thương mại của các nước đang phát triển với các nước phát triển. Bình luận về hiệu ứng (trước mắt và lâu dài) của mối quan hệ thương mại này đối với các nước đang phát triển
So sánh các tội xâm phạm chế độ HN&GĐ trong luật hình sự Cộng hòa Pháp và luật hình sự Việt Nam
Đánh giá chất lượng mô hình Galerkin-mờ mô tả trường nhiệt độ trong vật nung dày trên cơ sở so sánh với các mô hình thực nghiệm
Tiểu luận môn học Pháp luật đại cương: Trình bày và so sánh các kiểu pháp luật trong lịch sử - Từ đó rút ra ưu nhược điểm
Tạp chí khoa học: So sánh các quy định về trách nhiệm do vi phạm hợp đồng trong Luật Thương mại Việt Nam 2005 và Công ước Viên 1980
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.