Báo cáo khoa học: "Correlating Human and Automatic Evaluation of a German Surface Realiser"

We examine correlations between native speaker judgements on automatically generated German text against automatic evaluation metrics. We look at a number of metrics from the MT and Summarisation communities and find that for a relative ranking task, most automatic metrics perform equally well and have fairly strong correlations to the human judgements. In contrast, on a naturalness judgement task, the General Text Matcher (GTM) tool correlates best overall, although in general, correlation between the human judgements and the automatic metrics was quite weak. and fluency on automatically generated English paraphrases. .

Bấm vào đây để xem trước nội dung
TÀI LIỆU MỚI ĐĂNG
187    26    1    29-11-2024
476    18    1    29-11-2024
272    23    1    29-11-2024
Đã phát hiện trình chặn quảng cáo AdBlock
Trang web này phụ thuộc vào doanh thu từ số lần hiển thị quảng cáo để tồn tại. Vui lòng tắt trình chặn quảng cáo của bạn hoặc tạm dừng tính năng chặn quảng cáo cho trang web này.