RLHF / Instruction Rater (Preference Labeler)

Levit8 Technologies

📍 Canada, Ontario, Canada

Full-time Information and Record Clerks Posted January 21, 2026

Apply Now Similar Jobs

Job Description

Rate model outputs for quality, helpfulness, safety and instruction-fidelity; perform pairwise comparisons and preference judgments used to train reward models. This is central to RLHF and instruction tuning workflows.

Responsibilities
<...

Apply for this Position

Ready to join Levit8 Technologies? Click the button below to submit your application.

Submit Application

Job Details

Location

Canada, Ontario, Canada

Job Type

Full-time