All jobs · Machine Learning Engineer jobs

GI

高级AI交互评估员（Codex / Claude Code）

G2i Inc.

Vancouver · flexible Contract Senior $100 – $200/hr 2mo ago

Apply with a tailored resume Save job

About the role

关于此职位

我们正在寻找经验丰富的软件工程师（高级及以上）来帮助评估与现代编码代理（如OpenAI Codex和Claude Code）的交互质量。

这不像一个传统的工程角色。您不会编写生产代码。您将评估更困难的事情：模型是否像一位优秀的工程师那样思考。

这个角色的实际内容

您将评估AI编码代理在现实场景中的行为，重点关注：

回应是否合理
前言和推理是否有用
输出是否反映出强大的工程判断
交互是否让经验丰富的开发人员感到合适

这个角色关乎工程品味，而不是语法正确性。

您将要做的事情

端到端评估AI生成的编码交互
判断输出是否：
- 有用
- 正确（在高层次上）
- 符合强大工程师的思维方式
评估解释和推理的质量，而不仅仅是代码
区分不同水平的响应质量（例如，什么使某个东西得2分而不是4分）
提供明确、有见地的反馈：
- 什么有效
- 什么无效
- 什么感觉“不对”或具有误导性
帮助定义与工具如Cursor交互时的优秀标准

我们所指的“品味”

我们特别寻找能够回答以下问题的工程师：

这是否感觉像是一个强大的工程师会说的话？
这个解释是有帮助的，还是仅仅在技术上正确？
模型是否很好地引导用户，还是仅仅在输出信息？
这种交互会建立还是削弱信任？

您应该能够做出主观但严格的判断。

您是谁

员工/首席级别工程师（或同等经验）
在以下之一有强大背景：
- TypeScript / JavaScript
- Python
使用以下工具的实际经验：
- OpenAI Codex
- Claude Code
- Cursor
深入了解现代AI辅助开发工作流程
能够在不需要完全执行或深入审查每一行代码的情况下评估代码
能够提供直接、有见地的反馈
对“良好工程”的标准要求很高

加分项

有使用Cursor或类似AI优先IDE的经验
之前接触过提示设计或评估工作流程
有指导高级工程师或定义工程标准的经验

参与详情

费率：$100–$200/小时
工作时间：每周约10–20小时
持续时间：至5月初（可能延长）
开始时间：尽快

流程

居家评估练习
一次行为面试

Skills

Claude CodeCodexCursorJavaScriptOpenAI CodexPythonTypeScript

Similar roles

backend developer

skoobe

Software Architect

L-Acoustics

Frontend Software Developer m/f/d

FLYERALARM

Don't send a generic resume

Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.

Get started free