GI
高级AI交互评估员(Codex / Claude Code)
G2i Inc.
Vancouver · flexible Contract Senior $100 – $200/hr 1mo ago
About the role
关于此职位
我们正在寻找经验丰富的软件工程师(高级及以上)来帮助评估与现代编码代理(如OpenAI Codex和Claude Code)的交互质量。
这不像一个传统的工程角色。您不会编写生产代码。您将评估更困难的事情:模型是否像一位优秀的工程师那样思考。
这个角色的实际内容
您将评估AI编码代理在现实场景中的行为,重点关注:
- 回应是否合理
- 前言和推理是否有用
- 输出是否反映出强大的工程判断
- 交互是否让经验丰富的开发人员感到合适
这个角色关乎工程品味,而不是语法正确性。
您将要做的事情
- 端到端评估AI生成的编码交互
- 判断输出是否:
- 有用
- 正确(在高层次上)
- 符合强大工程师的思维方式
- 评估解释和推理的质量,而不仅仅是代码
- 区分不同水平的响应质量(例如,什么使某个东西得2分而不是4分)
- 提供明确、有见地的反馈:
- 什么有效
- 什么无效
- 什么感觉“不对”或具有误导性
- 帮助定义与工具如Cursor交互时的优秀标准
我们所指的“品味”
我们特别寻找能够回答以下问题的工程师:
- 这是否感觉像是一个强大的工程师会说的话?
- 这个解释是有帮助的,还是仅仅在技术上正确?
- 模型是否很好地引导用户,还是仅仅在输出信息?
- 这种交互会建立还是削弱信任?
您应该能够做出主观但严格的判断。
您是谁
- 员工/首席级别工程师(或同等经验)
- 在以下之一有强大背景:
- TypeScript / JavaScript
- Python
- 使用以下工具的实际经验:
- OpenAI Codex
- Claude Code
- Cursor
- 深入了解现代AI辅助开发工作流程
- 能够在不需要完全执行或深入审查每一行代码的情况下评估代码
- 能够提供直接、有见地的反馈
- 对“良好工程”的标准要求很高
加分项
- 有使用Cursor或类似AI优先IDE的经验
- 之前接触过提示设计或评估工作流程
- 有指导高级工程师或定义工程标准的经验
参与详情
- 费率:$100–$200/小时
- 工作时间:每周约10–20小时
- 持续时间:至5月初(可能延长)
- 开始时间:尽快
流程
- 居家评估练习
- 一次行为面试
Skills
Claude CodeCodexCursorJavaScriptOpenAI CodexPythonTypeScript
Don't send a generic resume
Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.
Get started free