Skip to content
mimi

高级AI交互评估员(Codex / Claude Code)

G2i Inc.

Vancouver · flexible Contract Senior $100 – $200/hr 1mo ago

About the role

关于此职位

我们正在寻找经验丰富的软件工程师(高级及以上)来帮助评估与现代编码代理(如OpenAI Codex和Claude Code)的交互质量。

这不像一个传统的工程角色。您不会编写生产代码。您将评估更困难的事情:模型是否像一位优秀的工程师那样思考。

这个角色的实际内容

您将评估AI编码代理在现实场景中的行为,重点关注:

  • 回应是否合理
  • 前言和推理是否有用
  • 输出是否反映出强大的工程判断
  • 交互是否让经验丰富的开发人员感到合适

这个角色关乎工程品味,而不是语法正确性。

您将要做的事情

  • 端到端评估AI生成的编码交互
  • 判断输出是否:
    • 有用
    • 正确(在高层次上)
    • 符合强大工程师的思维方式
  • 评估解释和推理的质量,而不仅仅是代码
  • 区分不同水平的响应质量(例如,什么使某个东西得2分而不是4分)
  • 提供明确、有见地的反馈:
    • 什么有效
    • 什么无效
    • 什么感觉“不对”或具有误导性
  • 帮助定义与工具如Cursor交互时的优秀标准

我们所指的“品味”

我们特别寻找能够回答以下问题的工程师:

  • 这是否感觉像是一个强大的工程师会说的话?
  • 这个解释是有帮助的,还是仅仅在技术上正确?
  • 模型是否很好地引导用户,还是仅仅在输出信息?
  • 这种交互会建立还是削弱信任?

您应该能够做出主观但严格的判断。

您是谁

  • 员工/首席级别工程师(或同等经验)
  • 在以下之一有强大背景:
    • TypeScript / JavaScript
    • Python
  • 使用以下工具的实际经验:
    • OpenAI Codex
    • Claude Code
    • Cursor
  • 深入了解现代AI辅助开发工作流程
  • 能够在不需要完全执行或深入审查每一行代码的情况下评估代码
  • 能够提供直接、有见地的反馈
  • 对“良好工程”的标准要求很高

加分项

  • 有使用Cursor或类似AI优先IDE的经验
  • 之前接触过提示设计或评估工作流程
  • 有指导高级工程师或定义工程标准的经验

参与详情

  • 费率:$100–$200/小时
  • 工作时间:每周约10–20小时
  • 持续时间:至5月初(可能延长)
  • 开始时间:尽快

流程

  • 居家评估练习
  • 一次行为面试

Skills

Claude CodeCodexCursorJavaScriptOpenAI CodexPythonTypeScript

Don't send a generic resume

Paste this job description into Mimi and get a resume tailored to exactly what the hiring team is looking for.

Get started free