우리의 AI는 새벽 3시에 자신의 GitHub 문제를 해결합니다.

Claude를 설정하여 자동으로 버그를 수정하고, PR을 생성하며, 자신의 코드를 검토하도록 하는 방법 — 인간이 키보드를 만지지 않고도 말이죠.

크리스마스 날, 2025

대부분의 팀은 12월 25일에 휴무를 가집니다. 우리도 그랬죠 — 일종의. 하지만 우리의 AI는 그렇지 않았습니다.

크리스마스 날, 우리는 “claude auto issue resolver 추가"라는 제목의 커밋을 푸시했습니다. 이것은 GitHub Actions 워크플로우로, 뭔가 특별한 일을 했습니다: 우리의 리포지토리에 새로운 이슈가 등록되면, Claude가 자동으로 이슈를 읽고, 코드베이스를 분석하고, 수정 사항을 작성하고, 브랜치를 만들고, 풀 리퀘스트를 열었습니다.

인간은 전혀 개입하지 않았습니다. AI가 버그 리포트를 읽고, AI가 버그를 수정하고, AI가 수정을 검토를 위해 제출합니다.

우리는 휴가에서 돌아와서 AI가 작성한 풀 리퀘스트가 기다리고 있는 것을 발견했습니다. 새벽 3시에요.

우리가 이걸 만든 이유

우리는 복잡한 플랫폼을 구축하는 작은 팀입니다. 84일 동안 632개의 커밋을 기록하며 빠르게 배포하고 있습니다. 하지만 속도는 유지 관리의 도전을 만들어냅니다: 버그는 업무 시간에 기다리지 않죠.

상하이에 있는 사용자가 그들의 시간으로 오후 2시에 이슈를 보고합니다. 우리에게는 오전 1시입니다. 전통적인 워크플로우에서는 누군가 일어나서 이슈를 읽고 작업을 시작할 때까지 버그는 8시간 동안 방치됩니다.

자동 이슈 해결기를 사용하면, Claude는 몇 분 안에 이슈를 처리합니다. 우리가 일어날 때쯤이면 수정 사항과 변경된 내용 및 이유에 대한 설명, 자동화된 코드 리뷰가 포함된 풀 리퀘스트가 기다리고 있습니다.

우리는 개발자를 대체하는 것이 아닙니다. 그들에게 시작을 제공합니다. “이슈 읽기, 버그 이해하기, 수정 작성하기, PR 만들기” 대신 아침 워크플로우는 “PR 검토하기, 승인하거나 변경 요청하기, 병합하기"로 바뀝니다.

진화: 이슈 해결기에서 완전한 CI 파이프라인으로

크리스마스 날의 커밋은 시작에 불과했습니다. 이후 몇 주 동안 우리는 전체 자율 개발 파이프라인을 구축했습니다:

자동 이슈 해결. Claude는 새로운 이슈를 읽고, 관련 코드를 분석하고, 수정 사항을 작성하고, PR을 생성합니다. 커밋 메시지는 이슈 번호를 참조합니다. PR 설명은 변경 사항을 설명합니다.

자동화된 코드 리뷰. PR이 생성되면 — 인간이든 Claude든 — 별도의 Claude 인스턴스가 코드를 검토합니다. 버그, 보안 문제, 스타일 위반, 테스트 커버리지를 확인합니다. 리뷰는 인간 리뷰어와 마찬가지로 PR 댓글로 나타납니다.

폐쇄 루프 검증. Claude는 단순히 코드를 작성하는 것이 아닙니다. 테스트를 실행합니다. 테스트가 실패하면, 오류를 읽고 코드를 수정한 후 다시 시도합니다. 테스트가 통과할 때만 PR이 제출됩니다.

PR 자동 생성. Claude가 브랜치를 푸시하면, 변경 사항 요약과 함께 자동으로 PR을 생성합니다. 수동 단계가 필요 없습니다.

메타 순간

AI 플랫폼이 AI를 사용해 스스로를 구축하는 것에는 깊은 만족감이 있습니다.

우리 제품은 사용자가 코드를 실행하고, 파일을 관리하며, 작업을 자동화하는 AI 에이전트를 실행할 수 있게 해줍니다. 그리고 우리의 개발 프로세스는 코드를 실행하고, 파일을 관리하며, 작업을 자동화하는 AI 에이전트를 사용합니다.

우리는 매일 우리의 요리를 먹습니다.

Claude가 우리의 리포지토리에서 이슈를 해결할 때, 그것은 사용자가 LikeClaw에서 AI 에이전트를 실행할 때 사용하는 것과 동일한 패턴을 사용하고 있습니다. 샌드박스 실행. 파일 시스템 접근. 도구 호출. 차이점은 사용자-facing 에이전트는 클라우드의 E2B 샌드박스에서 실행되는 반면, 우리의 CI 에이전트는 GitHub Actions에서 실행된다는 것입니다.

동일한 원칙. 동일한 기능. 동일한 신뢰 모델: AI가 작업을 수행하고, 인간이 결과를 검토합니다.

우리가 배운 것

간결한 PR 요약이 중요합니다. 초기에 Claude는 세 줄 수정에 대해 2,000단어의 PR 설명을 작성했습니다. 우리는 간결한 요약을 강제하기 위해 프롬프트를 조정했습니다. “무엇이 변경되었고 왜"를 두 문장으로, 두 페이지가 아니라요.

AI는 제약이 필요합니다. 가드레일이 없으면, Claude는 때때로 코드베이스의 절반을 리팩토링하여 이슈를 “수정"하곤 했습니다. 우리는 규칙을 추가했습니다: 이슈와 직접 관련된 파일만 변경하세요. 리팩토링하지 마세요. 기능을 추가하지 마세요. 버그를 수정하세요.

코드 리뷰는 실제 문제를 잡아냅니다. 자동화된 코드 리뷰는 실제 버그를 잡아냈습니다 — 널 포인터 위험, 누락된 오류 처리, 잠재적인 보안 문제. 이는 인간 리뷰를 대체하는 것이 아니라, 의미 있는 첫 번째 검토입니다.

새벽 3시의 버그 수정은 실제입니다. 우리는 밤새 보고된 이슈를 수정한 풀 리퀘스트를 받고 일어났습니다. 변경 사항을 검토하고, 병합했습니다. 버그는 아침 커피가 식기 전에 수정되었습니다. 이것이 소프트웨어 개발의 미래입니다.

AI 에이전트의 목적

로렘 입숨을 생성하는 것이 아닙니다. 자기소개서를 작성하는 것이 아닙니다. 스스로 읽을 수 있는 기사를 요약하는 것이 아닙니다.

AI 에이전트는 실제 작업을 자율적으로, 대규모로, 24시간 내내 수행하는 것입니다. 팀이 자는 동안 버그를 수정하고, 저자가 점심을 마치기 전에 코드를 검토하며, 인간이 한 줄도 입력하지 않고 이슈 설명에서 풀 리퀘스트를 생성하는 것입니다.

우리는 처음에 우리 자신을 위해 이걸 만들었습니다. 이제 우리는 모두를 위해 이걸 만들고 있습니다.

이후

AI 지원 버그 수정

문제가 접수되었습니다 (수동 또는 자동으로)
Claude는 몇 분 안에 이를 처리해요.
수정이 완료되었고, PR이 생성되었으며, 코드가 검토되었습니다.
사람이 아침에 PR을 검토해요.
누군가 일어나기 전에 버그가 수정됐어요.

자율 AI 개발에 대한 질문

AI가 코드를 자동으로 프로덕션에 배포하나요?

아니요. AI가 브랜치를 만들고 풀 리퀘스트를 생성해요. 항상 사람이 검토하고 병합하죠. AI는 수정에서 PR로 가는 파이프라인을 가속화하지만, 배포는 여전히 인간의 결정이에요.

AI는 얼마나 자주 잘못될까요?

복잡성에 따라 달라져요. 명확한 오류 메시지가 있는 간단한 버그의 경우, 의외로 정확해요. 복잡한 아키텍처 문제의 경우, 보통 올바른 영역을 찾아내지만 접근 방식에 대해선 인간의 안내가 필요할 수 있어요.

이거 위험하지 않아?

생각보다 적어요. AI는 메인에서가 아니라 브랜치에서 작업해요. 모든 변경 사항은 PR을 통해 진행되죠. AI는 제출하기 전에 명백한 문제에 대해 자신의 코드를 검토하기도 해요. 그리고 항상 사람이 최종 결정을 내립니다.