Seongsu Bae

Chain of Thought Prompting Elicits Reasoning in Large Language Models 리뷰

[1] Chain of Thought Prompting

Large language models 언어 모델의 크기를 계속해서 키우는 것은 모델의 성능을 향상시킬뿐만 아니라 데이터 효율성과 같은 측면에서 많은 장점을 갖고 있습니다. 그 중에서도 가장 큰 장점은 큰 언어 모델 하나로 다양한 태스크들을 수행할 수 있다는 것입니다. 특히, GPT-3의 in-context few-shot learning처럼 큰 언어 모델은 몇 개의 예제를 미리 보여주는 (exemplar-based) prompting 방식을 통해, 추가 학습없이 좋은 성능을 낼 수 있습니다.

Standard prompting 하지만, 단순히 언어모델의 크기를 키우는 것으로 산수, 상식, 기호 등을 동반한 복잡한 추론 작업들을 쉽게 수행할 수 있는 것은 아닙니다. 일반적인 (exemplar-based) prompting 방식은 (문제, 답)과 같은 단순한 쌍의 나열을 사용하고 있으므로 문제를 풀기 위한 모든 추론 과정을 모델 내부에서 해결해야 하기 때문입니다.

Chain of thought prompting 만약 (문제, 답)이 아니라 (문제, 일련의 추론 과정들, 답)의 형태로 prompting을 한다면 어떻게 될까요? 마치 사람이 복잡한 문제를 해결하기 위해 단계적인 추론 과정을 거쳐 최종 결과에 도달 하듯이, 해당 prompting의 언어 모델은 일련의 추론 과정들을 먼저 디코딩한 뒤 최종 결과를 출력하게 될 것입니다. 본 연구에서는 이러한 일련의 intermediate reasoning step들을 명시적으로 사용하여 prompting을 하는 chain of thought prompting 방식을 제안하고 있습니다. 해당 prompting 방식을 활용해 총 3가지 reasoning 태스크 (arithmetic/commonsense/symoblic)에서 기존 large language model의 reasoning 성능을 높일 수 있다는 것을 보입니다.

각 실험에 들어서기 전에 가장 먼저 떠오르는 질문은 “chain-of-thought에 해당하는 prompt를 과연 어떻게 주는가?”이지 않을까 싶습니다. 각 데이터셋마다 universal하게 쓰일 prompt 하나를 사람이 직접 작성하게 됩니다. 하나의 prompt는 보통 소량의 학습 데이터를 활용해 작성한 여러 예제들로 구성됩니다.

모든 실험에서 일관적으로 관찰된 결과로, chain of thought prompting은 큰 언어 모델(i.e., PaLM 540B)일수록 효과적인 성능을 보입니다. 당연하게도, Chain-of-thought로 중간 추론 과정을 명시적으로 주더라도 입출력과 연결할 수 있는 capacity가 없으면 말짱 도루묵이기 때문입니다. 해당 연구의 경우, 작은 언어 모델이 chain of thought prompting에 실패한 이유를 Appendix A.1 (Why does increasing model scale improve chain of thought prompting?) 에서 자세하게 설명하고 있습니다. 이 밖에도 robustness of prompt, OOD generalization 등과 같은 토픽에 대해서도 제안하는 prompting 방식이 많은 장점을 갖고 있다고 말하고 있습니다.

기존의 complex reasoning tasks들을 neuro-symbolic한 program들로 푸는 것이 아니라, 자연어 기반의 prompt를 활용해 한 모델로 해결하는 모습을 통해 Large Language Model의 가치를 다시 한 번 확인해볼 수 있는 연구라고 생각합니다.

References

[1] Kaplan, Jared, et al. “Scaling laws for neural language models.” arXiv preprint arXiv:2001.08361 (2020).

[2] Wei, Jason, et al. “Chain of thought prompting elicits reasoning in large language models.” arXiv preprint arXiv:2201.11903 (2022).

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중

%d 블로거가 이것을 좋아합니다: