PGR21.com
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
Date 2023/07/28 14:15:15
Name 고등어자반
Subject [일반] ChatGPT Code Interpreter 사용기
게시판에 올라오는 예쁜 처자들의 그림에서, 인공지능의 발달을 나날이 느끼고 있는 아재입니다.
그러던 중 ChatGPT에서 Code Interpreter라는 훌륭한 기능을 내어놓았다기에, 제가 하고 있는 연구에 이용할 수 있을까 싶어 한 번 시도해보았습니다. 이 과정에서 ChatGPT Code Interpreter의 기능에 크게 감명을 받았기에 감동을 나누고자 이 글을 씁니다. 아래는 ChatGPT와 작업한 실제 내용입니다.

DISCLAIMER: 저는 OpenAI 사에 매달 돈을 가져다 바치고 있습니다!
DISCLAIMER 2: 분석에 사용된 데이터는, 분석에 필요한 최소한의 내용만 담긴 익명화된 데이터였습니다.
----------------------------------------------------------------------------------------------------------------
글쓴이:
(csv 파일을 업로드한 후)
- 이거 통계를 돌릴 파일인데 한 번 봐주셈.
ChatGPT:
- 음, 님 데이터는 칸 나누기가 제대로 안 되어있어서 Pandas에 넣을 수 없음요. 똑똑한 나님이 알아서 tab문자로 칸을 나눠보겠음.
(혼자 열심히 일을 함)
- 휴, 이제야 좀 알아먹겠음. 이 파일에는 다음과 같은 컬럼들이 있음.
1. SN: A unique identifier or serial number for each entry
2. ID: Another unique identifier
3. Sex: The gender of the patient
4. Anti_usage: Indicates whether the patient is using antibiotics
5. DM: Indicates whether the patient has diabetes mellitus
6. Result: Bacterial species identified in microbiome, along with their relative proportions
...

*** (글쓴이 주) 데이터 컬럼에 대한 아무 설명도 해주지 않았는데, Anti_usage라는 컬럼명으로부터 항생제를 사용한 환자라는 해석을 끌어내는 걸 보고 첫 번째로 좀 놀랐습니다.

- 음, 다음으로 조금 더 들어가 봅시다. 명목변수와 수치변수, 결측치 및 명목변수 중 특이한 부분들을 보도록 하지요.

(혼자 열심히 일을 함)

- 고멘, 내가 실수를 했음 (데헷). 계산할 때 Numpy 라이브러리가 필요한데 임포트하는 걸 빼먹었음. 다시 하겠삼.

*** (글쓴이 주)  여기서 두 번째로 놀랐는데, 분석을 위해 사람이 일일이 무슨 라이브러리가 필요하다는 걸 지정해줄 필요가 없이 자기가 알아서 일을 합니다.

(또 혼자 열심히 일을 함)

- 짠. 이 데이터셋의 요약본임.

숫자화된 데이터 컬럼
-- 데이터셋에 1800행이 있음.
-- 나이 컬럼에서 가장 젊은 케이스는 19.1세, 가장 나이든 케이스는 88세

카테고리화된 데이터 컬럼
-- 세...섹스 컬럼은 F와 M으로만 구성됨. M이 가장 흔함.
-- 결과 컬럼에는 세균명 데이터로 구성되어 있는데, 620개의 고유한 값이 있음

결측치
--- 나이와 세...섹스 컬럼에 두 개의 결측치가 있음.

특이한 점
--- ID컬럼에 고유한 값이 920개가 있는데, 이걸로 미뤄보아 일부 ID에 중복이 있을 것으로 예상함.

*** (글쓴이 주) 여기까지가 어떠한 글쓴이의 개입도 없이 ChatGPT 혼자 북치고 장구치며 만들어낸 내용입니다. 저보다 나은 것 같아 조금 슬펐습니다.

(이후 몇 가지 분석에 관한 대화가 더 진행된 다음)

글쓴이:
- 알겠음. 그럼 Anti-Usage와 DM에 대한 표를 만들어주셈.
ChatGPT:
(혼자 열심히 일을 하더니 분할표를 던져줌)
- 응, 여기 있음.

글쓴이:
- (그런데 표를 좀 보기가 어려운데?) DM을 열 쪽으로 놓고 표를 만들어 주면 안 됨?
ChatGPT:
('아, 되게 찡찡대는구만'이라고 생각하며 열심히 일을 함)
- 오다 주웠다. 여기 행열 전환된 표 받아라.

*** (글쓴이 주) 아주 자연스럽게 행열 전환도 해줍니다.

글쓴이:
야, 그런데 데이터가 다 보이지 않잖아. 나님이 일일이 옮겨쓰지 않게 다운로드 안 됨?
ChatGPT:
(또 혼자 열심히 일을 하더니 csv 파일 링크를 던져줌)
- 옛다, 파일 받아라.

글쓴이:
너님이 준 파일을 봤는데 값 중에 'error'라는 게 보이는데? 난 이런 걸 넣은 적이 없는데 이건 뭐임?
ChatGPT:
(점잖게) 혼동을 드려 죄송합니다. 분할표 만드는 과정에서 오류가 있었을 수도 있으니, 원하신다면 원데이터의 해당 컬럼을 다시 점검해보겠습니다.

(혼자서 열심히 일을 함)

내가 마, 너님의 원데이터를 흝어보았는데, 앙, 'error'라는 문구가 분명히 있거등. 님 세상 그렇게 살지 마셈... 아, 아닙니다.

*** (글쓴이 주) 실제로 제가 미처 확인하고 제거하지 못한 'error'라는 데이터가 있었네요. 바로 제가 진상이었습니다.

글쓴이:
(손을 본 csv 파일을 던져주면서)
음, 그럼 수정한 이 파일로 똑같이 작업해주셈.
ChatGPT:
(똑같은 작업을 반복한 다음 csv 파일 링크를 던져줌)
- 옛다, 파일 또 받아라.

*** (글쓴이 주) 여기서 빵하고 터졌는데, 링크된 csv 파일이름이 '아까 올린 파일명-revised.csv'였습니다.

글쓴이:
(여기서도 오류가 발견되어 다시 손을 본 csv 파일을 던져주면서)
음, 이게 진짜 마지막이니 이걸로 똑같이 작업해주셈.
ChatGPT:
(똑같은 작업을 반복한 다음 csv 파일 링크를 던져줌)
- 한 번만 더 이러면 맞는... 아, 아닙니다. 파일 받으세요.

*** (글쓴이 주) 여기서 진짜 터졌는데, 링크된 csv 파일이름이 '아까 올린 파일명-final.csv'로 바뀌어 있었습니다.

글쓴이:
- 음, 그럼 Anti-usage와 DM2를 통계적으로 비교해 주셈.
ChatGPT:
- 음, 너님의 데이터 파일에는 DM2라는 컬럼 값은 없음. 아마도 (덜 떨어진) 너님이 DM을 착각한 것이겠지.
DM으로 가정하였을 경우 명목변수이므로 카이-스퀘어를 시도해 볼 수 있겠지만 카이-스퀘어 테스트는 순서 개념이 없는 명목변수를 다루는... (블라블라)

글쓴이:
- 미안. 나의 실수. 너님의 말이 옮음요.
ChatGPT:
- 빠른 인정 좋습니다. 그럼 제가 제대로 일을 해보겠습니다.
- 작업순서는 다음과 같음. (이하 블라블라)



대충 위와 같이 일이 진행되었는데 상당히 재미있는 경험이었습니다.

느낀 점 1: 아, 초보 데이터 분석가는 살아남기가 어렵겠구나.
느낀 점 2: 그래도 아직은 연구자가 원하는 걸 명확히 알고 있어야 방향이 어긋나지 않으니, 연구자의 기본적 통계에 대한 이해는 지금도 중요하구나.
느낀 점 3: api같은 것까지 동원할 필요가 없는 개인 연구를 위해서는 지금 정도의  ChatGPT 응답량 (3시간에 50개 질문)으로도 쓸 만하다.
느낀 점 4: 특이점이 얼마 남지 않았다!

통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
raindraw
23/07/28 14:20
수정 아이콘
언어모델이 어떻게 저런 걸 할 수 있는지 이해가 안갑니다. 하여간 대단하네요.
jjohny=쿠마
23/07/28 14:26
수정 아이콘
이미 데이터분석/데이터사이언스에 진입해서 자리를 잡은 분들과, 앞으로 진입하고자 하는 분들 간의 입장 차가 생길 수 있겠네요.
이미 자리를 잡은 분들께는 계속해서 유용한 툴이 생기겠지만, 앞으로 진입하고자 하는 분들께 열릴 TO가 줄어들 것 같은 느낌...?
인생을살아주세요
23/07/28 14:28
수정 아이콘
저도 종종 R코드 짜라고 시켜보는데 놀라움 그 자체입니다.. 물론 실수가 없는 건 아니지만 그건 제가 지적해주니 바로 수정하더라고요. 뭔가 좀 신박한 분석 기법 없냐니까 좋은 거 추천도 해주고, ggplot2 가져와서 시각화도 잘해줍니다.
그레이퍼플
23/07/28 14:51
수정 아이콘
분명 이해하고 하는 건 아닙니다. 그래서 그럴듯하게 보이지만 어딘지 조금씩 틀려요.
마치 잘 모르지만 영리한 사람한테 일 맡겼을때와 비슷해요.
주위에 누구는 그냥 발전된 형태의 인터넷 검색기라고 표현하더군요.
그렇게 조금씩 틀리는 건 수정이 가능하다기 보단, 그냥 저 AI의 한계로 보이더군요.
23/07/28 15:00
수정 아이콘
제가 챗GPT한테 코딩 시킬 때 약간 신입사원이긴한데 에이스 같다고 느낀 거랑 비슷하시네요 크크
배경지식 같은 거는 하나도 모르면서 나름 자기가 막 유추해서 이런 것 같다고 하는데 또 막상 그게 맞을 때도 있고 그래서 신기하긴 하더라구요.

근데 딱 제 마음에 들게 해달라고 하면 그 때 부터는 막 헤매고, 그래서 시키기 좋은일과 별로인 일을 잘 판단하는 게 중요하겠더라구요.
고등어자반
23/07/28 15:12
수정 아이콘
저도 같은 인상을 받았습니다. 똑똑하고 재능있는 학부생에게 일을 맡긴 느낌이죠.
그래서 검증과정을 빼놓을 수는 없지만, 단순작업을 줄여주는 효과는 확실한 것 같습니다.
포프의대모험
23/07/28 20:32
수정 아이콘
이거 완전히 대학원생(..)
23/07/28 14:57
수정 아이콘
ML, DL 입문으로 맛보기 하고 있는 도메인 전문가 관점에서 볼때는 진짜 대단하네요.
복타르
23/07/28 15:29
수정 아이콘
일을 더 시켰다면 final 다음으로 뭐라 했을까 궁금해지네요.
Mattia Binotto
23/07/28 15:39
수정 아이콘
final_really
final_sincerely.... 뭐 이렇게 가지 않을까요 크크
탑클라우드
23/07/28 15:41
수정 아이콘
제가 종사하고 있는 영역이 아니기에 깊은 이해가 없음에도 불구하고 글만 읽어도 신기하고 또 약간은 무섭네요.
진짜 뻘짓하지 말고 월급 따박따박 모아두고 미래를 대비해야 하는 것인지...
인간실격
23/07/28 16:07
수정 아이콘
확실한건 균일화되어있고 데이터가 많을 것으로 보이는 분석은 명확하더라구요. 예를 들어 머신러닝 클래스 구성+훈련같은 경우 온라인 예시를 거의 그대로 따라갑니다.

반면에 데이터에 따라 구성이 틀려지고 예외가 많은 상황에선(DB테이블 쿼리) 종종 틀리곤 하네요. 틀린 답을 내는게 문제는 아닌데, 틀린걸 인식하지만 맞는 케이스 데이터가 없으니 프롬프트를 어떻게 넣어도 수정된 코드라면서 수정 전과 똑같은걸 뱉어내는게 좀 개그입니다 흐흐
23/07/28 18:10
수정 아이콘
일을 처음부터 끝까지 책임지고 마무리는 아직은 요원하지만.
충분히 학부생 하나쯤 데리고 잡일 / 단순작업 시키는 용도로 자주 사용합니다.

코드 만들때도. 대략적인 요구사항 주고 나온 결과에 . 세부적인 수정 사항 주면.
제가 코드 만들떄보다 더 빠릅니다.
jjohny=쿠마
23/07/28 18:59
수정 아이콘
(수정됨) 묻어가는 질문...

저도 과금해서 GPT 4.0으로 직업적인 영역에 일부 사용하고 있는데요,
4.0 기준으로도 한국어 문답의 성능을 아직 믿지 못해서 웬만하면 다 영어로 문답하고 있습니다.

당연한 얘기지만 영어보다 한국어가 훨씬 편한지라 '한국어로도 충분한 성능이 나온다'는 판단이 나오면 한국어로 사용해보려고 하는데, 직업적으로 사용하시는 다른 분들은 어떠신지 궁금합니다. (물론 분야마다 다르겠지만, 자기 분야 기준으로요)

1. 한국어 문답은 못 믿겠다. 거의 영어로만 문답한다.
2. 한국어 문답으로는 충분치 않다. 주로 영어로 문답하고, 가끔 간단한 것만 한국어로 문답한다.
3. 한국어 문답도 대체로는 유용하다. 주로 한국어로 문답하고, 가끔 해결과제의 난이도가 높거나 아니면 한국어 문답 성능이 잘 안 나올 때 영어로 문답한다.
4. 한국어 문답으로 충분하다. 거의 한국어로만 문답한다.
고등어자반
23/07/28 19:45
수정 아이콘
전문적으로 사용하는 건 아니지만, 그리고 영어도 잘하지 못하지만 저는 영어로 물어보고 있습니다.
ChatGPT의 좋은 점이, 제가 O떡같은 영어로 물어봐도 찰떡같이 알아듣는 점 아니겠습니까?
나혼자만레벨업
23/07/28 21:00
수정 아이콘
주로 코딩하는데 쓰고 있고, 한국어로 문답하고 있습니다. 프로그래밍 언어는 어차피 만국 공용이라서요.
23/07/28 22:11
수정 아이콘
Chat GPT 초기부터 과금 후 4.0 까지 계속 1번으로 사용하고 있습니다.
4.0 나왔을 때 나온 언어별 MMLU 성능 그래프 보고 계속 1번으로 사용하게 되네요.
23/07/29 04:35
수정 아이콘
하 연구하는 사람 입장에서 이걸 써볼까 말까 고민이 많습니다. 한번 쓰면 계속 써보게 될 것 같은 판도라의 상자처럼 보여서요.. 크크 저도 트위터에서 사람들이 올리는거 보면 다른 분야는 모르겠지만 저희 사회과학쪽은 머지않아 실적채우기식 대충 갖고 있는 데이터로 분석 돌리고 별뜨는거 이론 갖다 붙히고 퍼블리쉬하는 수준의 퀄리티의 논문은 chatGPT가 대체할 수 있지 않나 생각됩니다.
그레이퍼플
23/07/29 11:12
수정 아이콘
대충 실적채우기식 논문들은 지금도 이미 짜집기로 많이들 하고 있습니다.
배글이
23/07/29 20:44
수정 아이콘
제가 쓰면서 가장 많이 듣는 말은 “혼동을 드려 죄송합니다” 더군요
제가 IT에서도 좀 마이너한 영역을 하고 있어 그런지 오답률이 50프로 이상입니다
대신에 이런게 잘못된것 같다고 몇번 하다보면 정답이 나오긴 하더군요
이웃집개발자
23/07/31 01:35
수정 아이콘
이게 근데 은근 러버덕 롤을 잘해줍니다. 코딩하다가 뇌정지왔을때 상황에 대해 아무말을 던지면 얘가 대부분 이상한 대답; 을 하는데 그걸 고치는걸로 돌파구를 찾을때가 가끔 있네요

나중에 뭐먹고살지 싶어요
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회 추천
99347 [일반] 전북 장수군 지진 발생 [32] Croove14510 23/07/29 14510 0
99346 [일반] 대한민국 사람들의 평균 소득과 삶 [105] 시드마이어22030 23/07/29 22030 57
99345 [일반] 뮤직비디오 이야기. [12] aDayInTheLife11018 23/07/28 11018 4
99344 [정치] 尹대통령, 김영호 통일부 장관 임명 재가…지명 한달만 [32] 덴드로븀15655 23/07/28 15655 0
99343 [일반] 주호민 관련, 같은 학교 학부모들의 제보가 jtbc에 나왔습니다 [409] Leeka37855 23/07/28 37855 88
99342 [일반] 호주 차기 IFV사업에 레드백이 선정되었습니다. [6] 어강됴리8836 23/07/28 8836 4
99341 [일반] [스포] DP 시즌2 후기 [54] 만찐두빵16089 23/07/28 16089 2
99340 [정치] 방통위 위원장 이동관 후보 지명 논란. [52] 바이바이배드맨11757 23/07/28 11757 0
99339 [일반] 공무원의 업무상 과실치사상죄도 다소 불합리하진 않은가? [27] 상록일기9479 23/07/28 9479 17
99338 [일반] 2023년 COVID-19 하계 유행 [45] 여왕의심복14281 23/07/28 14281 62
99337 [일반] ChatGPT Code Interpreter 사용기 [21] 고등어자반8677 23/07/28 8677 9
99336 [일반] LK-99는 정말로 상온 상압 초전도체일까요 [116] Regentag25230 23/07/28 25230 0
99335 [일반] 모 초등학교와 교사의 위반사항 [317] kurt25130 23/07/28 25130 2
99334 [일반] 가정 호스피스 경험기 [9] 기다리다10800 23/07/28 10800 30
99333 [일반] 모아보는 개신교 소식 [47] SAS Tony Parker 8489 23/07/28 8489 0
99332 [일반] 주호민 작가님을 위한 변 [239] 만렙법사20790 23/07/28 20790 66
99331 [일반] 뉴욕타임스 7. 22. 일자 기사 번역(중국정부를 믿지 않는 기업가들) [17] 오후2시10595 23/07/27 10595 5
99330 [일반] 전기차 시대, 독일 자동차 공룡들의 위기 [76] 기찻길13553 23/07/27 13553 0
99329 [일반] 장애인 특수시설에 대한 인식이 휙휙 변한 썰 [47] 수리검14058 23/07/27 14058 27
99328 [일반] 주호민 관련 기사들 근황 [493] Leeka33705 23/07/27 33705 58
99327 [일반] 오늘 약-20%를 찍으며 시총 14조 7천억이 증발한 에코프로 [64] kapH14273 23/07/27 14273 3
99326 [정치] 한동훈, 검찰 업무추진비 ‘백지 영수증’ 의혹 “오래 보관해 잉크 휘발된 것” [79] 베라히15340 23/07/27 15340 0
99325 [일반] 저출산 문제(예산)는 어떻게 집중 분배해야할까요? [138] rclay10962 23/07/27 10962 0
목록 이전 다음
댓글

+ : 최근 1시간내에 달린 댓글
+ : 최근 2시간내에 달린 댓글
맨 위로