:: 게시판
:: 이전 게시판
|
- 자유 주제로 사용할 수 있는 게시판입니다.
- 토론 게시판의 용도를 겸합니다.
통합규정 1.3 이용안내 인용"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
25/02/01 14:53
수학 강사 풀이 보니 o3가 무식하게 푼 느낌은 있습니다. o3는 an을 구한 후 집어넣고 직접 계산했는데 수학강사들 풀이보면 그렇게 할 필요가 없더군요. 그리고 다시 검토해보니 오류가 하나 있습니다. 이번에도 뒷걸음 치다가 맞은 게 맞기는 함. 그래도 이제는 대수 분야에서는 어느정도 감 잡고 거의 정답에 가깝게 푸네요.
어쨌든 간단한 사칙연산도 틀리던 2년 전쯤에 비하면 장족의 발전이죠. 발전 속도가 무시무시하고 올해, 늦어도 내년 정도에는 AI가 수능 수석 충분히 할 수 있지 않을 까 하는 생각도 듭니다.
25/02/01 15:02
29번은 킬러문항이 아닙니다. 또한 올림피아드 문제에 대한 AI의 능력은 이미 알려져 있고요. 다만 미적분, 수2의 그래프 관련 킬러문항은 AI가 어떻게 접근하는지, 어떻게 해결하는지가 궁금하네요. 잘 푸는 것보다 잘 가르치는 것이 중요한 영역이라 조금은 다르게 접근할 필요는 있어보입니다.
25/02/01 15:05
요즘 수능 수학에 대해서 잘 모르고 그냥 메가스터디 통계 보니 정답률 하위 3위라 킬러 문항이라고 생각했습니다. 킬러문항의 기준을 잘 몰라서....
아직은 문제에 따라 헤메는 경우도 많다 합니다. 기하 문제 30번 풀게 해봤는데 틀리더군요. 그냥 현재 AI의 발전상을 소개 하는 측면에서 써봤습니다. AI가 얼마나 똑똑해졌는지를 한국사람들한테 가장 확 와닿게 하는 것 중 하나가 수능 문제 푸는 거 보여주는 거니깐요. 그리고 o3 풀이를 다시 검토해보니 오류가 하나 있습니다. 이번에도 뒷걸음 치다가 맞았기는 했음. 그래도 대수 분야에서는 어느 정도 감 잡고 거의 정답에 가깝게 푸네요.
25/02/01 15:15
근데 O1 PRO로 초등학교 약간 어려운 수학문제 올려서 풀어보게 했는데 풀이과정의 논리가 이상해서 이게 맞아? 할 때마다 답을 다르게 내놓더라고요. 저만 그런 경험을 하는지는 몰라도 저는 아직 완전히 신뢰를 하지 못하겠더라고요.
25/02/01 15:18
사람들 평으로는 계산으로 때려 박는 대수 문제는 잘 풀고 함수, 기하 이쪽은 아직도 좀 해메는 듯 합니다. 이 문제도 풀이과정 검토해보니 오류가 하나 있었는데 소숫점 차이만 나고 어차피 부등호 문제 답을 맞추는 데에는 문제가 없었지만 무한급수의 정확한 값을 물어 봤으면 틀렸을 거에요.
그리고 이번에 나온 o3가 언어를 너프 시키고 수학 쪽을 특히 강화 시킨거라 (언어쪽에서는 혹평이 많음) 언어에 강점이 있는 o1 pro는 더 오류가 많이 날꺼에요. o1 PRO는 대신에 언어는 이제 거의 다 맞춘다고 하더군요.
25/02/01 15:26
컴퓨터는 단순 사칙연산에 강하고 언어능력이 떨어지는 거라는 게 일반 상식이었는데 지피티는 그 반대인 거 같아요. 이번 버젼은 본문처럼 한번 테스트해보고 판단해야겠네요.
25/02/01 15:28
제가 흥분해서 좀 급하게 올렸는데 여러 사람들의 평이나 제가 다른 문제로 테스트 해본 결과로 보면 아직은 부족한 면이 있습니다. 다시 검토해보면 이 문제도 좀 운이 좋아서 맞춘거고(이전처럼 완전히 쌩뚱맞게 풀었는데 우연히 맞춘건 아니라 한 군데 실수가 있던거지만....), 함수나 기하 문제는 완전 핀트 잘못 잡는 경우가 꽤 있어요.
그래도 엄청난 발전이고, 수능 수석급이 되는데에는 긴 시간이 걸리지 않을 것이 확실해보입니다.
25/02/01 15:33
이 문제는 학습했다기 보다는 (학습했다기에는 비효율 적으로 품) 설명 했듯이 부등호 문제라 약간의 오류가 있어도 답 맞추는 거에는 문제가 없었던거였습니다. 비효율적으로 풀어서 그렇지 이전 처럼 완전 엉뚱한 풀이는 아니네요. 무한 급수 처리하는 과정에서 오류하나가 있었을 뿐 거의 정답에 근접하게 풀었고, 부등호 문제여서 답도 맞췄습니다.
그리고 기하나 함수 문제는 아예 답도 틀리고, 풀이도 엉뚱하게 합니다. 어쨌든 수능 수석급이 되는 데에는 오랜 시간이 걸리지는 않을 거 같습니다.
25/02/01 15:47
주장에 대한 근거가 명확하다면야
사람들이 그것에 대해 동의도 하도, 납득도 하겠지만 그냥 계속 수능 수석만 외치고 있는 상황을 보니까 좀 당황스럽네요 어느 부분에서 그렇게 강한 흥분을 느꼈는지 전혀 모르겠습니다 악의적으로 쓴 댓글은 아닙니다
25/02/01 15:58
GPT 2년 전 버전 만 해도 간단한 사칙연산도 다 틀리는 수준이었습니다.... 그리고 언어쪽에 더 강점이 있는 o1 pro의 경우는 이미 수능 언어영역 대부분 맞추고 있구요.
이 문제도 메가스터디상에서는 난이도 '최상'으로 분류된 문제고 정답률 20프로대인데 맞췄습니다. 풀이 검토해보니 좀 비효율 적으로 풀었고 오류도 있었지만 값 차이가 거의 없었고 부등호 문제라서 답 맞 추는데에는 문제가 없었음. 심지어 이건 o3-mini 버전으로 아직 릴리즈 안된 o3에 비해서는 많이 너프된 버전입니다. 이 정도 발전 속도면 수석급이 되는 데에는 그리 오랜 시간이 걸리지 않을 거라고 추론 할 수 있죠. 사실 어제 o3-mini 나오기 전 논문에서 수학 올림피아드 문제에서 보인 성과 들만 봐도 (윗 댓글에도 올림피아드에 대한 언급은 있었음) 충분히 예측은 가능한건데 우리한테 가장 잘 와닿는 건 수능 문제 푸는 거이기에.....
25/02/01 15:59
지금 정도의 결과로 수능 수석급이 되는게 아무 근거가 없어보여서 당혹 스럽고 함부로 추측하는 게 잘못되었다면 2년전에 간단한 사칙 연산도 다 틀리는 gpt를 보고 2년내에 지금 정도 레벨에 도달한다고 말하는 것도 굉장히 당혹스럽고 근거 없는 잘못된 추측에 불과했겠죠.
25/02/01 16:41
사실 아까 전에 댓글로 쓰려다가, 너무 비아냥 거리는 거 같아서 그냥 지운 내용인데
그래도 수능 문제 굳이 찾아보고, 무슨 문제들 있나 살펴볼 정도면 객관식/주관식 정답률이 어느 정도 느낌인지는 알고 있지 않나요? 가형 나형 전부 섞은 표본 기준으로, 주관식 정답률 20%면 진짜 말도 안 되게 높은 겁니다 좀 더 와닿게 말하면, 가형 4등급 학생들도 저 문제 맞춘다는 말입니다 이거는 수능 제도가 바뀌고 말고 하기 전에, 30년전 응시하셨던 현재 50대 분들도 다 아는 내용이지 않을까요 아니 정답률을 따지기 전에, 무슨 문제인지 한 번 직접 풀어보세요 저도 도대체 저게 뭔 문제인가 싶어서 한 번 a4 용지 꺼내서 풀어보고, 버벅거리긴 했지만 답이 나왔는데 시간만 있으면 무슨 최첨단 ai가 아니라 그냥 지극히 평범한 일반 사람들도 다 맞히고 바로 다음 문제 넘어가는 난이도입니다 문제 정답률에 의탁해서 그냥 넘겨짚지 말고, 직접 풀어보세요 전혀 흥분할 필요도 없고, 놀랄 이유도 없습니다
25/02/01 16:47
GPT가 2년전에 수학문제 풀었던 거 보면 충분히 놀랄만합니다..... 수능 고득점 출신에 수능 본지 얼마 안됐거나 관련 업계 분이신 입장이라면 호들갑떨 정도 까지는 아니라고 볼 수는 있겠지만 핵심은 발전 속도와 지금 여러 벤치마크에서 나오는 결과를 보는 게 중요한겁니다. 그냥 일반 사람들 와닿게 수능 문제 푸는 거 가져왔을 뿐이고, 논문이나 벤치마크 테스트에서 아직 대중한테 릴리즈 안된 AI들이 고급 수학문제를 대상으로 보여주는 결과들 보면 무시 무시 합니다.
전 업계 사람도 아니고 수능 본지 너무 오래 되서 감도 없습니다만은 어쨌든 통계에서 보니 정답률 하위에서 3번째에 드는 문제입니다. 수능 30문제 중에 3번째로 어려웠던 문제라는 뜻이죠. 최상위권 or 수학 강사 입장에서는 별거 아닐 수 있겠지만 어쨌든 평균 보다는 훨씬 어려운 문제임이 명백하죠. 전 아직도 수학 어느 정도는 접하는 사람인데도 이런 입시 수학은 손 놓은지 오래되서 그런지 풀이 따라가고 분석하는 것도 애먹었습니다. o3 풀이 오류도 못 찾았다가 한참 들여다보고 알아냈구요. 수능이 너무 오래된 시험이라 문제 난이도가 많이 올라갔다고 들었는데 정말 그렇게 느껴 집니다. 경기고-서울대 물리학과 학부(예비고사 수석임)-스탠포드 박사에 이 과정에서 엥간한 시험은 다 휩쓸었던 오세정 교수도 나중에 문제 출제 요원으로 들어 갔다가 수능 수학 거의 하루종일 붙잡고 풀면서 기겁했다고 하죠. 참고로 2년전에는 LLM들한테 수능 문제 던져 주면 핀트 거의 하나도 못 잡고 완전 엉뚱하게 풀었습니다. 기본적인 사칙연산도 다 틀렸었구요.
25/02/01 17:50
AI는 종국에는 인류의 난제를 해결할 수준으로 활용될 것으로 사실 다른 의미로 전혀 흥분할 필요도 없고, 놀랄 이유도 없다고 생각합니다.
수능정도 난도의 수학문제를 100%로 맞추는 정도의 지능 상승은 그냥 스쳐지나갈 과정 수준입니다.
25/02/01 19:49
한국에서 수능이라는 의미가 워낙 크다보니 AI가 수능 수석 한다는걸 굉장히 크게 받아들이시는 분들이 있어서 그런것 같습니다. 솔직히 제가 어느정도 의도한 바기도 하구요....
전 특이점 주의자라 수능 잘 푸는걸 대단하게 보는건 아닙니다. 다만 여러번 얘기했듯이 한국사람들한테 AI성능을 가장 직관적으로 보여줄 방법중에 하나니까 그런식으로 의도하고 쓴건 있음.
25/02/01 18:00
댓글 분위기가 오히려 신기하네요. 그림이랑 번역업계 초토화시킨 것만 봐도 이런 쪽으로 차근차근 나아가는게 어떤 느낌인지 알 수 밖에 없지 않나 싶은데
25/02/01 19:23
딱히 그런 이해관계 때문으로 보이지는 않고,
어떤 이들에게는 본문의 AI 학습 단계가 발전 과정에서 필연적으로 거쳐갈 하나의 마일스톤 정도로만 인식되는데 글쓴이는 이를 커다란 전환점 혹은 변곡점이 되는 것처럼 (그들 기준에서는)과장되게 서술해서, 그에 따른 딴지 내지는 반작용의 댓글들이 나오는 게 아닐까 합니다.
25/02/01 19:46
전 AI에 워낙 관심 많고 특이점도 믿는 사람이라 이게 전환점이라는 생각은 전혀 안하구요....
한국에서 수능이라는 의미가 워낙 크다보니 AI가 수능 수석 한다는걸 굉장히 크게 받아들여서 그런것 같습니다. 여러번 얘기했듯이 한국사람들한테 AI성능을 가장 직관적으로 보여줄 방법중에 하나니까 그런식으로 의도하고 쓴건 있음.
25/02/01 18:29
추론 성능이 많이 올라간건 맞는것 같습니다.
다만, 수능 문제 풀이를 벤치마크로 삼기는 어려운게 시간제한으로 보통은 쓸 수 없는 방식으로 푸는 경우가 많다고 보시면 됩니다. 위에서도 좀 무식하게 돌아가는 방법으로 풀었죠. 수틀리면 수치해석으로 해결해버리는 식이라 객관식 시험만으로는 능력 평가가 어렵다고 봅니다.
+ 25/02/01 20:00
좀 무식하게 풀긴 했어도 수치해석으로 접근한건 아니고 나름대로 맞는 방법으로 풀었다고 봅니다. 사람이 적용하기에는 실용적이지도 않고 실수도 있었지만....
25/02/01 19:46
왜 수능 수석을 강조하시는지 이해가 안되니 의아한 반응이 나올 수밖에요. 킬러문제를 풀어내는 게 우리가 특별히 인지해야 하는 변곡점인가요? 본문 내용상 29번 풀이에 헛점도 있고, 당일 유게 올라온 가형 30번은 수리 나형에 경수 꼴지해서 재수강 수없이 반복한 저보다 못 풀길래 오히려 매우 실망스러웠는데요.
설사 이게 대단한 지표라 하더라도 자격시험의 영역에서는 무슨 의미가 있는지 모르겠습니다. AI가 인지하는 시험의 난이도 위계는 인간과 전혀 다를텐데 9급 정도 제외하면 하급 시험인 수능에 주목해야 하는 부분이 특별히 있나요. 훨씬 어려운 의 회 변 5 이런 건 모조리 다 외워서 계산 쉽게 해내고 판례 귀신같이 써내겠지만 그렇다고 우리 인지가 변화한 것도 아니고.
+ 25/02/01 19:57
변곡점이라던가 대단한 지표가 되었다는 의미가 아니라 (특이점 주의자라서...) 그냥 발전상을 강조하려고 얘기한거고 그동안 LLM이 약했던 수학 영역에서도 큰 발전이 있었다는건데 받아들이는 분들이 그렇게 느끼는거 같습니다. 물론 의도한것도 있지만요...
+ 25/02/01 20:07
이미 시중에 풀리지 않은 인공지능(o3)의 벤치마크 결과를 보면 올림피아드에서도 상당히 괜찮은 성적을 보였습니다.
https://gigazine.net/gsc_news/en/20241225-ai-frontiermath/ Mathematicians talk about the shock of OpenAI's o3 model scoring 25.2% on the ultra-difficult math dataset 'FrontierMath'
+ 25/02/01 20:19
https://news.hada.io/topic?id=18413
FrontierMath의 문제들은 연구 수학자에게도 비전형적이며, 일부 문제는 박사 과정 수준의 지식이 필요함. 데이터셋의 문제들은 수학적 증명보다는 숫자를 찾는 데 중점을 두고 있음. 수학 연구자들은 주로 증명이나 아이디어를 찾는 데 시간을 쓰기 때문에, FrontierMath는 AI 수학 연구에 중요한 데이터셋임.
+ 25/02/01 20:20
네 이공계 관련 종사자로서 앞으로 어떻게 될지 기대되기도 하고 두렵기도 합니다
사실 이공계 뿐만 아니라 모든 분야가 대변혁을 맞이 하겠죠
+ 25/02/01 20:37
이번에 노벨상을 받은 딥마인드의 프로젝트는 인류의 난제 중 하나였던 단백질 폴드 문제를 풀어냈는데 수능 수학 문제 정도로 호들갑 떨 일인가 싶긴 하죠.
물론 범용 AI가 이런 분야에서도 성능을 발휘한다는 건 고무적인 일이긴 합니다. 하지만 사람들이 AI에 기대하는건 이 정도가 아니긴 해요. 아직까지도 과학자들 조차도 답을 못 내놓고 있는 여러 난제들을 풀어낼 수 있는 인공지능을 기대하고 있으니까요.
+ 25/02/01 20:41
재밌는건 전 그냥 '수능 수석 곧 할거 같다, LLM은 원래 수학에 약했는데 발전속도가 빨라서 고무적이다' 이렇게 얘기한건데 읽는사람들이 '호들갑이네, 대단한 건가?'라고 말한다는겁니다
이건 역으로 읽는 사람들이 'AI가 곧 수능 수석 정도는 곧 할거 같아요'를 '우리 AI가 정말 대단한 일을 해냈어요'라고 무의식중에 받아들였다는 얘기기도 합니다. 제가 어느정도 의도한바기도 하구요....
+ 25/02/01 21:15
LLM이 언어쪽은 많이 발전했어도 수학은 형편 없었죠.
이 o3버전은 언어를 너프시키고 대신에 수학을 엄청 향상 시켰다 합니다. '이과형' 인공지능 인거죠 이게 장기적 관점에서 보면 별거 아닌거지만 단기적으로는 꽤나 큰 향상이 맞습니다. '이게 뭐라고?'라고 한다면 o3 이전버전으로 수학문제 풀게 해본적이 없었던 사람일 확률이 높음.
|