데이터 분석에 많이 사용되는 3대 언어에는 R, '파이썬', '줄리아'가 있다.
최근 AI가 각광을 받으면서 파이썬이 압도적인 점유율을 보이고 있고, 관련서적도 가장 많지만, R과 '줄리아'도 각각의 특장점을 가지고 있다.
R은 전통적인 확률통계 기능이 풍부하다는 것이 장점이다.
'줄리아'는 적절한 최적화를 해 주면 실행 속도가 포트란, C언어만큼이나 빨라지므로, 프로토타입 개발 이후 실행 속도 문제 때문에 다른 언어로 처음부터 재개발할 필요가 없다는 것이 장점이다.
그래서, 데이터 분석을 배우려고 할 때면 3개 언어 중 어느 것을 공부해야 할 지 선택 장애가 오기 마련이다.
그동안 데이터 분석을 공부하려고 몇 번 시도했지만 번번이 진입 장벽을 넘지 못했다.
이번에 다시 시도하려고 하면서 3개 중 어느 것을 선택할까 조사하다가, '줄리아' 홈페이지에 데이터 분석 언어의 구문 비교를 해 놓은 자료를 찾았다.
https://dataframes.juliadata.org/stable/man/comparisons/
Comparison with Python/R/Stata · DataFrames.jl
This section compares DataFrames.jl with other data manipulation frameworks in Python, R, and Stata. A sample data set can be created using the following code: using DataFrames using Statistics df = DataFrame(grp=repeat(1:2, 3), x=6:-1:1, y=4:9, z=[3:7; mi
dataframes.juliadata.org
이렇게 한 곳에서 비교해보니 R언어의 dplyr패키지 구문이 가장 편해보였다.
인간이 참 단순하지만, 오직 구문이 편해보인다는 이유로 R언어를 다시 공부해 봐야겠다는 생각이 든다.
다만, R언어의 경우 '관련 서적 부족'이라는 문제가 '구문의 파편화'로 인해서 더 심각해지는 문제가 있다.
R언어는 기본 구문은 아주 번잡하고, 반드시 dplyr패키지 (혹은 dplyr을 포함한 tidyverse패키지)를 사용해야만 구문이 간결해진다.
원하는 주제를 R언어로 다룬 서적이 존재하더라도, 저자가 '기본 구문'만을 사용했다면 가독성이 크게 낮아지는 데, 책을 구해서 읽어보기 전까지는 어떤 스타일의 R언어 구문을 사용했는 지 알 방법도 없다.
즉, R언어는 원하는 주제를 간결한 dplyr 구문을 사용해서 다룬 서적을 찾는 게 어렵다.
이 면에서는 파이썬이 압도적으로 유리한 것 같다.
각종 주제에 대한 서적도 풍부하고, 대부분 pandas 패키지를 이용해서 R언어 같은 구문 파편화도 적다.
이런 R언어의 단점은 최근 떠오르는 생성형 AI를 사용하면 상당 부분 대처가 되지 않을까 생각해 본다.
원하는 주제를 다룬 데이터 분석 서적을 구한 후, 책에 포함된 코드가 '파이썬'이든 'R언어 기본형 구문 코드'이든 간에 AI에게 'dplyr 패키지를 사용한 R언어 코드로 변환해 달라'고 하면 (비록 버그가 포함되어 있겠지만) 기본 출발점은 확보할 수 있으니까 디버깅 해가면서 공부하면 가능하지 않을까 싶다.
Julia언어 Pluto 노트북 설치 (0) | 2025.03.13 |
---|---|
Julia용 JupyterLab 설치 (0) | 2025.03.13 |
Julia DataFrame 문서 (0) | 2023.05.16 |
Julia의 도트(.) 연산자 (브로드캐스트) (0) | 2023.04.29 |
Julia의 메소드 (0) | 2023.04.29 |