DISTINCT는 null 값까지 셀까? GROUP BY를 하면 null값을 가진 행들도 하나의 그룹으로 묶일까? 동일한 뷰에 대해서 COUNT(*)를 실행한 결과와 특정한 칼럼에 대해 COUNT() 함수를 실행할 결과는 왜 달라지는 걸까?
Read More
어떤 머신러닝모델이든 영원히 유효할 수는 없다. 특정한 시점에 실험을 반복해서 높은 성능을 달성했더라도, 새로운 데이터가 유입되면 최적화와 refitting을 통해 적응해야 한다. 그래서 요즘은 머신러닝, 딥러닝도 그냥 어플리케이션이라는 생각이 든다. 최종 모델과 그 모델을 빌드업한 논리적인 과정 만큼이나 '안정적인 실험을 가능케하는 코드'도 중요하다는 것. 이번에는 실제 프로젝트에서 하이퍼 파라미터를 탐색할 때 사용했던 함수들을 클래스로 만들면서 어플리케이션으로서의 머신러닝에 가까워지려고 노력해 보았다.
Read More
히트맵은 쌍으로 이뤄진 값들의 대소를 한 눈에 비교할 때 편리하다. 특히 머신러닝 프로젝트에 앞서 변수들을 두 개 씩 짝지어 상관관계가 존재하는지 확인할 때 히트맵은 단골이다. 그런데 변수의 개수가 많아지면 히트맵의 한계가 드러난다. 이 빨간색이 저 빨간색보다 어두운건가? 이 빨간색 블럭이 어떤 변수 쌍에 해당하는 것이지? 하며 깝깝해하다가 plotly로 interactive heatmap을 구현해봤다.
Read More
SQL은 평소에 쓸 일이 없어서 까먹기가 쉽다. 그래서 공부하면서 조금씩 정리한 요약 노트!
Read More
SQL은 관계형 데이터베이스를 다루는 데에 특화된 언어라 그런지 일반적인 프로그래밍 언어를 배울 때와는 많이 다른 인상을 받았다. 코드카데미에서 제공하는 learn sql 코스를 완주하며 들었던 궁금증을 스스로 해결하며 sql의 언어적 특성을 몇 가지로 정리해 보았다.
Read More