목록전체 글 (20)
끄적끄적

사내에서 관리하는 서버에 ssh 접근과, 관리하는 서비스들로도 접근이 안되서, 서버실에 올라가서 직접 보니 위와 같은 로그를 터미널에 계속해서 찍고 있었다. 아래와 같은 로그를 계속 발생시키고 있었다. 위와 관련하여 아래의 url을 참고하면 정보를 얻을 수 있다. https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=884938 얻을 수 있는 주요 정보는 아래와 같다. Writing a large number of files to an XFS system with a larger directory block size causes slow performance and kernel log errors re: memory allocation deadlocks. 즉 XFS 파..
보호되어 있는 글입니다.
9.5 ORC 파일 ORC는 하듭 워크로드를 위해 설계된 자기 기술적이며, 데이터 타입을 인식할 수 있는 컬럼 기반의 파일 포맷이다. 파케이처럼 별도의 옵션 지정 없이 데이터를 읽을 수 있다. 파케이, ORC 두 포맷은 매우 유사하지만 근본적인 차이점이 있다. 파케이는 스파크에 최적화된 포맷이고, ORC는 하이브에 최적화되어 있다. 9.5.1 ORC 파일 읽기 ORC 파일 읽기 예시 spark.read.format("orc").load("/data/flight-data/orc/2010-summary.orc").show(5) +-----------------+-------------------+-----+ |DEST_COUNTRY_NAME|ORIGIN_COUNTRY_NAME|count| +---------..

1. 문서의 목적 회사에서 AirFlow를 이용하여서 단순 반복 작업을 자동화 시키는 업무를 진행중이다. 이와 관련하여 도움이 될만한 정보들을 기록한다. 2. AirFlow 개요 AirFlow란 순서관계가 있는 여러가지 작업들을 DAG(Directed Acyclic Graph)로 구현할 수 있도록 도와주는 파이썬 패키지이다. 리눅스에서 제공하는 "크론탭"이라는 것과 비슷한 역할을 한다고 한다.(저자는 크론탭은 사용해보지 않았다.) 순서관계야 쉘스크립트 하나 짜서, 호출하도록 하면 되는거 아니냐 싶겠지만! AirFlow를 이용하면 로그수집이나, 실패시의 retry, 그리고 무엇보다 깔끔한 UI를 통해서 작업 상황을 일목요연하게 추적할 수 있다. 개인적으로는 모든 stdout을 알아서 시간대별로 기록해 주어..