/users
/posts
/slides
/apps
/books
mysetting
/users
/posts
/slides
/apps
/books
2:47 5/30
kangmyounghun.blogspot.kr
2:47
kangmyounghun.blogspot.kr
케세라세라
https://kangmyounghun.blogspot.kr/
Easy to analyze if you can cleaning data
저작도구: Blogger
최종 피드 수집: 2025-01-19 00:17
전체 (201)
23h
Logstash 필터 ruby - 6th
캡쳐그룹 순서번호는 1부터 시작한다.
첫 번째 순서번호 캡쳐를 위한 ruby 필터
ruby {
code => "
event.set('result', event.get('message').match(/(.).../).captu
tech
+ 더보기
0
0
0
읽기모드
1d
Logstash 필터 ruby - 5th
ruby 필터는 == 등의 비교 연산자를 지원하지 않는다. 다음은 include 메소드를 이용한 ? 검사.
ruby {
code => "
if event.get('message').include?('?')
event.s
tech
+ 더보기
0
0
0
읽기모드
4d
Logstash 필터 split
공백으로 구분된 데이터.
[2025-01-14T21:09:09,525][INFO ][logstash.agent ] Pipelines running {:count=>1, :running_pipelines=>[:ma
tech
+ 더보기
0
0
0
읽기모드
6d
Filebeat의 processors - 5th
filebeat를 이용한 웹로그 전처리.
processors:
- include_fields:
fields: "message"
- if.contains:
message: "?"
then:
tech
+ 더보기
0
0
0
읽기모드
15d
Thick data
맥킨지, 구글 등 쟁쟁한 이력을 자랑하는 백영재 문화인류학 박사의 2023년작. thick data라는 낯선 용어가 시선을 끈다. 두꺼워? 데이터가?
뭔 말인가 했더니 인류학에서 뭔가를 관찰할 때 고유 맥락과 상황을 포함시켜 연
book
+ 더보기
0
0
0
읽기모드
18d
2024년에 있었던 일
2024년이 끝나가는구나? 아니다. 그냥 화요일이다. 일출 보러가자는 친구넘에게 해준 말. 니들 체력은 부럽다(..)
그래도 결산은 해야지. 아무래도 올해는 마지막 스플렁크 시리즈를 10월 완성 후, 홀가분해하던 중 닥친 구글북
im thinking
+ 더보기
0
0
0
읽기모드
21d
데이터 노가다 실수담 - 9th
스플렁크는 아파치 웹로그의 url 정보에서 경로를 제외한 파일 정보를 따로 추출해준다. 아파치만 해줌
그런데 마지막 경로 이후 정보를 무조건 추출하다보니 경로와 파일의 정확한 구분이 안 됨.
.을 포함한 정보만을 파일 조건으로 주
tech
+ 더보기
0
0
0
읽기모드
24d
데이터 노가다 실수담 - 8th
ta-linux_secure 앱의 유저 정보 추출 결과.
커스텀 유저 추출 결과.
교집합을 구해보면 거의 동일.
그런데 합집합은 왜 이래? 분명 있는데 없다고?
확인해보니 키워드가 Invalid user일 때만 차이 발생 중.
해
tech
+ 더보기
0
0
0
읽기모드
2M
구글 북 계정 중지
구글 콘텐츠 정책 위반으로 북 파트너 계정이 중지됐다.
내용을 보면 알 수 있지만 중지된 원인이 명확하지 않다. 납작 업드려 담당자(인지 봇인지)에게 제발 이유를 알려달라 읍소 중이지만 돌아오는 건 정책 위반이라는 답변뿐.
좀
book
+ 더보기
0
0
0
읽기모드
2M
VirtualBox 네트워크
집에서 잘 되는 브리지 모드가 밖에만 나가면 안 돼서 NAT 모드를 쓰는데 VM 복제 시 IP가 바뀌지 않는다. 맥어드레스를 바꿔도 안 됨. machine-id가 같아서 그런가?
[root@Snort ~]# ifconfig eth
tech
+ 더보기
0
0
0
읽기모드
2M
Splunk의 stats와 eventstats
stats를 이용한 ip별 url 접속 추이.
집계 결과를 다른 필드로 쪼개면? 실패.
데이터셋이 원본에서 중첩된 계산 결과로 바뀌었기 때문에 별도의 집계 분할 기준을 제시할 수 없다.
eventstats를 사용하면?
ip별 u
tech
+ 더보기
0
0
0
읽기모드
2M
데이터 노가다 실수담 - 7th
1시간 동안 발생한 로그는 1,959개.
이중 변수가 존재하는 로그는 373개.
변수 길이 합산 추이.
엑셀로 집계한 변수 길이 합산 추이. 스플렁크와 거의 같은 결과를 보여준다.
변수가 없는, 즉 변수 길이값이 없는 필드를
tech
+ 더보기
0
0
0
읽기모드
3M
VIM 꼼수의 발견 - 11th
문자열 길이를 측정해보자. 어떻게?
vim은 strlen 함수도 지원한다. 전체 검색 결과인 submatch(0)에 strlen 함수 적용 후 치환.
원본을 보존하면서 측정값을 추가하고 싶다면?
\zs의 검색 결과는 선행하는
tech
+ 더보기
0
0
0
읽기모드
3M
시리즈 완결 후기
elastic
Data Anomaly Detection (20.01.09)
Deep dive into web log (21.01.07)
Deep dive into system log (21.04.20)
Deep dive into
book
im thinking
+ 더보기
0
0
0
읽기모드
3M
Splunk의 Join - 4th
sysmon 이벤트 중 네트워크(3)와 DNS(22) 이벤트는 가끔 프로세스명 추출에 실패한다.
이때 기본 네트워크 이벤트(5156)와 pid를 대조하면 실제 사용된 프로세스를 확인할 수 있다. DNS 조회를 했다는 얘기는 네트워
tech
+ 더보기
0
0
0
읽기모드
3M
Splunk의 데이터 전처리 자동화 - 2nd
스플렁크의 기본 (정규표현식 기반) 데이터 전처리 결과가 마음에 들지 않을 때 정규표현식을 이용하면 커스터마이징이 그리 어렵지 않다. 그런데 정규표현식이 어렵다면?
스플렁크의 필드 추출 기능을 사용해보자. 사람 읽으라고 만들어진
tech
+ 더보기
0
0
1
읽기모드
4M
내가 처음이 아니다
하나의 로그스태시 파이프라인에서 서로 다른 데이터를 수집, 서로 다른 인덱스에 저장하는 구성에 대한 질문을 받았다. 방법은 input 구간에서 출처별로 수집 플러그인을 분리한 후, output 구간에서 조건에 따라 저장명을 달리하
im thinking
tech
+ 더보기
0
0
2
읽기모드
4M
ping
목적지가 localhost면 트래픽은 당연히 루프백 인터페이스에서 발생한다.
목적지가 외부면 외부 연결 인터페이스에서
그런데 목적지가 자기 자신이면
해당 IP가 할당된 인터페이스가 아닌 루프백에서 발생한다. 왜죠?
관련 글
ca
tech
+ 더보기
0
0
0
읽기모드
4M
비율 계산
프로세스 단위별 합산 구하고,
총합 필드 추가 후,
비율 계산.
아니면 이벤트 단위로 총합, 단위별 합산 추가 후, 계산.
그냥 top 쓰자.
관련 글
Splunk의 eval과 rex
tech
+ 더보기
0
0
0
읽기모드
5M
데이터 시인성 - 8th
해시 변화를 보여주는 차트.
숫자가 무량대수급으로 커지면 스플렁크는 좀 헤메는 것 같다. 버그? 측정은 했는데 차트가 안 보임.
그럴 땐 Y축 기준점을 바꾸던가,
차트 유형을 바꾸던가.
관련 글
데이터 시인성 - 7th
데이터 시
tech
+ 더보기
0
0
0
읽기모드
About
Badge
Contact
Activity
Terms of service
Privacy Policy