최근 몇 년 동안, 온라인 소셜 네트워크(OSN)를 실시간으로 채굴하는 데 상당한 관심이 소비되었다. 마케팅에서 비상 관리, 정치에서 비즈니스 및 관리에 이르기까지 실시간 또는 거의 실시간에 가까운 이벤트 처리를 통해 얻을 수 있는 의사 결정 분석 방법 예를 들어, 이벤트 감지 기능은 트래픽 관리, 화재 제어, TV 프로그램 호스팅 및 스마트 시티 관리 시스템에서 중요하다. OSN은 다른 데이터 소스와 결합하여 복잡한 의사 결정 및 리스크 관리 방법론을 강화할 수 있습니다. 예를 들어, 트위터는 재난 경고를 전달하고 정보를 전파하고, 진화하는 추세를 포착하고, 자원 소비를 제어하거나, 효과적인 경감 전략을 발견하기 위해 많은 실제 사고에서 효과적으로 이용되었다.
그러나 OSN 데이터는 적절한 신뢰 수준으로 처리해야 합니다. 코로나 바이러스 때문에 일어나고 있는 것은 활발한 사례 연구이다. 실제로 소셜미디어가 등장하기 전 유행병이 유행했다면, 전문가들은 질병 발생의 경과를 알기 위해 학술지에 게재될 때까지 기다려야 했다. 오늘날 전문가들 사이에 정보를 공유하는 것이 훨씬 더 빠릅니다. 반면에, 정보가 게시되는 용이성과 정보가 퍼지는 속도는 이 정보가 부정확하거나 거짓일 때(예: 가짜 뉴스) 새로운 도전을 제기한다. 소위 '정보 전염병'은 검증되지 않은 뉴스에 의해 발생되는 소음과 전염의 공포에 의해 발생되는 경보를 제거하기 위해 신속히 처리되어야 하며, 신뢰할 수 있는 정보를 가능한 한 짧은 시간에 확산시킬 필요가 있다. 사실, 소셜 네트워크 기반 이벤트 분석의 신뢰성은 몇 가지 요인에 따라 달라진다. 센서 역할을 하는 지상 사용자의 실제 존재가 첫 번째다. 피렌체에서는 최근 수도관 붕괴로 인한 아르노 강 제방 붕괴 사고 당시 2016년 5월 25일 오전 6.15시에 사건이 발생했기 때문에 트위터에서 관련 변화가 감지되지 않았다. 단, 트위터에 언급할 트위터 사용자가 없었기 때문이다. 소셜 미디어는 범용 통신 플랫폼이며, 이러한 이유로 인해 선택 편향이 도입되지 않도록 분석 영역과 관련된 활동을 필터링하는 것이 중요하다.
그러기 위해서는 OSN에서 생성되는 방대한 양의 데이터를 운영자가 보다 심층적이고 실시간으로 분석할 수 있도록 지원하는 새로운 클래스의 민첩하고 비용 효율적인 방법과 도구가 제안되었다. 예를 들어, 트위터는 연구자들에게 사용자의 링크, 서면 콘텐츠 및 커뮤니티 서클에 대한 수십억 개의 정보를 제공하는 게이트웨이를 제공하며, 분석에는 주로 자연어 처리, 링크 예측, 커뮤니티 감지 및 감정 분석에서 알고리듬 개선을 위한 게이트웨이를 제공한다. 그러나 이러한 방법은 필요한 리소스뿐만 아니라 제공된 결과의 적시성에 영향을 미치는 관련 양의 데이터를 처리해야 합니다.
OSN을 마이닝하는 데 필요한 시간과 예산을 제한하면서 여러 가지 접근 방식이 제안되었다. 그러나, 우리가 아는 한, 그들 중 어느 누구도 본 논문에서 우리가 제안하는 전략의 혼합을 사용할 수 없다.
본 연구에서는 연구자와 데이터 수집기가 소셜 네트워크를 채굴하고 직접 분석할 수 있도록 지원하는 마이닝 플랫폼을 제안하며, 동시 샘플링 및 온톨로지 강화 필터링 알고리듬을 기반으로 데이터 수집을 필터링할 수 있는 API별 및 예산 제한 전략을 정의한다. 접근 방식을 테스트하기 위해 콘텐츠 기반 추천 시스템을 만드는 데 활용했습니다. 제안된 아키텍처에서 권장 사항은 소셜 네트워크 노드의 관계 및 역할에 대한 그래프 투영 결과이다. 우리의 접근 방식에서, 우리는 공유된 내용에서 사람들의 실체를 찾기 위한 머신 러닝과 계정과 그들의 환경 사이의 관계를 매핑하는 지식 그래프를 구축하기 위한 온톨로지를 찾고 있다. 또한, 우리는 온톨로지 강화 지식 그래프를 구축하기 위한 플랫폼을 고려하고 이를 권장 목적으로 사용한다.
본 문서는 다음과 같이 구성됩니다. 섹션 2에서는 관련 작업을 제시합니다. 섹션 3에서는 아키텍처와 구성요소를 포함하여 제안된 플랫폼을 설명한다. 섹션 4에서는 플랫폼의 일부로서 온톨로지의 구현과 추천자 시스템 분석의 전체 워크플로우를 보여줍니다. 섹션 5에서는 시스템 구현에 대해 설명합니다. 섹션 6에서는 실험 분석을 제시하고, 마지막으로 섹션 7에서는 결론을 제시한다.
OSN에서 수집된 데이터의 가치는 숨겨진 패턴을 드러내거나 미래의 역학 또는 추세를 예측해야 하는 잠재력에 있습니다. 다른 방법으로는 대부분 불가능합니다. 그러나 분석 결과의 품질은 데이터 세트를 생성하는 방법과 본질적으로 관련이 있다. 데이터 수집에 대한 광범위한 연구가 수행되었지만, 일부 불확실성은 여전히 남아 있다.
'생활정보' 카테고리의 다른 글
신경 정렬은 컴퓨터 과학 과정에 대한 소개를 받는 학생들의 학습 결과를 예측한다. (0) | 2021.05.06 |
---|---|
의견 조작 방어에 대한 사용자 검색 취약 (0) | 2021.05.05 |
독일 항공 우주 센터의 미래 달 과학 임무용 첨단 로봇 기술 (0) | 2021.05.05 |