네트워크에서 비슷한 그룹을 찾아봅시다.

7 분 소요

네트워크에서 community 찾기

일단 이건 일종의 clustering이라고 생각하셔도 상관없습니다. 일단 점과 선으로 된 네트워크를 구성했을 때, 비슷한 집단끼리 묶어보고싶잖아요. 전체 네트워크만 보는 건 큰 의미가 없으니까 이걸 좀 비슷한 놈끼리 묶어보자. 이런 생각이 들죠.
이걸 네트워크에서 어떻게 할 수 있을까요?

일단 clustering.

우리는 네트워크를 가지고 있습니다. 따라서 네트워크를 adjancency matrix로 변형할 수도 있죠.
따라서, 개별 node를 다른 node들과 얼마나 떨어져 있는지를 vector값으로 표현할 수 있습니다. 각 값을 vector로 표현할 수 있으면 벡터간의 거리를 계산해서 가까운 놈은 묶어주고 아니면 안 묶어주고 이런 식으로 처리할 수 있죠. 이게 바로 클러스터링입니다.
하지만, 클러스터링만으로는 잘 되지 않아요. sklearn에 있는 spectral clustering을 이용해봤는데 잘 안되더라구요.

cut edge

그래서 생각을 해봅니다. 네트워크에서 edge를 잘라가면서 네트워크가 어떻게 변화하는지를 볼 수 있지 않을까 하는 생각을 해요.
betweenness centrality가 높은 edge를 잘라나가다 보면 적절하게 클러스터가 나뉘지 않을까? 싶어요.
예를 들면 다음과 같습니다.
아래 그림에서처럼 가장 betweenness centrality가 높은 edge를 자르다보면 밀도 가 높은 두 sub-network로 구분되게 됩니다.

## 테스트 그래프 생성
G = nx.Graph()
G.add_nodes_from([chr(c) for c in range(ord('A'), ord('A')+15)])
# add edge
G.add_edges_from([('A', n) for n in list(G.node())[:10]])
G.add_edges_from([('G', n) for n in list(G.node())[11:]])
G.add_edges_from([('B', 'J'), ('C', 'J'), ('C', 'H'), ('H', 'E'), ('E', 'D'), ('D', 'I'), 
                  ('I', 'F'), ('B', 'K'), ('K', 'F')])
G.add_edges_from([('O', 'N'), ('N', 'L'), ('M', 'L'), ('O', 'K'), ('K', 'M')])
G.add_edges_from([('A', 'K'), ('G', 'K')])
G.remove_edge('A', 'G'), 
#pos = nx.spring_layout(G)
#G.remove_node('K')
#G.remove_nodes_from(['A', 'G'])
####
f, axes = plt.subplots(1, 4, sharex=True, sharey=True)
f.set_size_inches((20, 6)) 
i=0
while True:
    #ax = axes[i//2][i%2]
    ax = axes[i]
    nx.draw_networkx_nodes(G, pos, node_shape='o', node_size=400, 
                           node_color='pink', ax=ax
                           #node_color=['Red' if n is 'K' else 'pink'  for n in G.nodes()]
                          )
    #edge_color_lst = list(nx.edge_betweenness_centrality(G).values())
    #edge_color_lst = [(ec)/(max(edge_color_lst) - min(edge_color_lst)) for ec in edge_color_lst]
    nx.draw_networkx_edges(G, pos, width = 3, 
                           edge_cmap = plt.cm.binary, ## 그냥 cmap이 아니라 edge_cmap으로 넘겨야 함 
                           edge_color = list(nx.edge_betweenness_centrality(G).values()), 
                           edge_vmin=-0.05, ax=ax
                           #edge_vmin=0, edge_vmax=1.0
                          )
    ## font family에는 font_name이 들어가야 함. 블로그에 정리해둠
    nx.draw_networkx_labels(
            G, pos, font_family='BM JUA_OTF', font_color='black', font_size=15,
            ax=ax
        )
    #plt.axis('off')
    ax.set_axis_off()
    #plt.savefig('../../assets/images/markdown_img/180807_centrality_deg_bet_net.png', dpi=200)
    #plt.show()
    if nx.is_connected(G):
        r_edge = max(list(nx.edge_betweenness_centrality(G).items()), key=lambda x: x[1])[0]
        G.remove_edge(*r_edge)
        i+=1
    else:
        break
plt.tight_layout()
plt.savefig('../../assets/images/markdown_img/180808_edge_bet_cent_cut.svg')
plt.show()

아래 그림처럼, betweenness centrality가 높은 edge를 자르다보면, 밀집도가 높은 cluster로 잘라지게 됩니다. 이렇게 community를 만드는 방법을 girvan_newman이라고 합니다.

finding communities: girvan_newman

girvan_newman는 앞서 말씀드린 바와 같이 가장 betweenness centrality가 높은 edge를 자르면서 community 를 만듭니다.
사용하는 방법은 다음처럼 매우 간단합니다.

from networkx.algorithms.community import girvan_newman

## girvan_newman은 가장 중요한 edge를 자르는데
## 아무 것도 넘기지 않고 실행하면, edge_betweenness centrality를 사용해서 자르고 
## 그렇지 않을 경우에는 graph를 input으로 받고, edge를 출력해주는 function을 넘겨주어야 함 
## 아래는 아무것도 넘기지 않았을때와 똑같은 의미를 가지는 함수 

def most_valuable_edge(g):
    return max(nx.edge_betweenness_centrality(g).items(), key=lambda x: x[1])[0]

comm = girvan_newman(G, most_valuable_edge=most_valuable_edge)

## girvan_newman으로 만든 iterator는 끝까지 가면 모두 1개 크기의 세트로 이루어진 커뮤니티 세트가 나옴 
for i, comms in enumerate(girvan_newman(G)):
    print('community set_{:0>2d}'.format(i))
    print("="*30)
    for i, c in enumerate(comms):
        print("community_{:0>2d}: {}".format(i, c))
    print("="*30)

실행 결과는 다음과 같습니다.

community set_00
==============================
community_00: {'I', 'C', 'J', 'D', 'B', 'E', 'A', 'H', 'F'}
community_01: {'K', 'L', 'O', 'N', 'M', 'G'}
==============================
community set_01
==============================
community_00: {'I', 'C', 'D', 'E', 'A', 'H', 'F'}
community_01: {'J', 'B'}
community_02: {'K', 'L', 'O', 'N', 'M', 'G'}
==============================
community set_02
==============================
community_00: {'I', 'D', 'E', 'A', 'F'}
community_01: {'J', 'B'}
community_02: {'H', 'C'}
community_03: {'K', 'L', 'O', 'N', 'M', 'G'}
==============================
community set_03
==============================
community_00: {'F', 'I', 'A', 'D'}
community_01: {'J', 'B'}
community_02: {'H', 'C'}
community_03: {'E'}
community_04: {'K', 'L', 'O', 'N', 'M', 'G'}
==============================
community set_04
==============================
community_00: {'F', 'I', 'A', 'D'}
community_01: {'J', 'B'}
community_02: {'H', 'C'}
community_03: {'E'}
community_04: {'N', 'O', 'K', 'G'}
community_05: {'M', 'L'}
==============================
community set_05
==============================
community_00: {'F', 'I', 'A'}
community_01: {'J', 'B'}
community_02: {'H', 'C'}
community_03: {'D'}
community_04: {'E'}
community_05: {'N', 'O', 'K', 'G'}
community_06: {'M', 'L'}
==============================
community set_06
==============================
community_00: {'F', 'I', 'A'}
community_01: {'J', 'B'}
community_02: {'H', 'C'}
community_03: {'D'}
community_04: {'E'}
community_05: {'O', 'K', 'G'}
community_06: {'M', 'L'}
community_07: {'N'}
==============================
community set_07
==============================
community_00: {'A'}
community_01: {'J', 'B'}
community_02: {'H', 'C'}
community_03: {'D'}
community_04: {'E'}
community_05: {'F', 'I'}
community_06: {'O', 'K', 'G'}
community_07: {'M', 'L'}
community_08: {'N'}
==============================
community set_08
==============================
community_00: {'A'}
community_01: {'B'}
community_02: {'H', 'C'}
community_03: {'D'}
community_04: {'E'}
community_05: {'F', 'I'}
community_06: {'O', 'K', 'G'}
community_07: {'J'}
community_08: {'M', 'L'}
community_09: {'N'}
==============================
community set_09
==============================
community_00: {'A'}
community_01: {'B'}
community_02: {'C'}
community_03: {'D'}
community_04: {'E'}
community_05: {'F', 'I'}
community_06: {'O', 'K', 'G'}
community_07: {'H'}
community_08: {'J'}
community_09: {'M', 'L'}
community_10: {'N'}
==============================
community set_10
==============================
community_00: {'A'}
community_01: {'B'}
community_02: {'C'}
community_03: {'D'}
community_04: {'E'}
community_05: {'F'}
community_06: {'O', 'K', 'G'}
community_07: {'H'}
community_08: {'I'}
community_09: {'J'}
community_10: {'M', 'L'}
community_11: {'N'}
==============================
community set_11
==============================
community_00: {'A'}
community_01: {'B'}
community_02: {'C'}
community_03: {'D'}
community_04: {'E'}
community_05: {'F'}
community_06: {'G'}
community_07: {'H'}
community_08: {'I'}
community_09: {'J'}
community_10: {'O', 'K'}
community_11: {'M', 'L'}
community_12: {'N'}
==============================
community set_12
==============================
community_00: {'A'}
community_01: {'B'}
community_02: {'C'}
community_03: {'D'}
community_04: {'E'}
community_05: {'F'}
community_06: {'G'}
community_07: {'H'}
community_08: {'I'}
community_09: {'J'}
community_10: {'K'}
community_11: {'M', 'L'}
community_12: {'N'}
community_13: {'O'}
==============================
community set_13
==============================
community_00: {'A'}
community_01: {'B'}
community_02: {'C'}
community_03: {'D'}
community_04: {'E'}
community_05: {'F'}
community_06: {'G'}
community_07: {'H'}
community_08: {'I'}
community_09: {'J'}
community_10: {'K'}
community_11: {'L'}
community_12: {'M'}
community_13: {'N'}
community_14: {'O'}
==============================

finding communities with k: asyn_fluidc

이는 k-clustering처럼 그룹의 수만큼 잘라주는 방법을 말합니다.
매번 k의 값을 2로 하고, 큰 놈만 잘라주는 식으로 해도 나쁘지는 않겠네요.

from networkx.algorithms.community.asyn_fluidc import asyn_fluidc
## 끊어져 있는 graph에서는 돌아가지 않음. 
if nx.is_connected(G): 
    for k in range(1, 5):
        for i, community in enumerate(asyn_fluidc(G, k=k)):
            print("community_{:0>2d}: {}".format(i, community))
        print("="*40)
else:
    print("G가 not connected이면 실행안됨")

community_00: {'I', 'K', 'L', 'C', 'O', 'J', 'B', 'D', 'E', 'A', 'H', 'N', 'F', 'M', 'G'}
========================================
community_00: {'I', 'C', 'J', 'D', 'E', 'A', 'H', 'F'}
community_01: {'K', 'L', 'O', 'B', 'N', 'M', 'G'}
========================================
community_00: {'J', 'B', 'C'}
community_01: {'I', 'D', 'E', 'A', 'H', 'F'}
community_02: {'K', 'L', 'O', 'N', 'M', 'G'}
========================================
community_00: {'F', 'I', 'D'}
community_01: {'O', 'N', 'K', 'G'}
community_02: {'L', 'M'}
community_03: {'C', 'J', 'B', 'E', 'A', 'H'}
========================================

finding communities: label propagation

이는 random하게 node에 라벨링을 해 가면서, 이웃 노드들에 가장 많이 칠해진 label을 본인 노드의 label로 정해가는, 일종의 greedy한 algorithm을 말하는 것 같습니다만. 이상헤 안되요.
그래서 일단 무시합니다.

## 이 method의 경우는 girvan_newman과 다르게 단 한가지 방법에 대해서만 리턴함. 
## label propagation은 노드에 랜덤하게 라벨을 칠하고, 그 노드의 이웃한 노드들에서 가장 많이 발견되는 
## 라벨로 현재 노드를 칠해주는 것을 말함 

## directional graph의 경우 쓰는 method 
from networkx.algorithms.community.label_propagation import asyn_lpa_communities
## undirectional graph의 경우 쓰는 method 
from networkx.algorithms.community.label_propagation import label_propagation_communities

for i, comm in enumerate(asyn_lpa_communities(G)):
    print("community_{:0>2d}: {}".format(i, comm))
print("="*20)
for i, comm in enumerate(label_propagation_communities(G)):
    print("community_{:0>2d}: {}".format(i, comm))

validation partition

그래서, 그 결과가 얼마나 잘 되었는지를 평가합니다.
coverage, performance 라는 두가지 메트릭이 있는데요. 다음처럼 쓸 수 있습니다.

from networkx.algorithms.community.asyn_fluidc import asyn_fluidc
from networkx.algorithms.community import coverage, performance

coverage_lst, performance_lst = [], [] 
for k in range(1, len(G.nodes())):
    communities = list(asyn_fluidc(G, k=k))
    coverage_lst.append( coverage(G, communities) )
    performance_lst.append( performance(G, communities) )
## 그림에서 보는 것처럼 performance가 충분히 높아지고 변화의 폭이 줄어들고 
## coverage가 충분히 큰 정도에서 멈추면 될듯함. 
## 따라서 적당한 k는 아마도 2-3 정도 
plt.figure(figsize=(14, 6))
plt.plot(coverage_lst, 'o-', label='coverage')
plt.plot(performance_lst, '^--', label='performance')
plt.legend(fontsize=15)
plt.savefig("../../assets/images/markdown_img/180808_coverage_performance_eva.svg")
plt.show()

커뮤니티 뽑고 그림 그리기

그래프에서 커뮤니티를 뽑고 그림을 그려줍니다.
girvan_newman을 이용해서 커뮤니티를 뽑았으며, performance의 변화 폭이 충분히 작아질때까지 자릅니다.
그 다음 coverage, performance를 플로팅하여 적절하게 끊겼는지를 파악합니다.

## community 

import networkx as nx
import matplotlib.pyplot as plt
from networkx.algorithms.community import girvan_newman
#from networkx.algorithms.community.asyn_fluidc import asyn_fluidc
from networkx.algorithms.community import coverage, performance

community_lst = [] ## 커뮤니티 리스트 
coverage_lst, performance_lst = [], [] 
## 커뮤니티가 얼마나 잘 뽑혔는지를 평가하는 지표

for i, comms in enumerate(girvan_newman(tempG)):
    ## performance의 변화폭이 많이 적어지면 더이상 cluster를 나누어도 이득이 없으므로 멈춤
    if i!=0 and abs(performance(tempG, comms) - performance_lst[-1])< 0.01:
        break
    else:
        community_lst.append(comms), 
        coverage_lst.append(coverage(tempG, comms)), performance_lst.append(performance(tempG, comms))

## performance, coverage의 값을 확인한 다음 
## performance의 변화 폭이 작고, coverage가 충분히 클 때까지 자름
plt.figure(figsize=(8, 4))
plt.plot(coverage_lst, label='coverage', marker='o', color='r')
plt.plot(performance_lst, marker='^', label='performance', color='b')
plt.legend(fontsize=15)
plt.savefig('../../assets/images/markdown_img/180809_network_performance_coverage.svg')
plt.show()

그리고 만든 커뮤니티를 그림으로 표현해줍니다.
- 일단 원래 그래프의 node에 각 node가 속한 community 값을 넘겨주고, 그 값에 따라서 칼라링을 합니다.
특히, 조금 어려웠던 부분은 legend를 그리는 부분 이었는데, 그냥 node에 label을 넘길 경우에는 그 값이 모두 node위에 텍스트로 표현되고, legend에는 모든 node의 개수가 다 뜹니다.
그래서 저는 약간 돌려서, 제 axis 바깥 쪽에 plt.scatter를 이용해서 node와 같은 크기의 색깔의 점들을 찍고, label을 같이 넘긴 다음 plt.legend()로 사용했습니다. 뭔가 깔끔한 방법은 아니지만, 이렇게 하면 되긴 하니까요. 되는게 중요합니다.

## 원래 그래프의 노드의 attribute에 community 정보를 넘겨줌
## 원래 그래프의 노드의 attribute에 community 정보를 넘겨줌
selected_community = community_lst[-1]
for i, comm in enumerate(selected_community):
    for p in comm: 
        tempG.nodes()[p]['community'] = i 

## 이제 그림을 그려줌 

plt.figure(figsize=(18, 7))
#pos = nx.spring_layout(tempG)


## 아래처럼 노드별로 label을 먹여서 따로 그려줘도 안됨
## plt.legend를 찍으면 모든 node가 서로 다른 것처럼 표시됨. 
nx.draw_networkx_nodes(tempG, pos=pos, node_size = 200,
                       node_color = [n[1]['community'] for n in tempG.nodes(data=True)], 
                       cmap=plt.cm.gist_rainbow, 
                       alpha=0.5, labels={ n[0]:n[1]['community'] for n in tempG.nodes(data=True)},
                      )


edge_color = np.array([e[2]['weight'] for e in tempG.edges(data=True)])
## normalization 
for i in range(0, 3):
    edge_color = np.log1p(edge_color)
nx.draw_networkx_edges(tempG, pos=pos, 
                       edge_color = edge_color, edge_cmap= plt.cm.Greys, 
                       edge_vmin=edge_color.min(), edge_vmax=edge_color.max(), 
                      )

## 빈곳에 그림을 그리고 가림 
pos_min = (min((x for x, y in pos.values())), min((y for x, y in pos.values())))
pos_max = (max((x for x, y in pos.values())), max((y for x, y in pos.values())))


## 그려진 네트워크에 맞춰서 x, y 축을 조절 
plt.xlim(pos_min[0]-0.1, pos_max[0]+0.1)
plt.ylim(pos_min[1]-0.1, pos_max[1]+0.1)

tempx, tempy = 100, 100
community_label_lst = ['대학원사람들', '동아리1', '독서모임1', '가족', '훈련소', '개발모임', '동아리2', '독서모임2', '학과동기']
for i, c in enumerate(plt.cm.gist_rainbow(np.linspace(0.0, 1.0, len(selected_community)))):
    plt.scatter(tempx, tempy, c =c, s=100, marker='o', label=community_label_lst[i], 
                alpha=0.5, zorder=0)
plt.scatter(tempx, tempy, s=200, marker='o', c='white', zorder=1)
plt.legend(loc='upper left', 
           prop = fm.FontProperties(family=BMJUA.get_name(), 
                                    #style='normal', 
                                    size=20), 
           markerscale=1.2, ## 마커 크기를 조절하자. 
           bbox_to_anchor=(1.0, 0.75), 
           #prop = {'font_family':BMJUA.get_name()}
          )
plt.axis('off')
plt.tight_layout()
plt.savefig('../../assets/images/markdown_img/180809_network_community.png', dpi=200)
plt.show()

Twitter Facebook LinkedIn

frhyme

네트워크에서 비슷한 그룹을 찾아봅시다.

네트워크에서 community 찾기

일단 clustering.

cut edge

finding communities: girvan_newman

finding communities with k: asyn_fluidc

finding communities: label propagation

validation partition

커뮤니티 뽑고 그림 그리기

공유하기

댓글남기기