社會網路分析法應用案例
① 這些兒童拐賣的數據告訴我們,兒童保護迫在眉睫
兒童拐賣在中國甚至全世界都是一個沉重的社會話題。兒童拐賣導致一系列社會問題,影響社會可持續發展。當前,國際國內關於兒童拐賣的研究大多數僅從法律層面討論如何防範,基於數據的研究多使用訪談、審判和調查數據,其樣本量較小。由於拐賣行為的隱匿性,數據是限制兒童拐賣研究的主要障礙,因而限制了國家和地方政府制定科學的打拐、防拐政策。
王真課題組通過採集超過2萬條網路尋親數據,首次使用大規模數據構建省、市兩級的兒童拐賣犯罪網路,並首次應用社會網路分析方法識別了兩級犯罪網路,特別是市級網路的一些關鍵特徵。
研究發現,我國的兒童拐賣主要都是短距離拐賣,省內、市內拐賣占總拐賣數量的40%以上,而超過1000km的長距離拐賣少於30%。利用多種社會網路指標如拐入數量、拐出數量、總數量,研究者發現,省會、經濟發達城市通常兒童拐賣案例較多,重點應該從這些大城市入手。而最重要的拐賣路徑主要是從大城市拐向小城市、從西部到東部、從欠發達到發達地區,但路徑上的阻隔不如節點上的阻隔有效。文章還分析了兒童拐賣可能的犯罪集團,這些集團呈現較強的區域性特徵,從一些關鍵城市投入資源打拐可能對於破解全國的兒童拐賣具有相對較好的效果。
綜合「 販入和販出兒童 」兩方面數據看, 河南、江蘇、山東、福建、河北、四川、廣東、安徽 (排名從高到低),這8個省份是非法拐賣兒童的高危區。
「賣出」兒童(這里走失或被拐的孩子)占走失兒童總人數的66.3%,「買入」兒童(被拐賣到這里的孩子)人數佔全國的52.9%。
這8個省份,除福建以外,河南、江蘇等7省均為人口大省,可能是其中的一個原因。但許多地區依然盛行的「 傳宗接代 」的宗室觀念,也在一定程度上造成了這樣的局面。
販入/販出兒童人數比例圖,橙色表示兒童凈販入,顏色越深表示販入兒童越多;藍色表示兒童凈販出,顏色越深表示販出兒童越多。
圖片來自原論文
從「兒童販入人數與販出人數比例」看, 河南、河北、山東、天津、北京、重慶、福建、廣東 等8個省市是兒童凈販入地,即被拐賣到這里的兒童多於被拐走的兒童。
除新疆和中國台灣外,全國其他地區均為凈販出地。四川是全國最大的兒童凈販出地,其次是山西和江蘇。
具體到城市層面,有些地方「脫穎而出」,成為拐賣兒童的重災區。
重點城市之間拐賣兒童的流向,圖片來自原論文
其中,「賣掉」兒童最多的4個城市分別是 上海、成都、重慶、福州 ,其次是莆田、南京和西安。
「買入」兒童最多的4個城市分別是 莆田、徐州、重慶、邯鄲 ,其次是成都、和鄭州。
成都、重慶、莆田3個城市,均兩次「上榜」。成都、重慶大城市先不論,莆田這個三、四線東南沿海小城,到底是怎樣的神奇存在?除了造鞋、開男科婦科整容醫院,它竟然還是非法販賣兒童的高危城市!
10條拐賣兒童的關鍵路線
王真教授他們的研究還發現,從拐賣的路徑上看,被拐賣的兒童 主要從西部流向了中東部地區,從經濟相對落後地區流向了發達地區,流向了更重視「男孩」的地區 。
他們甚至繪制出,中國販賣兒童的 10條關鍵路線 。
3條起始於成都的關鍵路線: No.1 成都——雅安;No.5 成都——北海;No.6成都——曲靖。
關鍵路線No.4: 深圳——汕尾。
關鍵路線No.7: 昆明——昭通。
關鍵路線No.2: 西寧——海東。
關鍵路線No.3: 綏化——大興安嶺。
關鍵線路No.8: 烏魯木齊——張掖
關鍵路線No.10: 北京——葫蘆島 。
近距離販賣才是多數派
10條關鍵路線中的 8條都沒超過500公里 。這似乎與我們的常識不同,原以為孩子一被拐走,就會被賣到遙遠的山溝溝里。
拐賣兒童數量與距離之間的關系
而事實上, 58.2%的兒童販賣事件發生在省內,42.4%甚至發生在市內。
重慶和莆田(又是它!)的兒童走失案例中,高達69.2%和63.4%的販賣發生在自己市內。
好像確實聽過這樣的案例,小時候被拐賣的兒童長大後尋到親人才發現,原來他們之間相距不遠,甚至曾經擦肩走過。只是因為分開時,孩子太小,長大後容貌變化巨大,無奈相見不相識。
打拐要重點關注拐賣網路的「門戶」
王真教授他們後來進行的聚類分析,再次證實了我國販賣兒童網路的 地域集聚特徵 ,即大量的販賣活動頻繁發生在同一個區域內。
目前,大致有東北、華北、華中、華東、華南、西南這6個主要區域。
同一顏色表示同一個販賣區域
比如,上海和周邊城市,與河南、山西和陝西省的一些城市形成了一個區域;而石家莊與我國中部地區的城市在一個區域中。
但仍有大量的販賣活動會跨越區域,一些大城市,因其經濟、交通的便利,比如成都、北京、上海、重慶、廣州、泉州、西安、莆田、徐州和武漢等,在跨區域販賣兒童過程中發揮了「 門戶 」或「 樞紐 」的作用。
所以,政府、警方在打擊販賣兒童上需要講究策略,將更多的資源投放在重點城市、關鍵路徑上,能收到事半功倍的效果。
比如,在重慶投入資源,可以影響到販賣網路中60%的城市;而同時在重慶和上海投入資源,可以影響到69%的城市。
最後,王真教授他們提醒:在拐賣兒童的所有評估指標中, 成都和重慶 都被確定為主要城市, 上海、北京和莆田 至少在4個指標中被確定為主要城市。
換句簡單的話, 成都、重慶、上海、北京和莆田 是拐賣兒童的高危區中的重災區,應該是打拐行動最最最重點關注的地區!
② 社會網路分析的內容簡介
本書的內容結構是,除前言外共分為八章,分別介紹社會網路分析的基本原理和理論、社會網路資料類型和收集方法、網路分析的各種技術與方法、社會網路分析的應用等內容。
第一章
首先追溯了西方社會網路分析的思想淵源,對國內外的研究狀況做了系統回顧,介紹了社會網路分析的一些新進展。社會網路分析有不同的學科發展背景,其發展也經歷了不同的階段。我們通過回顧社會網路分析思想與方法在西方的發展,梳理出其中的主要線索和問題,並結合國內的研究狀況進行探討,目的在於強調更好地借鑒已有的成果,加強對社會網路分析的認識和應用。
第二章
系統說明了社會網路分析的基本原理。社會網路分析作為一種獨立的社會研究方法,已形成了自己的理論基礎和方法論原則。通過這些方面我們可以認識社會網路分析方法的特徵及其獨特之處。在本章中我們在說明社會網路分析概念的基礎上,具體介紹了社會網路分析的方法論原理和研究程序。
第三章
主要說明社會網路分析所用的數據資料具有自己的類型與特徵,它是一組反映行動者關系的信息。社會網路資料首先是關於社會關系的數據信息,簡稱關系數據。關系數據不同於屬性數據,不僅其本質內容不同,其表達形式也不同。本章在介紹了社會網路資料的概念和類型基礎上,結合研究設計具體說明了社會網路的測量及其收集方法。
第四章
主要介紹社會網路分析的研究技術與方法。社會網路最基本的數學表達形式是圖論法和矩陣法。圖論法是以線和點的形式來表示行動者及其關系的一種方法。用社群圖可表示社會關系的結構、特徵等屬性。矩陣法是把社會網路中的每一個結點或關系分別按行和列的方式排列即可形成網路矩陣,包括鄰接矩陣、關聯矩陣等。矩陣法可以對群體關系進行具體分析。
第五章
是關於社會網路的中心度分析。中心度是我們認識社會網路中行動者位置及其關系的重要概念,具有廣泛的應用性。本章首先介紹了中心度、中心勢概念,重點說明了結點中心度、緊密中心度、間距中心度及其測量方法。最後又對社會網路中與等級密切相關的權力和聲望作了分析。網路中的聲望不同於一般意義的社會聲望概念,這里主要說明了接近度聲望概念及其測量。
第六章
是關於社會網路分析中的子群研究。構成社會網路的基本元素就是行動者及其群體,社會中存在著各種各樣的子群,它們相互結合形成了復雜的社會結構。本章首先從社會群體、子群概念出發,說明各種團聚性的子群及其測量方法,包括「團伙」、n-團伙、n-宗派、k-叢等,最後分析隸屬性群體。
第七章
是關於網路中的位置和角色的分析。在社會結構分析中,位置和角色是兩個重要的概念。本章在簡要介紹了網路分析的位置和角色概念之後,主要說明了結構等價性、自同構等價性和正則等價性及其不同的測量方法,最後一節簡要介紹了關系代數法和統計模型法。位置和角色分析是目前社會網路分析中數量化分析程度最高的方面,已應用和發展出了許多不同的數學分析方法。本章結合例子簡要介紹了聚類法、統計模型法等。這些分析方法現在都可藉助於有關的分析軟體來應用。
第八章
討論了社會網路分析的一些應用。社會網路分析具有非常廣泛的應用,其應用領域已遠遠超出了社會學和人類學的傳統范圍,如小群體關系、社會支持網等,而且擴展到了人文社會科學甚至工程技術科學的諸多領域。但本書只是簡要分析了與社會網路分析密切相關的社會資本研究以及體現中國社會結構特徵的「關系」研究。
本書最後在附錄中介紹了社會網路分析軟體包的應用,重點說明了Pajek 的內容及使用方法。附錄中還附有兩個不同的各具代表性的《社會網路分析》教學大綱,供讀者參考比較。
③ 社會網路分析方法
社會網路分析方法是由社會學家根據數學方法﹑圖論等發展起來的定量分析方法,近年來,該方法在職業流動、城市化對個體幸福的影響和經濟體系、國際貿易等領域廣泛應用,並發揮了重要作用。
社會網路分析是社會學領域比較成熟的分析方法,社會學家們利用它可以比較得心應手地來解釋一些社會學問題。許多學科的專家如經濟學、管理學等領域的學者們在新經濟時代——知識經濟時代,面臨許多挑戰時,開始考慮借鑒其他學科的研究方法,社會網路分析就是其中的一種。
網路指的是各種關聯,而社會網路即可簡單地稱為社會關系所構成的結構。社會網路分析問題起源於物理學中的適應性網路,通過研究網路關系,有助於把個體間關系、「微觀」網路與大規模的社會系統的「宏觀」結構結合起來,通過數學方法﹑圖論等定量分析方法,是20世紀70年代以來在社會學、心理學、人類學、數學、通信科學等領域逐步發展起來的一個的研究分支。
所以,從社會網路的角度出發,人在社會環境中的相互作用可以表達為基於關系的一種模式或規則,而基於這種關系的有規律模式反映了社會結構,這種結構的量化分析是社會網路分析的出發點。
社會網路分析不僅僅是一種工具,更是一種關系論的思維方式。可以利用來解釋一些社會學、經濟學、管理學等領域問題。
④ 什麼是社會網路分析法
社會網路分析方法是由社會學家根據數學方法、圖論等發展起來的定量分析方法。
社會網路分析是對社會網路的關系結構以及屬性加以分析的一套規范和方法。它又被稱為結構分析法(structural analysis)
社會網路分析不僅是對關系和結構加以分析的技術,還是一種理論方法--結構思想。
社會網路分析是社會學領域比較成熟的分析方法,該方法可以解決一些社會學的問題。
社會網路要素:
①行動者,在社會網路中用節點表示;
②關系,在社會網路中用劍線表示,關系的內容可能是友誼、借貸或是溝通,其關系可以是單向或雙方,且存在關系強度的差異,關系不同即構成不同的網路
社會網路分析的原理:
關系紐帶經常是不對稱地相互作用著的,在內容和強度上都有所不同
關系紐帶間接或直接地把網路成員連接在一起;故必須在更大的網路結構背景中進行分析
社會紐帶結構產生了非隨機的網路,因而形成了網路群(network clusters)、網路界限和交叉關聯
交叉關聯把網路群以及個體聯系在一起
不對稱的紐帶和復雜網路使稀缺資源的分配不平等
網路產生了以獲取稀缺資源為目的的合作和競爭行為
社會網路分析方法--數學表達式:
①圖論法和矩陣法,這是社會網路分析最基本的方法
②二方關系圖和三方關系圖
③圖的矩陣表達
④反應行動者的關系圖。通過網路密度、結點度、割點、橋等指標進行具體測量距離,行動者之間的距離越小,意味著他們之間的聯系越密切,交流互動越充分。由此可以了解一個網路中行動者之間的分化與差異
⑤ 復雜網路 --- 社會網路分析
「社會網路」指的是社會成員及其相互關系的集合。社會網路中所說的「點」是各個社會成員,而社會網路中的「邊」指的是成員之間的各種社會關系。成員間的關系可以是有向的,也可以是無向的。同時,社會關系可以表現為多種形式,如人與人之間的朋友關系、上下級關系、科研合作關系等,組織成員之間的溝通關系,國家之間的貿易關系等。社會網路分析(Social Network Analysis)就是要對社會網路中行為者之間的關系進行量化研究,是社會網路理論中的一個具體工具。
因此,社會網路分析關注的焦點是關系和關系的模式,採用的方式和方法從概念上有別於傳統的統計分析和數據處理方法。
社會網路通常表達人類的個體通過各種關系連接起來,比如朋友、婚姻、商業等,這些連接宏觀上呈現出一定的模式。很早的時候,一些社會學家開始關注人們交往的模式。Ebel等進行了一個電子郵件版的小世界問題的實驗,完成了Kiel大學的5000個學生的112天電子郵件連接數據,節點為電子郵件地址,連接為消息的傳遞,得到帶指數截斷的冪律度分布,指數為r=1.18。同時證明,該網路是小世界的,平均分隔為4.94。
社會網路分析,可以解決或可以嘗試解決下列問題:
「中心性」是社會網路分析的重點之一,用於分析個人或組織在其社會網路中具有怎樣的權力,或者說居於怎樣的中心地位,這一思想是社會網路分析者最早探討的內容之一。
點度中心度表示與該點直接相連的點的個數,無向圖為(n-1),有向圖為(入度,出度)。
個體的中心度(Centrality)測量個體處於網路中心的程度,反映了該點在網路中的重要性程度。網路中每個個體都有一個中心度,刻畫了個體特性。除了計算網路中個體的中心度外,還可以計算整個網路的集中趨勢(可簡稱為中心勢,Centralization)。網路中心勢刻畫的是整個網路中各個點的差異性程度,一個網路只有一個中心勢。
根據計算方法的不同,中心度和中心勢都可以分為3種:點度中心度/點度中心勢、中間中心度/中間中心勢、接近中心度/接近中心勢。
在一個社會網路中,如果一個個體與其他個體之間存在大量的直接聯系,那麼該個體就居於中心地位,在該網路中擁有較大的「權力」。在這種思想的指導下,網路中一個點的點度中心性就可以用網路中與該點之間有聯系的點的數目來衡量,這就是點度中心度。
網路中心勢指的是網路中點的集中趨勢,其計算依據如下步驟:首先找到圖中的最大點度中心度的數值,然後計算該值與任何其他點的中心度的差值,再計算這些「差值」的總和,最後用這個總和除以各個「差值」總和的最大可能值。
在網路中,如果一個個體位於許多其他兩個個體之間的路徑上,可以認為該個體居於重要地位,因為他具有控制其他兩個個體之間的交往能力,這種特性用中間中心度描述,它測量的是個體對資源控制的程度。一個個體在網路中占據這樣的位置越多,代表它具有很高的中間中心性,就有越多的個體需要通過它才能發生聯系。
中間中心勢定義為網路中 中間中心性最高的節點的中間中心性與其他節點的中間中心性的差距,用於分析網路整體結構。中間中心勢越高,表示該網路中的節點可能分為多個小團體,而且過於依賴某一個節點傳遞關系,說明該節點在網路中處於極其重要的地位。
接近中心性用來描述網路中的個體不受他人「控制」的能力。在計算接近中心度的時候,我們關注的是捷徑,而不是直接關系。如果一個點通過比較短的路徑與許多其他點相連,我們就說該點具有較高的接近中心性。
對一個社會網路來說,接近中心勢越高,表明網路中節點的差異性越大;反之,則表明網路中節點間的差異越小。
註:以上公式都是針對無向圖,如果是有向圖則根據定義相應修改公式即可
當網路中某些個體之間的關系特別緊密,以至於結合成一個次級團體時,這樣的團體在社會網路分析中被稱為凝聚子群。分析網路中存在多少個這樣的子群,子群內部成員之間關系的特點,子群之間關系特點,一個子群的成員與另一個子群成員之間的關系特點等就是凝聚子群分析。
由於凝聚子群成員之間的關系十分緊密,因此有的學者也將凝聚子群分析形象地稱為「小團體分析」或「社區現象」。
常用的社區檢測方法主要有如下幾種:
(1)基於圖分割的方法,如Kernighan-Lin演算法,譜平分法等;
(2)基於層次聚類的方法,如GN演算法、Newman快速演算法等;
(3)基於模塊度優化的方法,如貪婪演算法、模擬退火演算法、Memetic演算法、PSO演算法、進化多目標優化演算法等。
凝聚子群密度(External-Internallndex,E-IIndex)主要用來衡量一個大的網路中小團體現象是否十分嚴重,在分析組織管理等問題時非常有效。
最差的情形是大團體很散漫,核心小團體卻有高度內聚力。另外一種情況是,大團體中有許多內聚力很高的小團體,很可能就會出現小團體間相互斗爭的現象。凝聚子群密度的取值范圍為[-1,+1]。該值越向1靠近,意味著派系林立的程度越大;該值越接近-1,意味著派系林立的程度越小;該值越接近0,表明關系越趨向於隨機分布,未出現派系林立的情形。
E-I Index可以說是企業管理者的一個重要的危機指數。當一個企業的E-I Index過高時,就表示該企業中的小團體有可能結合緊密而開始圖謀小團體私利,從而傷害到整個企業的利益。其實E-I Index不僅僅可以應用到企業管理領域,也可以應用到其他領域,比如用來研究某一學科領域學者之間的關系。如果該網路存在凝聚子群,並且凝聚子群的密度較高,說明處於這個凝聚子群內部的這部分學者之間聯系緊密,在信息分享和科研合作方面交往頻繁,而處於子群外部的成員則不能得到足夠的信息和科研合作機會。從一定程度上來說,這種情況也是不利於該學科領域發展的。
核心-邊緣(Core-Periphery)結構分析的目的是研究社會網路中哪些節點處於核心地位,哪些節點處於邊緣地位。核心-邊緣結構分析具有較廣的應用性,可用於分析精英網路、論文引用關系網路以及組織關系網路等多種社會現象。
根據關系數據的類型(定類數據和定比數據),核心—邊緣結構有不同的形式。定類數據和定比數據是統計學中的基本概念,一般來說,定類數據是用類別來表示的,通常用數字表示這些類別,但是這些數值不能用來進行數學計算;定比數據是用數值來表示的,可以用來進行數學計算。如果數據是定類數據,可以構建離散的核心-邊緣模型;如果數據是定比數據,可以構建連續的核心-邊緣模型。
離散的核心-邊緣模型,根據核心成員和邊緣成員之間關系的有無及緊密程度,又可分為3種:核心-邊緣全關聯模型、核心-邊緣局部關聯模型、核心-邊緣關系缺失模型。如果把核心和邊緣之間的關系看成是缺失值,就構成了核心-邊緣關系缺失模型。
這里介紹適用於定類數據的4種離散的核心-邊緣模型:
參考
⑥ 社交網路數據分析與應用
社交網路數據分析與應用
根據最近的一份調查數據顯示,美國互聯網媒體的市值已達10890億美元,是傳統媒體的3倍,類似的在中國,根據艾瑞咨詢發布的2014年第二季度網路經濟核心數據顯示,截止2014年6月30日,中國主要上市互聯網公司市值前五的為騰訊(1405.6億美元)、網路(654.5億美元)、京東(389.7億美元)、奇虎360(120.9億美元)、唯品會(111.9億美元)。與此同時,以Facebook,Twitter,微博,微信等為代表的社交網路應用正蓬勃發展,開啟了互聯網時代的社交概念。據全球最大的社會化媒體傳播咨詢公司We Are Very Social Limited分析指出,目前社交類軟體使用的人數已達25億——佔世界總人數約的35%,另據艾瑞咨詢發布的2014年第二季度社區交友數據顯示,2014年5月,社區交友類服務月度覆蓋人數達到4.7億,在總體網民中滲透率為92.5%;2014年5月社交服務在移動App端月度覆蓋人數為1.9億人,其中微博服務在移動端優勢較為明顯,月度覆蓋人數達到1.1億人;互聯網媒體和社交網路是Web2.0時代兩個非常重要的應用,那麼一個自然的問題是這兩個領域將會如何互動發展?本報告主要從數據分析(非財務、非戰略)的角度嘗試探討網路結構會給互聯網媒體帶來什麼樣的機遇和挑戰。具體而言,我們根據自己的研究經驗只關注以下幾個方面:新聞、影音和搜索,根據艾瑞咨詢發布的2013網路經濟核心數據顯示,這三部分的收入佔到中國市值TOP20互聯網企業總市值的32.16%,其重要性不可忽視。我們通過具體的案例並結合理論前沿做探索性的研討。
一、音樂推薦
根據《2013中國網路音樂市場年度報告》顯示,2013年底,我國網路音樂用戶規模達到4.5億。其中,手機音樂用戶人數由2012年的0.96億增長到2013年的2.91億,年增長率達203%。從網路音樂用戶規模的飛躍式增長可以看到音樂流媒體服務蘊含著巨大的商機。在國外,科技巨頭爭奪音樂市場的野心也初露端倪,今年年初,蘋果斥資30億美元買下Beats Electronics,而谷歌也隨後收購了流媒體音樂服務提供商Songza。
音樂產業在新媒體時代占據重要地位。本報告主要關注移動互聯網環境下在線音樂服務商(酷狗音樂、QQ音樂、天天動聽等)的發展現狀並且對當前的音樂個性化推薦提出我們的一些見解。
1.1 音樂推薦與社交網路
根據國內知名研究機構CNIT-Research 8月份發布的《2014年第二季度中國手機音樂APP市場報告》的數據顯示,排名前三的手機音樂App為酷狗音樂、QQ音樂、天天動聽。他們所佔的市場份額分別為:20.1%,17.0%以及15.8%。
酷狗音樂 QQ音樂 天天動聽
其中,酷狗音樂和天天動聽憑借在在線音樂領域長期積累的用戶資源、高品質音質、卓越的UI界面以及完美的下載體驗取勝。而QQ音樂主要依附強大的社交工具QQ應運而生,可謂是「社交音樂」領域的先驅者。從2014年第二季度手機音樂數據來看,QQ音樂增勢迅猛,連續三個月用戶下載量增速均超過行業增速水平,而酷狗音樂、天天動聽均增速低於市場行業增速,用戶市場份額有所下降。
根據速途研究院對手機音樂用戶願景的調查顯示,有58%的用戶希望增強個性化音樂推薦的功能,這說明有很多用戶在收聽音樂時其實並不清楚自己喜歡什麼類型的歌曲,如果音樂電台能根據用戶的個人喜好「猜出」用戶喜歡什麼歌曲並為其進行推薦,那將會給用戶帶來意想不到的完美體驗。目前的很多音樂軟體都支持推薦這一功能。以下是音樂App市場中常見的音樂產品的個性化推薦以及定製方式:
酷狗音樂 QQ音樂 天天動聽
根據研究,推薦模式主要分為以下幾種:(1) 熱點推薦,可以根據大眾的搜索記錄,通過排行榜的形式得到,也可以根據近期發生的音樂娛樂事件推薦,如中國好聲音、我是歌手等;(2)根據用戶的聽歌記錄推薦,包括用戶對每首歌的喜惡記錄;(3)根據地理位置信息結合用戶興趣進行推薦;(4)根據用戶喜歡的歌手信息進行推薦。但是,以上這些推薦模式都沒有能夠充分利用社交網路的信息。在社交網路風靡全球的時代,有越來越多的音樂服務商發現,社交網路可以幫助商家留住更多的用戶,同時,充分利用社交網路信息將帶來更加卓越完美的用戶體驗。可以看到,酷狗音樂和天天動聽都允許用戶使用第三方賬戶(微博、QQ)進行綁定登錄,並提供分享到微博、微信等選項;QQ音樂特設了「動態」專欄,用於顯示好友分享的音樂。另外,酷狗和QQ音樂都可以通過定位的方式推薦附近的志趣相投的好友。
酷狗音樂 QQ音樂 天天動聽
上述事實說明,社交音樂存在巨大的潛力和價值。那麼,這一方面有無突出的企業呢?其中英國的Last.fm和中國的QQ音樂可以算得上是這方面的一個代表。
Last.fm QQ音樂
Last.fm是 Audioscrobbler 音樂引擎設計團隊的旗艦產品,有遍布232個國家超過1500萬的活躍聽眾。2007年被CBS Interactive以2.8億美元價格收購,目前,Last.fm是全球最大的社交音樂平台。QQ音樂是中國互聯網領域領先的網路音樂平台及正版數字音樂服務提供商,在中國手機音樂市場所佔份額躋身四大巨頭(其他三個分別是酷狗、天天動聽、酷我),月活躍用戶已達到3億,是中國社交音樂領域的領軍人物。
以QQ音樂為例,我們詳細分析它在利用社交網路信息進行個性化推薦的優勢與可能存在的不足。QQ音樂依附強大的社交工具QQ而生,長期以來受到廣大用戶的喜愛,這與QQ背後的億萬級用戶是無法割離的,可以說,QQ音樂是有先天的社交優勢的。用戶登錄QQ音樂後,可以看到動態欄中顯示的好友音樂動態,同時,它還允許用戶綁定自己的微博賬號,把音樂分享給微博好友。不僅如此,QQ音樂允許用戶自己編輯生成歌單,並分享給好友,這起到了一定的自媒體的作用。在「明星部落」這一功能中,QQ音樂允許粉絲之間交流互動,並形成一定的社交規模。從上述總結中,我們已經可以看到,QQ音樂已經有意識的把社交信息融合到產品設計和運營中,以增加客戶粘性。但是從數據分析的基礎和推薦演算法的構建上,是否真正做到有效利用社交網路信息了呢?為此,使用QQ音樂於2012年全面更新升級的「猜你喜歡」功能,並發現了如下問題:當筆者沒有任何聽歌記錄時,這一模塊並不能為筆者推薦歌曲。根據提示內容,目前該功能可能主要依靠用戶的歷史聽歌記錄進行推薦。同樣的問題出現在QQ音樂館的推薦欄中:大部分初始推薦音樂來源於當下熱門音樂歌曲,缺少個性化成分。
QQ音樂:猜你喜歡 QQ音樂館
以上事實說明音樂服務商在推薦演算法上沒有充分利用社交網路的信息。事實上,在獲得用戶個人綁定社交網路賬號的基礎上,可以得到用戶的朋友關系,進一步可以獲得用戶好友的聽歌記錄,這些歌曲可以成為初始推薦曲目的備選項,將這些備選項通過一定規則(熱度、好友相似度)排序,可以用於音樂推薦;另外,眾所周知,社交網路(如微博)是明星與粉絲互動的一個重要渠道,因此,可以重點提取用戶對於社交網路中歌手以及音樂人的關注關系,以獲得對用戶偏好的推測。以上這些過程可以用下圖表示。
可以看到,在以社交網路綁定的音樂社區中,每個人並不是孤立的個體,而是通過好友關系,以及粉絲與明星的關注關系聯系起來。音樂活動的多元化為QQ音樂的推薦場景帶來了新的挑戰。我們認為存在以下幾個需要處理的問題:(1)如何高效利用好友的音樂信息對用戶進行推薦?用戶的好友眾多,每個好友會留下很多音樂記錄,這些信息綜合起來的話數量極其龐大,如何迅速整合朋友及其收聽記錄並按照優先程度排序對用戶進行推薦是提高用戶體驗的前提條件。(2)如何整合多種信息渠道進行推薦?隨著時間的推進,一個音樂賬戶留下的信息是多元化的。例如,用戶主動搜索的音樂記錄、用戶對歷史收聽音樂記錄的反饋,用戶選擇的電台種類、用戶自己總結生成的歌單、用戶對朋友分享音樂的反饋信息等。因此,如何對這些異質的信息來源進行有效整合,或者,在資源有限的情況下,如何判斷和篩選出對於提高推薦精度最有效的指標是提高音樂推薦效果的關鍵法寶。(3)如何整合當前音樂潮流趨勢與用戶個人興趣基因?音樂是充滿了潮流和娛樂性的產業,因此,用戶的音樂興趣不僅受其自身興趣基因驅使,也受到當前音樂流驅使的影響。因此,如何結合用戶個人興趣以及音樂潮流趨勢對用戶進行有效推薦,是對於音樂這一特殊娛樂行業的特別要求。綜上我們認為QQ音樂雖然是利用社交關系進行音樂推薦的先驅者,但是在利用網路數據的層面上仍有很大的改進和提升空間。
1.2 基於社交網路的音樂推薦
在此我們給出如何利用網路數據對用戶進行推薦的技術思想。由於音樂推薦場景實體的多元化,我們將常見的推薦場景列舉如下:推薦歌曲、推薦歌單、推薦電台、推薦歌手、推薦用戶。接下來,我們將從音樂分類與結構化、用戶信息整合、網路結構應用三個步驟詳細闡述我們的觀點。
音樂結構化與歸一化
1.歌曲標簽化
首先,基於音樂的不同風格,我們需要對系統中存在的海量歌曲進行分類,通過打標簽的方式,使音頻信息通過文本的方式結構化。分類的方法多種多樣,標准各異,從幾個音樂主流網站的標簽組織形式看來,主要從客觀、主觀兩個角度進行分析。從客觀的角度講,音樂可以按照流派、地域、年代、演奏樂器等方式分類,如「流行」、「搖滾」、「鄉村音樂」、「90後」、「鋼琴曲」等等,且大類下面可以設小類,如「流行」下可以設置「華語流行」、「歐美流行」等小類;從主觀的角度講,音樂風格與聽歌時的心情、場景高度相關,如分為「甜蜜」、「安靜」、「治癒」、「酒吧」、「咖啡館」等等,這種標簽使得用戶在聽音樂時彷彿有一種身臨其境的感覺,帶來更高的視聽享受。除此之外,標簽也可以由用戶自己生成,如用戶的熱搜關鍵詞記錄、用戶自行備注標簽等。這在一定程度上正是利用自媒體的形式擴充標簽庫,使之更能反應用戶興趣。
2.歌手信息提取
除了可以將歌曲標簽化,我們還可以進一步的對歌手信息進行提取。比如根據地域我們可以把歌手分為大陸、港台、歐美等,根據年代可以分為60後、70後、80後歌手,根據他們的曲風可以分為搖滾、抒情、朋克等。通過打標簽的形式把歌手進行分類,從而形成結構化的數據格式,方便以後快速清晰的定位用戶喜歡哪一類型的歌手。同樣的我們也可以對歌單、作詞者、作曲者進行標簽化處理,例如歌單的標簽可以模仿歌曲的形式,因為歌單是由歌曲組成,所以可以用歌曲的標簽來代表歌單的標簽。作詞者和作曲者的標簽可以參考歌手打標簽的方法,另外值得注意的是,由於音樂人之間形成合作、作曲、寫詞等合作關系,可以認為是一個社交網路關系,常常可以見到的現象是某些歌手與詞作者存在密切的合作關系,而這部分信息也可用於音樂的個性化推薦。例如,對於一些有特定合作的歌手和詞(曲)作者,我們應該特別留意,比如周傑倫和方文山這對組合。
3.歌詞的語義分析
歌曲的重要組成部分就是歌詞,由於歌詞屬於文本,我們不可能直接對其打標簽,所以首先要進行的是語義分析,通過語義分析我們可以大概知道歌詞的內容,比如我們可以把歌詞切分成短語,然後對每一個短語進行歸納總結,可以判斷短語的情感極性(如積極還是消極),對短語進行主題分類,由於歌詞數目龐大,可以利用自然語言處理的方式,如主題模型等預先提取主題,再通過人工加以校正。這樣就可以對歌詞進行標簽化處理了。下面我們以歌曲為例,簡要的說明具體標簽化過程。
通過標簽的形式我們可以對每個歌曲的主題予以分類和描述。用於描述一支單曲的標簽數目越多,對於音樂主題的描述就更加清晰、明朗;但同時,冗餘和重復的信息也可能越多,處理的難度就越大。因此,我們要對標簽進行排序和篩選,一個比較簡單高效的辦法是選擇最熱門的N個標簽作為我們的目標詞庫,並且對該詞庫定期進行更新。具體來說,我們將所有標簽按照重要程度由高到低進行排序,選擇前p個標簽作為我們的標簽集合。給定一首歌曲t,我們用一個超高維向量Xt=(Xt1,…,Xtp)∈?p表示它的標簽信息,其中Xtj=1表示該歌曲含有第j個標簽,否則,該歌曲不含有第j個標簽。例如對於一首鋼琴曲演奏的純音樂,對其打的標簽可能是:鋼琴曲、安靜、咖啡館等。設鋼琴曲、安靜、咖啡館分別對應於標號為1、3、5的標簽,那麼向量Xt可以表示為Xt=(1,0,1,0,1,0,…0) 。通過以上步驟,我們就可以把看似雜亂的音樂風格通過打標簽的形式進行結構化,用一個只含0、1元素的超高維向量對每首歌曲進行分類。
對於歌單、電台這些由歌曲集合而成的實體,我們也可以通過標簽的方式對其進行刻畫。例如,對於給定的一個歌單m,我們同樣用一個超高維向量
⑦ 什麼是社會網路分析如果寫論文應該從哪些方面去分析這個案例呢
在回響著的影子里,曾把你帶走的
大步走過葡萄園和海
往何處去
和床。--進去住下。
無關利害的美以無邊無際的豐盈
就可以相信他人的認知哈哈
⑧ 社會網路分析法的優缺點
優點:社會網路分析是定性和定量的橋梁,它對大量的圖表數據進行定量分析得出定性的結論。
缺點:社會網路分析過於考慮社會網路「聯絡性」,沒有考慮各種「孤立點」,不能保證找到所有的有聯絡的行動者,由此難以全面把握社會網路的全貌。
社會網路分析是定性和定量的橋梁,它對大量的圖表數據進行定量分析得出定性的結論。社會網路分析法所具有的這些優點使得該方法在我國多個領域都得到了廣泛的應用。
以下是社會網路分析法的相關介紹:
社會是一個由多種多樣的關系構成的巨大網路。視角當然多種多樣,既可以像林語堂的小說中描述的那樣對關系進行細致的刻畫,又可以像黃光國等社會心理學家那樣對人情、面子和關系網進行質的描述,更可以用社會網路分析法對關系進行量化的表徵,從而揭示關系的結構,解釋一定的社會現象。
社會網路分析的意義在於,它可以對各種關系進行精確的量化分析,從而為某種中層理論的構建和實證命題的檢驗提供量化的工具,甚至可以建立「宏觀和微觀」之間的橋梁。
以上資料參考網路——社會網路分析法
⑨ 數據挖掘演算法與生活中的應用案例
數據挖掘演算法與生活中的應用案例
如何分辨出垃圾郵件」、「如何判斷一筆交易是否屬於欺詐」、「如何判斷紅酒的品質和檔次」、「掃描王是如何做到文字識別的」、「如何判斷佚名的著作是否出自某位名家之手」、「如何判斷一個細胞是否屬於腫瘤細胞」等等,這些問題似乎都很專業,都不太好回答。但是,如果了解一點點數據挖掘的知識,你,或許會有柳暗花明的感覺。
本文,主要想簡單介紹下數據挖掘中的演算法,以及它包含的類型。然後,通過現實中觸手可及的、活生生的案例,去詮釋它的真實存在。 一般來說,數據挖掘的演算法包含四種類型,即分類、預測、聚類、關聯。前兩種屬於有監督學習,後兩種屬於無監督學習,屬於描述性的模式識別和發現。
有監督學習有監督的學習,即存在目標變數,需要探索特徵變數和目標變數之間的關系,在目標變數的監督下學習和優化演算法。例如,信用評分模型就是典型的有監督學習,目標變數為「是否違約」。演算法的目的在於研究特徵變數(人口統計、資產屬性等)和目標變數之間的關系。
分類演算法分類演算法和預測演算法的最大區別在於,前者的目標變數是分類離散型(例如,是否逾期、是否腫瘤細胞、是否垃圾郵件等),後者的目標變數是連續型。一般而言,具體的分類演算法包括,邏輯回歸、決策樹、KNN、貝葉斯判別、SVM、隨機森林、神經網路等。
預測演算法預測類演算法,其目標變數一般是連續型變數。常見的演算法,包括線性回歸、回歸樹、神經網路、SVM等。
無監督學習無監督學習,即不存在目標變數,基於數據本身,去識別變數之間內在的模式和特徵。例如關聯分析,通過數據發現項目A和項目B之間的關聯性。例如聚類分析,通過距離,將所有樣本劃分為幾個穩定可區分的群體。這些都是在沒有目標變數監督下的模式識別和分析。
聚類分析聚類的目的就是實現對樣本的細分,使得同組內的樣本特徵較為相似,不同組的樣本特徵差異較大。常見的聚類演算法包括kmeans、系譜聚類、密度聚類等。
關聯分析關聯分析的目的在於,找出項目(item)之間內在的聯系。常常是指購物籃分析,即消費者常常會同時購買哪些產品(例如游泳褲、防曬霜),從而有助於商家的捆綁銷售。
基於數據挖掘的案例和應用上文所提到的四種演算法類型(分類、預測、聚類、關聯),是比較傳統和常見的。還有其他一些比較有趣的演算法分類和應用場景,例如協同過濾、異常值分析、社會網路、文本分析等。下面,想針對不同的演算法類型,具體的介紹下數據挖掘在日常生活中真實的存在。下面是能想到的、幾個比較有趣的、和生活緊密關聯的例子。
基於分類模型的案例這裡面主要想介紹兩個案例,一個是垃圾郵件的分類和判斷,另外一個是在生物醫葯領域的應用,即腫瘤細胞的判斷和分辨。
垃圾郵件的判別郵箱系統如何分辨一封Email是否屬於垃圾郵件?這應該屬於文本挖掘的范疇,通常會採用樸素貝葉斯的方法進行判別。它的主要原理是,根據郵件正文中的單詞,是否經常出現在垃圾郵件中,進行判斷。例如,如果一份郵件的正文中包含「報銷」、「發票」、「促銷」等詞彙時,該郵件被判定為垃圾郵件的概率將會比較大。
一般來說,判斷郵件是否屬於垃圾郵件,應該包含以下幾個步驟。
第一,把郵件正文拆解成單片語合,假設某篇郵件包含100個單詞。
第二,根據貝葉斯條件概率,計算一封已經出現了這100個單詞的郵件,屬於垃圾郵件的概率和正常郵件的概率。如果結果表明,屬於垃圾郵件的概率大於正常郵件的概率。那麼該郵件就會被劃為垃圾郵件。
醫學上的腫瘤判斷如何判斷細胞是否屬於腫瘤細胞呢?腫瘤細胞和普通細胞,有差別。但是,需要非常有經驗的醫生,通過病理切片才能判斷。如果通過機器學習的方式,使得系統自動識別出腫瘤細胞。此時的效率,將會得到飛速的提升。並且,通過主觀(醫生)+客觀(模型)的方式識別腫瘤細胞,結果交叉驗證,結論可能更加靠譜。
如何操作?通過分類模型識別。簡言之,包含兩個步驟。首先,通過一系列指標刻畫細胞特徵,例如細胞的半徑、質地、周長、面積、光滑度、對稱性、凹凸性等等,構成細胞特徵的數據。其次,在細胞特徵寬表的基礎上,通過搭建分類模型進行腫瘤細胞的判斷。
基於預測模型的案例這裡面主要想介紹兩個案例。即通過化學特性判斷和預測紅酒的品質。另外一個是,通過搜索引擎來預測和判斷股價的波動和趨勢。
紅酒品質的判斷如何評鑒紅酒?有經驗的人會說,紅酒最重要的是口感。而口感的好壞,受很多因素的影響,例如年份、產地、氣候、釀造的工藝等等。但是,統計學家並沒有時間去品嘗各種各樣的紅酒,他們覺得通過一些化學屬性特徵就能夠很好地判斷紅酒的品質了。並且,現在很多釀酒企業其實也都這么幹了,通過監測紅酒中化學成分的含量,從而控制紅酒的品質和口感。
那麼,如何判斷鑒紅酒的品質呢?
第一步,收集很多紅酒樣本,整理檢測他們的化學特性,例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等等。
第二步,通過分類回歸樹模型進行預測和判斷紅酒的品質和等級。
搜索引擎的搜索量和股價波動一隻南美洲熱帶雨林中的蝴蝶,偶爾扇動了幾下翅膀,可以在兩周以後,引起美國德克薩斯州的一場龍卷風。你在互聯網上的搜索是否會影響公司股價的波動?
很早之前,就已經有文獻證明,互聯網關鍵詞的搜索量(例如流感)會比疾控中心提前1到2周預測出某地區流感的爆發。
同樣,現在也有些學者發現了這樣一種現象,即公司在互聯網中搜索量的變化,會顯著影響公司股價的波動和趨勢,即所謂的投資者注意力理論。該理論認為,公司在搜索引擎中的搜索量,代表了該股票被投資者關注的程度。因此,當一隻股票的搜索頻數增加時,說明投資者對該股票的關注度提升,從而使得該股票更容易被個人投資者購買,進一步地導致股票價格上升,帶來正向的股票收益。這是已經得到無數論文驗證了的。
基於關聯分析的案例:沃爾瑪的啤酒尿布啤酒尿布是一個非常非常古老陳舊的故事。故事是這樣的,沃爾瑪發現一個非常有趣的現象,即把尿布與啤酒這兩種風馬牛不相及的商品擺在一起,能夠大幅增加兩者的銷量。原因在於,美國的婦女通常在家照顧孩子,所以,她們常常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。沃爾瑪從數據中發現了這種關聯性,因此,將這兩種商品並置,從而大大提高了關聯銷售。
啤酒尿布主要講的是產品之間的關聯性,如果大量的數據表明,消費者購買A商品的同時,也會順帶著購買B產品。那麼A和B之間存在關聯性。在超市中,常常會看到兩個商品的捆綁銷售,很有可能就是關聯分析的結果。
基於聚類分析的案例:零售客戶細分對客戶的細分,還是比較常見的。細分的功能,在於能夠有效的劃分出客戶群體,使得群體內部成員具有相似性,但是群體之間存在差異性。其目的在於識別不同的客戶群體,然後針對不同的客戶群體,精準地進行產品設計和推送,從而節約營銷成本,提高營銷效率。
例如,針對商業銀行中的零售客戶進行細分,基於零售客戶的特徵變數(人口特徵、資產特徵、負債特徵、結算特徵),計算客戶之間的距離。然後,按照距離的遠近,把相似的客戶聚集為一類,從而有效的細分客戶。將全體客戶劃分為諸如,理財偏好者、基金偏好者、活期偏好者、國債偏好者、風險均衡者、渠道偏好者等。
基於異常值分析的案例:支付中的交易欺詐偵測採用支付寶支付時,或者刷信用卡支付時,系統會實時判斷這筆刷卡行為是否屬於盜刷。通過判斷刷卡的時間、地點、商戶名稱、金額、頻率等要素進行判斷。這裡面基本的原理就是尋找異常值。如果您的刷卡被判定為異常,這筆交易可能會被終止。
異常值的判斷,應該是基於一個欺詐規則庫的。可能包含兩類規則,即事件類規則和模型類規則。第一,事件類規則,例如刷卡的時間是否異常(凌晨刷卡)、刷卡的地點是否異常(非經常所在地刷卡)、刷卡的商戶是否異常(被列入黑名單的套現商戶)、刷卡金額是否異常(是否偏離正常均值的三倍標准差)、刷卡頻次是否異常(高頻密集刷卡)。第二,模型類規則,則是通過演算法判定交易是否屬於欺詐。一般通過支付數據、賣家數據、結算數據,構建模型進行分類問題的判斷。
基於協同過濾的案例:電商猜你喜歡和推薦引擎電商中的猜你喜歡,應該是大家最為熟悉的。在京東商城或者亞馬遜購物,總會有「猜你喜歡」、「根據您的瀏覽歷史記錄精心為您推薦」、「購買此商品的顧客同時也購買了商品」、「瀏覽了該商品的顧客最終購買了商品」,這些都是推薦引擎運算的結果。
這裡面,確實很喜歡亞馬遜的推薦,通過「購買該商品的人同時購買了**商品」,常常會發現一些質量比較高、較為受認可的書。一般來說,電商的「猜你喜歡」(即推薦引擎)都是在協同過濾演算法(Collaborative Filter)的基礎上,搭建一套符合自身特點的規則庫。即該演算法會同時考慮其他顧客的選擇和行為,在此基礎上搭建產品相似性矩陣和用戶相似性矩陣。基於此,找出最相似的顧客或最關聯的產品,從而完成產品的推薦。
基於社會網路分析的案例:電信中的種子客戶種子客戶和社會網路,最早出現在電信領域的研究。即,通過人們的通話記錄,就可以勾勒出人們的關系網路。電信領域的網路,一般會分析客戶的影響力和客戶流失、產品擴散的關系。
基於通話記錄,可以構建客戶影響力指標體系。採用的指標,大概包括如下,一度人脈、二度人脈、三度人脈、平均通話頻次、平均通話量等。基於社會影響力,分析的結果表明,高影響力客戶的流失會導致關聯客戶的流失。其次,在產品的擴散上,選擇高影響力客戶作為傳播的起點,很容易推動新套餐的擴散和滲透。
此外,社會網路在銀行(擔保網路)、保險(團伙欺詐)、互聯網(社交互動)中也都有很多的應用和案例。
基於文本分析的案例這裡面主要想介紹兩個案例。一個是類似「掃描王」的APP,直接把紙質文檔掃描成電子文檔。相信很多人都用過,這里准備簡單介紹下原理。另外一個是,江湖上總是傳言紅樓夢的前八十回和後四十回,好像並非都是出自曹雪芹之手,這裡面准備從統計的角度聊聊。
字元識別:掃描王APP手機拍照時會自動識別人臉,還有一些APP,例如掃描王,可以掃描書本,然後把掃描的內容自動轉化為word。這些屬於圖像識別和字元識別(Optical Character Recognition)。圖像識別比較復雜,字元識別理解起來比較容易些。
查找了一些資料,字元識別的大概原理如下,以字元S為例。
第一,把字元圖像縮小到標准像素尺寸,例如12*16。注意,圖像是由像素構成,字元圖像主要包括黑、白兩種像素。
第二,提取字元的特徵向量。如何提取字元的特徵,採用二維直方圖投影。就是把字元(12*16的像素圖)往水平方向和垂直方向上投影。水平方向有12個維度,垂直方向有16個維度。這樣分別計算水平方向上各個像素行中黑色像素的累計數量、垂直方向各個像素列上的黑色像素的累計數量。從而得到水平方向12個維度的特徵向量取值,垂直方向上16個維度的特徵向量取值。這樣就構成了包含28個維度的字元特徵向量。
第三,基於前面的字元特徵向量,通過神經網路學習,從而識別字元和有效分類。
文學著作與統計:紅樓夢歸屬這是非常著名的一個爭論,懸而未決。對於紅樓夢的作者,通常認為前80回合是曹雪芹所著,後四十回合為高鶚所寫。其實主要問題,就是想確定,前80回合和後40回合是否在遣詞造句方面存在顯著差異。
這事讓一群統計學家比較興奮了。有些學者通過統計名詞、動詞、形容詞、副詞、虛詞出現的頻次,以及不同詞性之間的相關系做判斷。有些學者通過虛詞(例如之、其、或、亦、了、的、不、把、別、好),判斷前後文風的差異。有些學者通過場景(花卉、樹木、飲食、醫葯與詩詞)頻次的差異,來做統計判斷。總而言之,主要通過一些指標量化,然後比較指標之間是否存在顯著差異,藉此進行寫作風格的判斷。
以上是小編為大家分享的關於數據挖掘演算法與生活中的應用案例的相關內容,更多信息可以關注環球青藤分享更多干貨