社会网络分析法应用案例
① 这些儿童拐卖的数据告诉我们,儿童保护迫在眉睫
儿童拐卖在中国甚至全世界都是一个沉重的社会话题。儿童拐卖导致一系列社会问题,影响社会可持续发展。当前,国际国内关于儿童拐卖的研究大多数仅从法律层面讨论如何防范,基于数据的研究多使用访谈、审判和调查数据,其样本量较小。由于拐卖行为的隐匿性,数据是限制儿童拐卖研究的主要障碍,因而限制了国家和地方政府制定科学的打拐、防拐政策。
王真课题组通过采集超过2万条网络寻亲数据,首次使用大规模数据构建省、市两级的儿童拐卖犯罪网络,并首次应用社会网络分析方法识别了两级犯罪网络,特别是市级网络的一些关键特征。
研究发现,我国的儿童拐卖主要都是短距离拐卖,省内、市内拐卖占总拐卖数量的40%以上,而超过1000km的长距离拐卖少于30%。利用多种社会网络指标如拐入数量、拐出数量、总数量,研究者发现,省会、经济发达城市通常儿童拐卖案例较多,重点应该从这些大城市入手。而最重要的拐卖路径主要是从大城市拐向小城市、从西部到东部、从欠发达到发达地区,但路径上的阻隔不如节点上的阻隔有效。文章还分析了儿童拐卖可能的犯罪集团,这些集团呈现较强的区域性特征,从一些关键城市投入资源打拐可能对于破解全国的儿童拐卖具有相对较好的效果。
综合“ 贩入和贩出儿童 ”两方面数据看, 河南、江苏、山东、福建、河北、四川、广东、安徽 (排名从高到低),这8个省份是非法拐卖儿童的高危区。
“卖出”儿童(这里走失或被拐的孩子)占走失儿童总人数的66.3%,“买入”儿童(被拐卖到这里的孩子)人数占全国的52.9%。
这8个省份,除福建以外,河南、江苏等7省均为人口大省,可能是其中的一个原因。但许多地区依然盛行的“ 传宗接代 ”的宗室观念,也在一定程度上造成了这样的局面。
贩入/贩出儿童人数比例图,橙色表示儿童净贩入,颜色越深表示贩入儿童越多;蓝色表示儿童净贩出,颜色越深表示贩出儿童越多。
图片来自原论文
从“儿童贩入人数与贩出人数比例”看, 河南、河北、山东、天津、北京、重庆、福建、广东 等8个省市是儿童净贩入地,即被拐卖到这里的儿童多于被拐走的儿童。
除新疆和中国台湾外,全国其他地区均为净贩出地。四川是全国最大的儿童净贩出地,其次是山西和江苏。
具体到城市层面,有些地方“脱颖而出”,成为拐卖儿童的重灾区。
重点城市之间拐卖儿童的流向,图片来自原论文
其中,“卖掉”儿童最多的4个城市分别是 上海、成都、重庆、福州 ,其次是莆田、南京和西安。
“买入”儿童最多的4个城市分别是 莆田、徐州、重庆、邯郸 ,其次是成都、和郑州。
成都、重庆、莆田3个城市,均两次“上榜”。成都、重庆大城市先不论,莆田这个三、四线东南沿海小城,到底是怎样的神奇存在?除了造鞋、开男科妇科整容医院,它竟然还是非法贩卖儿童的高危城市!
10条拐卖儿童的关键路线
王真教授他们的研究还发现,从拐卖的路径上看,被拐卖的儿童 主要从西部流向了中东部地区,从经济相对落后地区流向了发达地区,流向了更重视“男孩”的地区 。
他们甚至绘制出,中国贩卖儿童的 10条关键路线 。
3条起始于成都的关键路线: No.1 成都——雅安;No.5 成都——北海;No.6成都——曲靖。
关键路线No.4: 深圳——汕尾。
关键路线No.7: 昆明——昭通。
关键路线No.2: 西宁——海东。
关键路线No.3: 绥化——大兴安岭。
关键线路No.8: 乌鲁木齐——张掖
关键路线No.10: 北京——葫芦岛 。
近距离贩卖才是多数派
10条关键路线中的 8条都没超过500公里 。这似乎与我们的常识不同,原以为孩子一被拐走,就会被卖到遥远的山沟沟里。
拐卖儿童数量与距离之间的关系
而事实上, 58.2%的儿童贩卖事件发生在省内,42.4%甚至发生在市内。
重庆和莆田(又是它!)的儿童走失案例中,高达69.2%和63.4%的贩卖发生在自己市内。
好像确实听过这样的案例,小时候被拐卖的儿童长大后寻到亲人才发现,原来他们之间相距不远,甚至曾经擦肩走过。只是因为分开时,孩子太小,长大后容貌变化巨大,无奈相见不相识。
打拐要重点关注拐卖网络的“门户”
王真教授他们后来进行的聚类分析,再次证实了我国贩卖儿童网络的 地域集聚特征 ,即大量的贩卖活动频繁发生在同一个区域内。
目前,大致有东北、华北、华中、华东、华南、西南这6个主要区域。
同一颜色表示同一个贩卖区域
比如,上海和周边城市,与河南、山西和陕西省的一些城市形成了一个区域;而石家庄与我国中部地区的城市在一个区域中。
但仍有大量的贩卖活动会跨越区域,一些大城市,因其经济、交通的便利,比如成都、北京、上海、重庆、广州、泉州、西安、莆田、徐州和武汉等,在跨区域贩卖儿童过程中发挥了“ 门户 ”或“ 枢纽 ”的作用。
所以,政府、警方在打击贩卖儿童上需要讲究策略,将更多的资源投放在重点城市、关键路径上,能收到事半功倍的效果。
比如,在重庆投入资源,可以影响到贩卖网络中60%的城市;而同时在重庆和上海投入资源,可以影响到69%的城市。
最后,王真教授他们提醒:在拐卖儿童的所有评估指标中, 成都和重庆 都被确定为主要城市, 上海、北京和莆田 至少在4个指标中被确定为主要城市。
换句简单的话, 成都、重庆、上海、北京和莆田 是拐卖儿童的高危区中的重灾区,应该是打拐行动最最最重点关注的地区!
② 社会网络分析的内容简介
本书的内容结构是,除前言外共分为八章,分别介绍社会网络分析的基本原理和理论、社会网络资料类型和收集方法、网络分析的各种技术与方法、社会网络分析的应用等内容。
第一章
首先追溯了西方社会网络分析的思想渊源,对国内外的研究状况做了系统回顾,介绍了社会网络分析的一些新进展。社会网络分析有不同的学科发展背景,其发展也经历了不同的阶段。我们通过回顾社会网络分析思想与方法在西方的发展,梳理出其中的主要线索和问题,并结合国内的研究状况进行探讨,目的在于强调更好地借鉴已有的成果,加强对社会网络分析的认识和应用。
第二章
系统说明了社会网络分析的基本原理。社会网络分析作为一种独立的社会研究方法,已形成了自己的理论基础和方法论原则。通过这些方面我们可以认识社会网络分析方法的特征及其独特之处。在本章中我们在说明社会网络分析概念的基础上,具体介绍了社会网络分析的方法论原理和研究程序。
第三章
主要说明社会网络分析所用的数据资料具有自己的类型与特征,它是一组反映行动者关系的信息。社会网络资料首先是关于社会关系的数据信息,简称关系数据。关系数据不同于属性数据,不仅其本质内容不同,其表达形式也不同。本章在介绍了社会网络资料的概念和类型基础上,结合研究设计具体说明了社会网络的测量及其收集方法。
第四章
主要介绍社会网络分析的研究技术与方法。社会网络最基本的数学表达形式是图论法和矩阵法。图论法是以线和点的形式来表示行动者及其关系的一种方法。用社群图可表示社会关系的结构、特征等属性。矩阵法是把社会网络中的每一个结点或关系分别按行和列的方式排列即可形成网络矩阵,包括邻接矩阵、关联矩阵等。矩阵法可以对群体关系进行具体分析。
第五章
是关于社会网络的中心度分析。中心度是我们认识社会网络中行动者位置及其关系的重要概念,具有广泛的应用性。本章首先介绍了中心度、中心势概念,重点说明了结点中心度、紧密中心度、间距中心度及其测量方法。最后又对社会网络中与等级密切相关的权力和声望作了分析。网络中的声望不同于一般意义的社会声望概念,这里主要说明了接近度声望概念及其测量。
第六章
是关于社会网络分析中的子群研究。构成社会网络的基本元素就是行动者及其群体,社会中存在着各种各样的子群,它们相互结合形成了复杂的社会结构。本章首先从社会群体、子群概念出发,说明各种团聚性的子群及其测量方法,包括“团伙”、n-团伙、n-宗派、k-丛等,最后分析隶属性群体。
第七章
是关于网络中的位置和角色的分析。在社会结构分析中,位置和角色是两个重要的概念。本章在简要介绍了网络分析的位置和角色概念之后,主要说明了结构等价性、自同构等价性和正则等价性及其不同的测量方法,最后一节简要介绍了关系代数法和统计模型法。位置和角色分析是目前社会网络分析中数量化分析程度最高的方面,已应用和发展出了许多不同的数学分析方法。本章结合例子简要介绍了聚类法、统计模型法等。这些分析方法现在都可借助于有关的分析软件来应用。
第八章
讨论了社会网络分析的一些应用。社会网络分析具有非常广泛的应用,其应用领域已远远超出了社会学和人类学的传统范围,如小群体关系、社会支持网等,而且扩展到了人文社会科学甚至工程技术科学的诸多领域。但本书只是简要分析了与社会网络分析密切相关的社会资本研究以及体现中国社会结构特征的“关系”研究。
本书最后在附录中介绍了社会网络分析软件包的应用,重点说明了Pajek 的内容及使用方法。附录中还附有两个不同的各具代表性的《社会网络分析》教学大纲,供读者参考比较。
③ 社会网络分析方法
社会网络分析方法是由社会学家根据数学方法﹑图论等发展起来的定量分析方法,近年来,该方法在职业流动、城市化对个体幸福的影响和经济体系、国际贸易等领域广泛应用,并发挥了重要作用。
社会网络分析是社会学领域比较成熟的分析方法,社会学家们利用它可以比较得心应手地来解释一些社会学问题。许多学科的专家如经济学、管理学等领域的学者们在新经济时代——知识经济时代,面临许多挑战时,开始考虑借鉴其他学科的研究方法,社会网络分析就是其中的一种。
网络指的是各种关联,而社会网络即可简单地称为社会关系所构成的结构。社会网络分析问题起源于物理学中的适应性网络,通过研究网络关系,有助于把个体间关系、“微观”网络与大规模的社会系统的“宏观”结构结合起来,通过数学方法﹑图论等定量分析方法,是20世纪70年代以来在社会学、心理学、人类学、数学、通信科学等领域逐步发展起来的一个的研究分支。
所以,从社会网络的角度出发,人在社会环境中的相互作用可以表达为基于关系的一种模式或规则,而基于这种关系的有规律模式反映了社会结构,这种结构的量化分析是社会网络分析的出发点。
社会网络分析不仅仅是一种工具,更是一种关系论的思维方式。可以利用来解释一些社会学、经济学、管理学等领域问题。
④ 什么是社会网络分析法
社会网络分析方法是由社会学家根据数学方法、图论等发展起来的定量分析方法。
社会网络分析是对社会网络的关系结构以及属性加以分析的一套规范和方法。它又被称为结构分析法(structural analysis)
社会网络分析不仅是对关系和结构加以分析的技术,还是一种理论方法--结构思想。
社会网络分析是社会学领域比较成熟的分析方法,该方法可以解决一些社会学的问题。
社会网络要素:
①行动者,在社会网络中用节点表示;
②关系,在社会网络中用剑线表示,关系的内容可能是友谊、借贷或是沟通,其关系可以是单向或双方,且存在关系强度的差异,关系不同即构成不同的网络
社会网络分析的原理:
关系纽带经常是不对称地相互作用着的,在内容和强度上都有所不同
关系纽带间接或直接地把网络成员连接在一起;故必须在更大的网络结构背景中进行分析
社会纽带结构产生了非随机的网络,因而形成了网络群(network clusters)、网络界限和交叉关联
交叉关联把网络群以及个体联系在一起
不对称的纽带和复杂网络使稀缺资源的分配不平等
网络产生了以获取稀缺资源为目的的合作和竞争行为
社会网络分析方法--数学表达式:
①图论法和矩阵法,这是社会网络分析最基本的方法
②二方关系图和三方关系图
③图的矩阵表达
④反应行动者的关系图。通过网络密度、结点度、割点、桥等指标进行具体测量距离,行动者之间的距离越小,意味着他们之间的联系越密切,交流互动越充分。由此可以了解一个网络中行动者之间的分化与差异
⑤ 复杂网络 --- 社会网络分析
“社会网络”指的是社会成员及其相互关系的集合。社会网络中所说的“点”是各个社会成员,而社会网络中的“边”指的是成员之间的各种社会关系。成员间的关系可以是有向的,也可以是无向的。同时,社会关系可以表现为多种形式,如人与人之间的朋友关系、上下级关系、科研合作关系等,组织成员之间的沟通关系,国家之间的贸易关系等。社会网络分析(Social Network Analysis)就是要对社会网络中行为者之间的关系进行量化研究,是社会网络理论中的一个具体工具。
因此,社会网络分析关注的焦点是关系和关系的模式,采用的方式和方法从概念上有别于传统的统计分析和数据处理方法。
社会网络通常表达人类的个体通过各种关系连接起来,比如朋友、婚姻、商业等,这些连接宏观上呈现出一定的模式。很早的时候,一些社会学家开始关注人们交往的模式。Ebel等进行了一个电子邮件版的小世界问题的实验,完成了Kiel大学的5000个学生的112天电子邮件连接数据,节点为电子邮件地址,连接为消息的传递,得到带指数截断的幂律度分布,指数为r=1.18。同时证明,该网络是小世界的,平均分隔为4.94。
社会网络分析,可以解决或可以尝试解决下列问题:
“中心性”是社会网络分析的重点之一,用于分析个人或组织在其社会网络中具有怎样的权力,或者说居于怎样的中心地位,这一思想是社会网络分析者最早探讨的内容之一。
点度中心度表示与该点直接相连的点的个数,无向图为(n-1),有向图为(入度,出度)。
个体的中心度(Centrality)测量个体处于网络中心的程度,反映了该点在网络中的重要性程度。网络中每个个体都有一个中心度,刻画了个体特性。除了计算网络中个体的中心度外,还可以计算整个网络的集中趋势(可简称为中心势,Centralization)。网络中心势刻画的是整个网络中各个点的差异性程度,一个网络只有一个中心势。
根据计算方法的不同,中心度和中心势都可以分为3种:点度中心度/点度中心势、中间中心度/中间中心势、接近中心度/接近中心势。
在一个社会网络中,如果一个个体与其他个体之间存在大量的直接联系,那么该个体就居于中心地位,在该网络中拥有较大的“权力”。在这种思想的指导下,网络中一个点的点度中心性就可以用网络中与该点之间有联系的点的数目来衡量,这就是点度中心度。
网络中心势指的是网络中点的集中趋势,其计算依据如下步骤:首先找到图中的最大点度中心度的数值,然后计算该值与任何其他点的中心度的差值,再计算这些“差值”的总和,最后用这个总和除以各个“差值”总和的最大可能值。
在网络中,如果一个个体位于许多其他两个个体之间的路径上,可以认为该个体居于重要地位,因为他具有控制其他两个个体之间的交往能力,这种特性用中间中心度描述,它测量的是个体对资源控制的程度。一个个体在网络中占据这样的位置越多,代表它具有很高的中间中心性,就有越多的个体需要通过它才能发生联系。
中间中心势定义为网络中 中间中心性最高的节点的中间中心性与其他节点的中间中心性的差距,用于分析网络整体结构。中间中心势越高,表示该网络中的节点可能分为多个小团体,而且过于依赖某一个节点传递关系,说明该节点在网络中处于极其重要的地位。
接近中心性用来描述网络中的个体不受他人“控制”的能力。在计算接近中心度的时候,我们关注的是捷径,而不是直接关系。如果一个点通过比较短的路径与许多其他点相连,我们就说该点具有较高的接近中心性。
对一个社会网络来说,接近中心势越高,表明网络中节点的差异性越大;反之,则表明网络中节点间的差异越小。
注:以上公式都是针对无向图,如果是有向图则根据定义相应修改公式即可
当网络中某些个体之间的关系特别紧密,以至于结合成一个次级团体时,这样的团体在社会网络分析中被称为凝聚子群。分析网络中存在多少个这样的子群,子群内部成员之间关系的特点,子群之间关系特点,一个子群的成员与另一个子群成员之间的关系特点等就是凝聚子群分析。
由于凝聚子群成员之间的关系十分紧密,因此有的学者也将凝聚子群分析形象地称为“小团体分析”或“社区现象”。
常用的社区检测方法主要有如下几种:
(1)基于图分割的方法,如Kernighan-Lin算法,谱平分法等;
(2)基于层次聚类的方法,如GN算法、Newman快速算法等;
(3)基于模块度优化的方法,如贪婪算法、模拟退火算法、Memetic算法、PSO算法、进化多目标优化算法等。
凝聚子群密度(External-Internallndex,E-IIndex)主要用来衡量一个大的网络中小团体现象是否十分严重,在分析组织管理等问题时非常有效。
最差的情形是大团体很散漫,核心小团体却有高度内聚力。另外一种情况是,大团体中有许多内聚力很高的小团体,很可能就会出现小团体间相互斗争的现象。凝聚子群密度的取值范围为[-1,+1]。该值越向1靠近,意味着派系林立的程度越大;该值越接近-1,意味着派系林立的程度越小;该值越接近0,表明关系越趋向于随机分布,未出现派系林立的情形。
E-I Index可以说是企业管理者的一个重要的危机指数。当一个企业的E-I Index过高时,就表示该企业中的小团体有可能结合紧密而开始图谋小团体私利,从而伤害到整个企业的利益。其实E-I Index不仅仅可以应用到企业管理领域,也可以应用到其他领域,比如用来研究某一学科领域学者之间的关系。如果该网络存在凝聚子群,并且凝聚子群的密度较高,说明处于这个凝聚子群内部的这部分学者之间联系紧密,在信息分享和科研合作方面交往频繁,而处于子群外部的成员则不能得到足够的信息和科研合作机会。从一定程度上来说,这种情况也是不利于该学科领域发展的。
核心-边缘(Core-Periphery)结构分析的目的是研究社会网络中哪些节点处于核心地位,哪些节点处于边缘地位。核心-边缘结构分析具有较广的应用性,可用于分析精英网络、论文引用关系网络以及组织关系网络等多种社会现象。
根据关系数据的类型(定类数据和定比数据),核心—边缘结构有不同的形式。定类数据和定比数据是统计学中的基本概念,一般来说,定类数据是用类别来表示的,通常用数字表示这些类别,但是这些数值不能用来进行数学计算;定比数据是用数值来表示的,可以用来进行数学计算。如果数据是定类数据,可以构建离散的核心-边缘模型;如果数据是定比数据,可以构建连续的核心-边缘模型。
离散的核心-边缘模型,根据核心成员和边缘成员之间关系的有无及紧密程度,又可分为3种:核心-边缘全关联模型、核心-边缘局部关联模型、核心-边缘关系缺失模型。如果把核心和边缘之间的关系看成是缺失值,就构成了核心-边缘关系缺失模型。
这里介绍适用于定类数据的4种离散的核心-边缘模型:
参考
⑥ 社交网络数据分析与应用
社交网络数据分析与应用
根据最近的一份调查数据显示,美国互联网媒体的市值已达10890亿美元,是传统媒体的3倍,类似的在中国,根据艾瑞咨询发布的2014年第二季度网络经济核心数据显示,截止2014年6月30日,中国主要上市互联网公司市值前五的为腾讯(1405.6亿美元)、网络(654.5亿美元)、京东(389.7亿美元)、奇虎360(120.9亿美元)、唯品会(111.9亿美元)。与此同时,以Facebook,Twitter,微博,微信等为代表的社交网络应用正蓬勃发展,开启了互联网时代的社交概念。据全球最大的社会化媒体传播咨询公司We Are Very Social Limited分析指出,目前社交类软件使用的人数已达25亿——占世界总人数约的35%,另据艾瑞咨询发布的2014年第二季度社区交友数据显示,2014年5月,社区交友类服务月度覆盖人数达到4.7亿,在总体网民中渗透率为92.5%;2014年5月社交服务在移动App端月度覆盖人数为1.9亿人,其中微博服务在移动端优势较为明显,月度覆盖人数达到1.1亿人;互联网媒体和社交网络是Web2.0时代两个非常重要的应用,那么一个自然的问题是这两个领域将会如何互动发展?本报告主要从数据分析(非财务、非战略)的角度尝试探讨网络结构会给互联网媒体带来什么样的机遇和挑战。具体而言,我们根据自己的研究经验只关注以下几个方面:新闻、影音和搜索,根据艾瑞咨询发布的2013网络经济核心数据显示,这三部分的收入占到中国市值TOP20互联网企业总市值的32.16%,其重要性不可忽视。我们通过具体的案例并结合理论前沿做探索性的研讨。
一、音乐推荐
根据《2013中国网络音乐市场年度报告》显示,2013年底,我国网络音乐用户规模达到4.5亿。其中,手机音乐用户人数由2012年的0.96亿增长到2013年的2.91亿,年增长率达203%。从网络音乐用户规模的飞跃式增长可以看到音乐流媒体服务蕴含着巨大的商机。在国外,科技巨头争夺音乐市场的野心也初露端倪,今年年初,苹果斥资30亿美元买下Beats Electronics,而谷歌也随后收购了流媒体音乐服务提供商Songza。
音乐产业在新媒体时代占据重要地位。本报告主要关注移动互联网环境下在线音乐服务商(酷狗音乐、QQ音乐、天天动听等)的发展现状并且对当前的音乐个性化推荐提出我们的一些见解。
1.1 音乐推荐与社交网络
根据国内知名研究机构CNIT-Research 8月份发布的《2014年第二季度中国手机音乐APP市场报告》的数据显示,排名前三的手机音乐App为酷狗音乐、QQ音乐、天天动听。他们所占的市场份额分别为:20.1%,17.0%以及15.8%。
酷狗音乐 QQ音乐 天天动听
其中,酷狗音乐和天天动听凭借在在线音乐领域长期积累的用户资源、高品质音质、卓越的UI界面以及完美的下载体验取胜。而QQ音乐主要依附强大的社交工具QQ应运而生,可谓是“社交音乐”领域的先驱者。从2014年第二季度手机音乐数据来看,QQ音乐增势迅猛,连续三个月用户下载量增速均超过行业增速水平,而酷狗音乐、天天动听均增速低于市场行业增速,用户市场份额有所下降。
根据速途研究院对手机音乐用户愿景的调查显示,有58%的用户希望增强个性化音乐推荐的功能,这说明有很多用户在收听音乐时其实并不清楚自己喜欢什么类型的歌曲,如果音乐电台能根据用户的个人喜好“猜出”用户喜欢什么歌曲并为其进行推荐,那将会给用户带来意想不到的完美体验。目前的很多音乐软件都支持推荐这一功能。以下是音乐App市场中常见的音乐产品的个性化推荐以及定制方式:
酷狗音乐 QQ音乐 天天动听
根据研究,推荐模式主要分为以下几种:(1) 热点推荐,可以根据大众的搜索记录,通过排行榜的形式得到,也可以根据近期发生的音乐娱乐事件推荐,如中国好声音、我是歌手等;(2)根据用户的听歌记录推荐,包括用户对每首歌的喜恶记录;(3)根据地理位置信息结合用户兴趣进行推荐;(4)根据用户喜欢的歌手信息进行推荐。但是,以上这些推荐模式都没有能够充分利用社交网络的信息。在社交网络风靡全球的时代,有越来越多的音乐服务商发现,社交网络可以帮助商家留住更多的用户,同时,充分利用社交网络信息将带来更加卓越完美的用户体验。可以看到,酷狗音乐和天天动听都允许用户使用第三方账户(微博、QQ)进行绑定登录,并提供分享到微博、微信等选项;QQ音乐特设了“动态”专栏,用于显示好友分享的音乐。另外,酷狗和QQ音乐都可以通过定位的方式推荐附近的志趣相投的好友。
酷狗音乐 QQ音乐 天天动听
上述事实说明,社交音乐存在巨大的潜力和价值。那么,这一方面有无突出的企业呢?其中英国的Last.fm和中国的QQ音乐可以算得上是这方面的一个代表。
Last.fm QQ音乐
Last.fm是 Audioscrobbler 音乐引擎设计团队的旗舰产品,有遍布232个国家超过1500万的活跃听众。2007年被CBS Interactive以2.8亿美元价格收购,目前,Last.fm是全球最大的社交音乐平台。QQ音乐是中国互联网领域领先的网络音乐平台及正版数字音乐服务提供商,在中国手机音乐市场所占份额跻身四大巨头(其他三个分别是酷狗、天天动听、酷我),月活跃用户已达到3亿,是中国社交音乐领域的领军人物。
以QQ音乐为例,我们详细分析它在利用社交网络信息进行个性化推荐的优势与可能存在的不足。QQ音乐依附强大的社交工具QQ而生,长期以来受到广大用户的喜爱,这与QQ背后的亿万级用户是无法割离的,可以说,QQ音乐是有先天的社交优势的。用户登录QQ音乐后,可以看到动态栏中显示的好友音乐动态,同时,它还允许用户绑定自己的微博账号,把音乐分享给微博好友。不仅如此,QQ音乐允许用户自己编辑生成歌单,并分享给好友,这起到了一定的自媒体的作用。在“明星部落”这一功能中,QQ音乐允许粉丝之间交流互动,并形成一定的社交规模。从上述总结中,我们已经可以看到,QQ音乐已经有意识的把社交信息融合到产品设计和运营中,以增加客户粘性。但是从数据分析的基础和推荐算法的构建上,是否真正做到有效利用社交网络信息了呢?为此,使用QQ音乐于2012年全面更新升级的“猜你喜欢”功能,并发现了如下问题:当笔者没有任何听歌记录时,这一模块并不能为笔者推荐歌曲。根据提示内容,目前该功能可能主要依靠用户的历史听歌记录进行推荐。同样的问题出现在QQ音乐馆的推荐栏中:大部分初始推荐音乐来源于当下热门音乐歌曲,缺少个性化成分。
QQ音乐:猜你喜欢 QQ音乐馆
以上事实说明音乐服务商在推荐算法上没有充分利用社交网络的信息。事实上,在获得用户个人绑定社交网络账号的基础上,可以得到用户的朋友关系,进一步可以获得用户好友的听歌记录,这些歌曲可以成为初始推荐曲目的备选项,将这些备选项通过一定规则(热度、好友相似度)排序,可以用于音乐推荐;另外,众所周知,社交网络(如微博)是明星与粉丝互动的一个重要渠道,因此,可以重点提取用户对于社交网络中歌手以及音乐人的关注关系,以获得对用户偏好的推测。以上这些过程可以用下图表示。
可以看到,在以社交网络绑定的音乐社区中,每个人并不是孤立的个体,而是通过好友关系,以及粉丝与明星的关注关系联系起来。音乐活动的多元化为QQ音乐的推荐场景带来了新的挑战。我们认为存在以下几个需要处理的问题:(1)如何高效利用好友的音乐信息对用户进行推荐?用户的好友众多,每个好友会留下很多音乐记录,这些信息综合起来的话数量极其庞大,如何迅速整合朋友及其收听记录并按照优先程度排序对用户进行推荐是提高用户体验的前提条件。(2)如何整合多种信息渠道进行推荐?随着时间的推进,一个音乐账户留下的信息是多元化的。例如,用户主动搜索的音乐记录、用户对历史收听音乐记录的反馈,用户选择的电台种类、用户自己总结生成的歌单、用户对朋友分享音乐的反馈信息等。因此,如何对这些异质的信息来源进行有效整合,或者,在资源有限的情况下,如何判断和筛选出对于提高推荐精度最有效的指标是提高音乐推荐效果的关键法宝。(3)如何整合当前音乐潮流趋势与用户个人兴趣基因?音乐是充满了潮流和娱乐性的产业,因此,用户的音乐兴趣不仅受其自身兴趣基因驱使,也受到当前音乐流驱使的影响。因此,如何结合用户个人兴趣以及音乐潮流趋势对用户进行有效推荐,是对于音乐这一特殊娱乐行业的特别要求。综上我们认为QQ音乐虽然是利用社交关系进行音乐推荐的先驱者,但是在利用网络数据的层面上仍有很大的改进和提升空间。
1.2 基于社交网络的音乐推荐
在此我们给出如何利用网络数据对用户进行推荐的技术思想。由于音乐推荐场景实体的多元化,我们将常见的推荐场景列举如下:推荐歌曲、推荐歌单、推荐电台、推荐歌手、推荐用户。接下来,我们将从音乐分类与结构化、用户信息整合、网络结构应用三个步骤详细阐述我们的观点。
音乐结构化与归一化
1.歌曲标签化
首先,基于音乐的不同风格,我们需要对系统中存在的海量歌曲进行分类,通过打标签的方式,使音频信息通过文本的方式结构化。分类的方法多种多样,标准各异,从几个音乐主流网站的标签组织形式看来,主要从客观、主观两个角度进行分析。从客观的角度讲,音乐可以按照流派、地域、年代、演奏乐器等方式分类,如“流行”、“摇滚”、“乡村音乐”、“90后”、“钢琴曲”等等,且大类下面可以设小类,如“流行”下可以设置“华语流行”、“欧美流行”等小类;从主观的角度讲,音乐风格与听歌时的心情、场景高度相关,如分为“甜蜜”、“安静”、“治愈”、“酒吧”、“咖啡馆”等等,这种标签使得用户在听音乐时仿佛有一种身临其境的感觉,带来更高的视听享受。除此之外,标签也可以由用户自己生成,如用户的热搜关键词记录、用户自行备注标签等。这在一定程度上正是利用自媒体的形式扩充标签库,使之更能反应用户兴趣。
2.歌手信息提取
除了可以将歌曲标签化,我们还可以进一步的对歌手信息进行提取。比如根据地域我们可以把歌手分为大陆、港台、欧美等,根据年代可以分为60后、70后、80后歌手,根据他们的曲风可以分为摇滚、抒情、朋克等。通过打标签的形式把歌手进行分类,从而形成结构化的数据格式,方便以后快速清晰的定位用户喜欢哪一类型的歌手。同样的我们也可以对歌单、作词者、作曲者进行标签化处理,例如歌单的标签可以模仿歌曲的形式,因为歌单是由歌曲组成,所以可以用歌曲的标签来代表歌单的标签。作词者和作曲者的标签可以参考歌手打标签的方法,另外值得注意的是,由于音乐人之间形成合作、作曲、写词等合作关系,可以认为是一个社交网络关系,常常可以见到的现象是某些歌手与词作者存在密切的合作关系,而这部分信息也可用于音乐的个性化推荐。例如,对于一些有特定合作的歌手和词(曲)作者,我们应该特别留意,比如周杰伦和方文山这对组合。
3.歌词的语义分析
歌曲的重要组成部分就是歌词,由于歌词属于文本,我们不可能直接对其打标签,所以首先要进行的是语义分析,通过语义分析我们可以大概知道歌词的内容,比如我们可以把歌词切分成短语,然后对每一个短语进行归纳总结,可以判断短语的情感极性(如积极还是消极),对短语进行主题分类,由于歌词数目庞大,可以利用自然语言处理的方式,如主题模型等预先提取主题,再通过人工加以校正。这样就可以对歌词进行标签化处理了。下面我们以歌曲为例,简要的说明具体标签化过程。
通过标签的形式我们可以对每个歌曲的主题予以分类和描述。用于描述一支单曲的标签数目越多,对于音乐主题的描述就更加清晰、明朗;但同时,冗余和重复的信息也可能越多,处理的难度就越大。因此,我们要对标签进行排序和筛选,一个比较简单高效的办法是选择最热门的N个标签作为我们的目标词库,并且对该词库定期进行更新。具体来说,我们将所有标签按照重要程度由高到低进行排序,选择前p个标签作为我们的标签集合。给定一首歌曲t,我们用一个超高维向量Xt=(Xt1,…,Xtp)∈?p表示它的标签信息,其中Xtj=1表示该歌曲含有第j个标签,否则,该歌曲不含有第j个标签。例如对于一首钢琴曲演奏的纯音乐,对其打的标签可能是:钢琴曲、安静、咖啡馆等。设钢琴曲、安静、咖啡馆分别对应于标号为1、3、5的标签,那么向量Xt可以表示为Xt=(1,0,1,0,1,0,…0) 。通过以上步骤,我们就可以把看似杂乱的音乐风格通过打标签的形式进行结构化,用一个只含0、1元素的超高维向量对每首歌曲进行分类。
对于歌单、电台这些由歌曲集合而成的实体,我们也可以通过标签的方式对其进行刻画。例如,对于给定的一个歌单m,我们同样用一个超高维向量
⑦ 什么是社会网络分析如果写论文应该从哪些方面去分析这个案例呢
在回响着的影子里,曾把你带走的
大步走过葡萄园和海
往何处去
和床。--进去住下。
无关利害的美以无边无际的丰盈
就可以相信他人的认知哈哈
⑧ 社会网络分析法的优缺点
优点:社会网络分析是定性和定量的桥梁,它对大量的图表数据进行定量分析得出定性的结论。
缺点:社会网络分析过于考虑社会网络“联络性”,没有考虑各种“孤立点”,不能保证找到所有的有联络的行动者,由此难以全面把握社会网络的全貌。
社会网络分析是定性和定量的桥梁,它对大量的图表数据进行定量分析得出定性的结论。社会网络分析法所具有的这些优点使得该方法在我国多个领域都得到了广泛的应用。
以下是社会网络分析法的相关介绍:
社会是一个由多种多样的关系构成的巨大网络。视角当然多种多样,既可以像林语堂的小说中描述的那样对关系进行细致的刻画,又可以像黄光国等社会心理学家那样对人情、面子和关系网进行质的描述,更可以用社会网络分析法对关系进行量化的表征,从而揭示关系的结构,解释一定的社会现象。
社会网络分析的意义在于,它可以对各种关系进行精确的量化分析,从而为某种中层理论的构建和实证命题的检验提供量化的工具,甚至可以建立“宏观和微观”之间的桥梁。
以上资料参考网络——社会网络分析法
⑨ 数据挖掘算法与生活中的应用案例
数据挖掘算法与生活中的应用案例
如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手”、“如何判断一个细胞是否属于肿瘤细胞”等等,这些问题似乎都很专业,都不太好回答。但是,如果了解一点点数据挖掘的知识,你,或许会有柳暗花明的感觉。
本文,主要想简单介绍下数据挖掘中的算法,以及它包含的类型。然后,通过现实中触手可及的、活生生的案例,去诠释它的真实存在。 一般来说,数据挖掘的算法包含四种类型,即分类、预测、聚类、关联。前两种属于有监督学习,后两种属于无监督学习,属于描述性的模式识别和发现。
有监督学习有监督的学习,即存在目标变量,需要探索特征变量和目标变量之间的关系,在目标变量的监督下学习和优化算法。例如,信用评分模型就是典型的有监督学习,目标变量为“是否违约”。算法的目的在于研究特征变量(人口统计、资产属性等)和目标变量之间的关系。
分类算法分类算法和预测算法的最大区别在于,前者的目标变量是分类离散型(例如,是否逾期、是否肿瘤细胞、是否垃圾邮件等),后者的目标变量是连续型。一般而言,具体的分类算法包括,逻辑回归、决策树、KNN、贝叶斯判别、SVM、随机森林、神经网络等。
预测算法预测类算法,其目标变量一般是连续型变量。常见的算法,包括线性回归、回归树、神经网络、SVM等。
无监督学习无监督学习,即不存在目标变量,基于数据本身,去识别变量之间内在的模式和特征。例如关联分析,通过数据发现项目A和项目B之间的关联性。例如聚类分析,通过距离,将所有样本划分为几个稳定可区分的群体。这些都是在没有目标变量监督下的模式识别和分析。
聚类分析聚类的目的就是实现对样本的细分,使得同组内的样本特征较为相似,不同组的样本特征差异较大。常见的聚类算法包括kmeans、系谱聚类、密度聚类等。
关联分析关联分析的目的在于,找出项目(item)之间内在的联系。常常是指购物篮分析,即消费者常常会同时购买哪些产品(例如游泳裤、防晒霜),从而有助于商家的捆绑销售。
基于数据挖掘的案例和应用上文所提到的四种算法类型(分类、预测、聚类、关联),是比较传统和常见的。还有其他一些比较有趣的算法分类和应用场景,例如协同过滤、异常值分析、社会网络、文本分析等。下面,想针对不同的算法类型,具体的介绍下数据挖掘在日常生活中真实的存在。下面是能想到的、几个比较有趣的、和生活紧密关联的例子。
基于分类模型的案例这里面主要想介绍两个案例,一个是垃圾邮件的分类和判断,另外一个是在生物医药领域的应用,即肿瘤细胞的判断和分辨。
垃圾邮件的判别邮箱系统如何分辨一封Email是否属于垃圾邮件?这应该属于文本挖掘的范畴,通常会采用朴素贝叶斯的方法进行判别。它的主要原理是,根据邮件正文中的单词,是否经常出现在垃圾邮件中,进行判断。例如,如果一份邮件的正文中包含“报销”、“发票”、“促销”等词汇时,该邮件被判定为垃圾邮件的概率将会比较大。
一般来说,判断邮件是否属于垃圾邮件,应该包含以下几个步骤。
第一,把邮件正文拆解成单词组合,假设某篇邮件包含100个单词。
第二,根据贝叶斯条件概率,计算一封已经出现了这100个单词的邮件,属于垃圾邮件的概率和正常邮件的概率。如果结果表明,属于垃圾邮件的概率大于正常邮件的概率。那么该邮件就会被划为垃圾邮件。
医学上的肿瘤判断如何判断细胞是否属于肿瘤细胞呢?肿瘤细胞和普通细胞,有差别。但是,需要非常有经验的医生,通过病理切片才能判断。如果通过机器学习的方式,使得系统自动识别出肿瘤细胞。此时的效率,将会得到飞速的提升。并且,通过主观(医生)+客观(模型)的方式识别肿瘤细胞,结果交叉验证,结论可能更加靠谱。
如何操作?通过分类模型识别。简言之,包含两个步骤。首先,通过一系列指标刻画细胞特征,例如细胞的半径、质地、周长、面积、光滑度、对称性、凹凸性等等,构成细胞特征的数据。其次,在细胞特征宽表的基础上,通过搭建分类模型进行肿瘤细胞的判断。
基于预测模型的案例这里面主要想介绍两个案例。即通过化学特性判断和预测红酒的品质。另外一个是,通过搜索引擎来预测和判断股价的波动和趋势。
红酒品质的判断如何评鉴红酒?有经验的人会说,红酒最重要的是口感。而口感的好坏,受很多因素的影响,例如年份、产地、气候、酿造的工艺等等。但是,统计学家并没有时间去品尝各种各样的红酒,他们觉得通过一些化学属性特征就能够很好地判断红酒的品质了。并且,现在很多酿酒企业其实也都这么干了,通过监测红酒中化学成分的含量,从而控制红酒的品质和口感。
那么,如何判断鉴红酒的品质呢?
第一步,收集很多红酒样本,整理检测他们的化学特性,例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等等。
第二步,通过分类回归树模型进行预测和判断红酒的品质和等级。
搜索引擎的搜索量和股价波动一只南美洲热带雨林中的蝴蝶,偶尔扇动了几下翅膀,可以在两周以后,引起美国德克萨斯州的一场龙卷风。你在互联网上的搜索是否会影响公司股价的波动?
很早之前,就已经有文献证明,互联网关键词的搜索量(例如流感)会比疾控中心提前1到2周预测出某地区流感的爆发。
同样,现在也有些学者发现了这样一种现象,即公司在互联网中搜索量的变化,会显著影响公司股价的波动和趋势,即所谓的投资者注意力理论。该理论认为,公司在搜索引擎中的搜索量,代表了该股票被投资者关注的程度。因此,当一只股票的搜索频数增加时,说明投资者对该股票的关注度提升,从而使得该股票更容易被个人投资者购买,进一步地导致股票价格上升,带来正向的股票收益。这是已经得到无数论文验证了的。
基于关联分析的案例:沃尔玛的啤酒尿布啤酒尿布是一个非常非常古老陈旧的故事。故事是这样的,沃尔玛发现一个非常有趣的现象,即把尿布与啤酒这两种风马牛不相及的商品摆在一起,能够大幅增加两者的销量。原因在于,美国的妇女通常在家照顾孩子,所以,她们常常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。沃尔玛从数据中发现了这种关联性,因此,将这两种商品并置,从而大大提高了关联销售。
啤酒尿布主要讲的是产品之间的关联性,如果大量的数据表明,消费者购买A商品的同时,也会顺带着购买B产品。那么A和B之间存在关联性。在超市中,常常会看到两个商品的捆绑销售,很有可能就是关联分析的结果。
基于聚类分析的案例:零售客户细分对客户的细分,还是比较常见的。细分的功能,在于能够有效的划分出客户群体,使得群体内部成员具有相似性,但是群体之间存在差异性。其目的在于识别不同的客户群体,然后针对不同的客户群体,精准地进行产品设计和推送,从而节约营销成本,提高营销效率。
例如,针对商业银行中的零售客户进行细分,基于零售客户的特征变量(人口特征、资产特征、负债特征、结算特征),计算客户之间的距离。然后,按照距离的远近,把相似的客户聚集为一类,从而有效的细分客户。将全体客户划分为诸如,理财偏好者、基金偏好者、活期偏好者、国债偏好者、风险均衡者、渠道偏好者等。
基于异常值分析的案例:支付中的交易欺诈侦测采用支付宝支付时,或者刷信用卡支付时,系统会实时判断这笔刷卡行为是否属于盗刷。通过判断刷卡的时间、地点、商户名称、金额、频率等要素进行判断。这里面基本的原理就是寻找异常值。如果您的刷卡被判定为异常,这笔交易可能会被终止。
异常值的判断,应该是基于一个欺诈规则库的。可能包含两类规则,即事件类规则和模型类规则。第一,事件类规则,例如刷卡的时间是否异常(凌晨刷卡)、刷卡的地点是否异常(非经常所在地刷卡)、刷卡的商户是否异常(被列入黑名单的套现商户)、刷卡金额是否异常(是否偏离正常均值的三倍标准差)、刷卡频次是否异常(高频密集刷卡)。第二,模型类规则,则是通过算法判定交易是否属于欺诈。一般通过支付数据、卖家数据、结算数据,构建模型进行分类问题的判断。
基于协同过滤的案例:电商猜你喜欢和推荐引擎电商中的猜你喜欢,应该是大家最为熟悉的。在京东商城或者亚马逊购物,总会有“猜你喜欢”、“根据您的浏览历史记录精心为您推荐”、“购买此商品的顾客同时也购买了商品”、“浏览了该商品的顾客最终购买了商品”,这些都是推荐引擎运算的结果。
这里面,确实很喜欢亚马逊的推荐,通过“购买该商品的人同时购买了**商品”,常常会发现一些质量比较高、较为受认可的书。一般来说,电商的“猜你喜欢”(即推荐引擎)都是在协同过滤算法(Collaborative Filter)的基础上,搭建一套符合自身特点的规则库。即该算法会同时考虑其他顾客的选择和行为,在此基础上搭建产品相似性矩阵和用户相似性矩阵。基于此,找出最相似的顾客或最关联的产品,从而完成产品的推荐。
基于社会网络分析的案例:电信中的种子客户种子客户和社会网络,最早出现在电信领域的研究。即,通过人们的通话记录,就可以勾勒出人们的关系网络。电信领域的网络,一般会分析客户的影响力和客户流失、产品扩散的关系。
基于通话记录,可以构建客户影响力指标体系。采用的指标,大概包括如下,一度人脉、二度人脉、三度人脉、平均通话频次、平均通话量等。基于社会影响力,分析的结果表明,高影响力客户的流失会导致关联客户的流失。其次,在产品的扩散上,选择高影响力客户作为传播的起点,很容易推动新套餐的扩散和渗透。
此外,社会网络在银行(担保网络)、保险(团伙欺诈)、互联网(社交互动)中也都有很多的应用和案例。
基于文本分析的案例这里面主要想介绍两个案例。一个是类似“扫描王”的APP,直接把纸质文档扫描成电子文档。相信很多人都用过,这里准备简单介绍下原理。另外一个是,江湖上总是传言红楼梦的前八十回和后四十回,好像并非都是出自曹雪芹之手,这里面准备从统计的角度聊聊。
字符识别:扫描王APP手机拍照时会自动识别人脸,还有一些APP,例如扫描王,可以扫描书本,然后把扫描的内容自动转化为word。这些属于图像识别和字符识别(Optical Character Recognition)。图像识别比较复杂,字符识别理解起来比较容易些。
查找了一些资料,字符识别的大概原理如下,以字符S为例。
第一,把字符图像缩小到标准像素尺寸,例如12*16。注意,图像是由像素构成,字符图像主要包括黑、白两种像素。
第二,提取字符的特征向量。如何提取字符的特征,采用二维直方图投影。就是把字符(12*16的像素图)往水平方向和垂直方向上投影。水平方向有12个维度,垂直方向有16个维度。这样分别计算水平方向上各个像素行中黑色像素的累计数量、垂直方向各个像素列上的黑色像素的累计数量。从而得到水平方向12个维度的特征向量取值,垂直方向上16个维度的特征向量取值。这样就构成了包含28个维度的字符特征向量。
第三,基于前面的字符特征向量,通过神经网络学习,从而识别字符和有效分类。
文学著作与统计:红楼梦归属这是非常著名的一个争论,悬而未决。对于红楼梦的作者,通常认为前80回合是曹雪芹所著,后四十回合为高鹗所写。其实主要问题,就是想确定,前80回合和后40回合是否在遣词造句方面存在显著差异。
这事让一群统计学家比较兴奋了。有些学者通过统计名词、动词、形容词、副词、虚词出现的频次,以及不同词性之间的相关系做判断。有些学者通过虚词(例如之、其、或、亦、了、的、不、把、别、好),判断前后文风的差异。有些学者通过场景(花卉、树木、饮食、医药与诗词)频次的差异,来做统计判断。总而言之,主要通过一些指标量化,然后比较指标之间是否存在显著差异,藉此进行写作风格的判断。
以上是小编为大家分享的关于数据挖掘算法与生活中的应用案例的相关内容,更多信息可以关注环球青藤分享更多干货