大数据未必能改变社交,但它了解社交
  《纽约时报》曾发表过一篇叫《大数据做不到什么》的文章,记者David Brooks认为大数据首先不擅长的是社交,因为数据侧重社会交往的“量”而非“质”。
  但是,大数据在社交媒体上的应用程度已经今非昔比了。就近举个例子,这次世界杯上IBM和腾讯进行了一次合作,由IBM在社交媒体平台上挖掘信息,然后由腾讯策划报道。
  球迷们每天发那么多消息,而且大多是文字信息而非数字,他们是怎么挖掘和分析的呢?壹读君摘几个他们的技术让大家感受一下。
  首先是“命名实体识别”,不管球迷是用手机还是电脑发消息,都会有一些文字没有标点符号,这个技术可以把人名啦、球队名等等先识别出来,来辨别不同短语的不同含义。
  然后是“话题检测”,也就是识别球迷们讨论的是什么话题。对于球迷来说,这个技术的好处在于,媒体会针对他们所关心的话题来报道赛事。
  最后是“语义情感分析”,也就是搞清楚球迷在讨论什么话题后,再判断球迷的立场。这样一来,比赛之后,球迷们对球赛或者队员的看法就一目了然了。
  所以说,以前技术可能只擅长挖掘大……数据,也就是数据本身,而现在,它还能判断你们在聊什么。
  未来不可预测,大数据:怪我咯?
  反大数据思潮中另一个重要观点是,大数据只是基于对历史信息的梳理,无法预测未来。
  2008年,谷歌公司建立了一个预测流感趋势的网站,用统计网络搜索关键词的方法来计算流感在某地区发生的可能性。这个网站当即被作为大数据预测未来的经典案例,然而,这个系统却没预测到2009年H1N1禽流感的爆发。虽然外界没说什么,但谷歌内部憋了一口气,立即对预测算法做了调整。新的算法引起了另一个问题,他们的预测工具变得比更年期女性还敏感,动不动就发布疫情预报。
  到了2013年2月,《自然》杂志实在忍不住发表文章说,你们谷歌的不靠谱预测导致1月份流感疫苗都脱销了可还行!
  有人拿大数据这种“测不准”的尴尬跟地质学的“均变论”类比,因为以古论今的观点容易忽略了那些不可预知的事件,积累了再多过去的信息,也没有办法知道接下来会发生什么突变。
  不过,大数据服务商们可没打算改行去算命,至少现在没有。回到文章最开始的剁手党案例,你以为电商们真的笨到以为这种广告投放能百分之百达到效果吗?图样图森破,他们选择这种推荐方式只不过是因为它容错率高而已。就算推荐的商品用户没相中,大不了再推荐就是了。目前,他们并没有对大数据预测抱有高度的信心,在那些不允许大误差、严重关切企业利益的商业活动中,是不会仅凭大数据预测来做决策的。
  话说回来,预测未来是个高深的概率问题,大数据可能不行,但目前也没有其他工具行。
  不管你信不信,机器只会变得越来越聪明
  David的文章还提到数据分析不懂叙事,也不懂思维的浮现过程。然而,今年7月,美联社宣布今后将采用一种软件产品来撰写企业财报消息,这种机器人就是依靠大数据来抓取信息,根据算法来撰写新闻,它们甚至可以完美模拟人类作者的语调和风格。
  2011年IBM造了个叫“沃森”的计算机出来挑战人类,在美国智力竞赛节目《危险边缘》(Jeopardy!)中夺冠。这一次,它已经可以识别人类语言,分析断句、词义,甚至连双关语、反语都不在话下。它通过数据对比和模拟人类联想得出答案,再用人类语言回答上来。壹读君看了一下节目,他答对的问题从欧盟2010年文化之都、电影《百万宝贝》到印度的吠陀梵语,五花八门。重要的是,这些问题都是在互联网断开的情况下回答上来的,不用度娘就这么博学,真是给跪了。
  所以说,在David写完文章之后,大数据世界的变革仍在继续,工程师们需要专注的只是算法,算法,还是算法。
  当然了,反大数据的人们关注的问题还有在进一步发展大数据应用时,如何保护用户的隐私?人们不仅要为黑客担心,还不希望看到企业为了利益而侵犯大众隐私。反过来,使用大数据工具的企业们其实也在为数据的真实性而担心,比如招聘时抓取的简历信息会不会有造假成分、抽样来的微博用户是不是雇佣水军炒作话题。
  但是,这些与其说是科学问题,不如说是道德问题。
  说了这么多,壹读君只不过想要说明一个寡淡的真理,任何新兴事物出现的时候必然带有一定泡沫,重要的是在泡沫被拂去之前,你是不是已然醉了。

 高顿网校官方微信
扫一扫微信,关注*7财经资讯