
信息与决策系统实验室的达文特-沙赫教授及其学生斯塔尼斯拉夫-尼科洛夫宣称,他们所开发的运算法则能够以95%的准确度预测哪些词汇、句子或标题将成为流行趋势,预测时间甚至可提前至4至5小时。他们通过“训练”该系统,使其学习如何识别哪些表现形式可能引发流行话题。
通常,此类预测系统会分析微博的流量,并将观察到的数据与特定模型进行匹配。当某一话题显著高于常态背景时,程序会被设定为寻找特定的“阶梯”。沙赫解释道:“这是一个相对简单的模型。通过数据分析,您可以训练该模型,预测话题何时会出现跃升及其可能的幅度。”
最终,他们的运算法则并非仅仅寻找微博流量样本中的特定模式,而是从时间的角度观察每个新话题的微博数量变化,并将其与训练组中的样本进行逐时比对。如果某一新话题在统计特征上与现有样本相似,那么从中得出的结论将有助于预测该话题是否将趋于流行。实际上,每个训练样本都会对新话题的流行性进行“投票”,而部分样本的影响力则相对较高。这些投票共同传递出新话题可能流行的信号。
沙赫与尼科洛夫利用包含200个流行话题和200个非流行话题的训练组来训练该运算法则。经过验证,该算法成功以95%的正确率从非流行话题中筛选出潜在流行话题。
然而,该模型之所以有效,正是因为它并未限制所关注的流量,相较于传统模型,它需要更强大的计算能力。沙赫指出,由于该算法所需的数据量,除了像谷歌、脸谱网、亚马逊等拥有强大云计算能力的公司外,应用于极大数据集的可能性较小。尽管该算法对微博本身可能产生商业影响,微博公司可能会利用其对流行话题制定广告收费策略。此外,这一运算法则亦可扩展应用于诸多其他场景,包括股票价格预测等。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关AI热点
暂无评论...