您好,欢迎您来到我的个人博客!
柳正利的个人博客
文章内容

从推文里来挖掘用户需求[Mining Twitter Feeds for Software User Requirements]

0
发布时间:『 2018-04-22 09:57』  博客类别:学术研究  阅读(603) 评论(0)


摘要 Twitter使得大量的软件最终用户能够以微博的形式公开分享他们对软件系统的体验和关注。这样的数据可以被收集和分类,以帮助软件开发人员推断用户的需求,检测代码中的缺陷,并计划他们的系统的未来发行版本。然而,自动捕获、分类和呈现有用的推文并不是一件微不足道的任务。挑战源于可用数据的规模、独特的格式、多样性以及不相关信息和垃圾推文的高百分比。出于这些挑战,本文报道了一个三折的研究,目的是利用Twitter作为软件用户需求的主要来源。主要目标是确保响应的、交互式的和自适应的数据驱动需求工程过程。我们的分析是在来自不同应用领域的10个软件系统的Twitter中收集的4000条推特进行的。结果表明,约50%的推文包含有用的技术信息。结果还表明,文本分类器,如支持向量机和朴素贝叶斯可以非常有效地捕获和分类技术信息。此外,本文描述和评估多个总结策略,以产生有意义的与可提供和软件相关信息的推文摘要。

 

本文的主要贡献如下:

(1)利用从推特上收集的10个不同领域软件系统的4000条推文信息,我们的目标是定性评估软件相关推文的技术价值。

(2)采用两种不同的文本分类算法对推文进行自动分类,

(3)最后评估了不同摘要生成技术基于推文来生成技术信息的性能。

在收集数据的过程中,利用Twitter的search API来收集相关数据。可以利用hashtag来收集与指定主题有关的推文信息。然而,hashtag或word搜索的主要缺点之一是噪声与信号的比率非常高。为了克服这种缺陷,将我们的数据收集过程限制为直接发送给指定软件产品的Twitter帐户的推文(例如@Windows10开头的推文)。图1展示了收集数据的时间跨度,表1展示了收集的数据情况,推文信息主要分为三类,bugs,Request,和others。

       

随后,作者用SVM和NB对推文进行自动分类。其中这两个算法的实现是基于Weka的。在对文本分类过程中,采用了一些策略,如去掉停用词、合并时态、对推文进行情感分析等。情感分析主要用Sentiment这个包来实现的。实验结果如表2和图2所示。

从实验结果可以看出,对推文进行情感分析,对于分类的准确率影响不大。NB和SVM两种说法的性能大致相当。从表2可以看出,与bug相关的推文,情绪偏负面,和Requirement相关的偏正面。而other的则分布较均衡。

在自动生成摘要方面,作者分别对比了一下三种方法的性能。

(1)      Hybrid Term Frequency (TF).

(2)      Hybrid TF.IDF

(3)      SumBasic

在评估过程中,主要使用了recall来评判。

其中,S表示参考摘要的总数,t表示由算法自动生成的摘要,match表示匹配,count表示总数。

具体实验结果如下图所示。


文章信息:Grant Williams and Anas Mahmoud. Mining Twitter Feeds for Software User Requirements,2017 IEEE 25th International Requirements Engineering Conference.

数据集地址:http://seel.cse.lsu.edu/data/re17.zip


关键字:   需求工程     软件工程     TF.IDF     SVM     贝叶斯  
声明:本站部分资源来源于互联网,如果侵犯了您的权利,请来信告知,我们将在24小时以内删除. 联系邮箱:zhengli_liu@126.com
Powered by liuzhengli.com 豫ICP备18011046号
Copyright © 2018 liuzhengli.com All rights reserved.