Menu
您的位置:中国房产新闻网 > 数据研究 > >

选择R语言做统房产新闻计分析的理由

新闻来源:网络整理  2018-03-21 05:56

R的学习曲线是艰难的。一个新手可以打开一个菜单驱动的统计平台,并在几分钟内得到结果。并不是每个人都想从一个程序员变成一个分析师,当然,也许不是每个人必须这样。

相关厂商内容

风格

InfoSphere Streams是一个计算平台,集成了对数以千计的数据源高流速的数据进行分析的开发环境。这些数据流的内容通常是非结构化或半结构化的。分析的目标是检查对那些基于实时事件的数据和直接决策的模式变化。SPL是InfoSphere Streams的编程语言的简写,它通过一个反映了数据的动态本质和快速分析和响应的必要范式来组织数据。

许多专业的政府部门、商业和制药行业的统计人员和方法论者把他们的事业都倾注在了IBM 的SPSS或者是SAS上,但是他们并不用写一条R代码就能用。所以,从某种程度上来说,决定去学习R是一个事关企业文化和你如何去工作的问题。我在我的统计咨询实践中使用好几种工具,但是我所用的大部分都是R。

相关内容

对于InfoSphere Streams和R语言的关系,Catherine表示,InfoSphere Streams的是一种先进的计算平台,允许用户开发的应用程序,以快速的采集、分析和关联信息,因为它会接收到数以千计的实时数据源,处理非常高的数据传输率:高达每秒数以百万计的事件或消息。它包括一个R-项目工具包。

相关主题:

Catherine进一步指出,R是在S-Plus开发的附加模型的基础上对S的一种实现。有时候,同样的人也参与进对R的开发中。R是在GNU许可证下的一个开源项目,在此基础上,R通过不断的添加大量的包而持续增长。R把那些能被当做同一组安装,并且可以被R在会话期访问的数据集合、R函数、文档和动态加载项用C或者Fortran打包到一起。R的包添加新的功能到R,并通过这些软件包,研究人员可以很容易地分享他们的同龄人之间的计算方法。某些软件包是范围有限的,其他代表统计学的整个领域,含有其他一些包含了前沿的发展。事实上,许多统计学方面的开发包在变成商业软件之前最开始都是以R的包的形式出现的。

R是开源的。R社区非常大,成熟,并且活跃度也很高,毫无疑问,R是其中较为成功的开源项目。正如我所展示的那样,R的实现花了20年以上的时间,并且S语言比R时间更长。它是一个论证过了的概念和产品。但是,任何开放源码的产品,它的可靠性依赖于透明度。我们相信代码,因为我们可以检查代码,,并且别人也可以检查代码进而报告错误。这与那些采取它在自己的基准,并验证其软件的公司项目是不同的。而对于那些较少被使用的R包,你没有理由相信它们做出了正确的结果。 

相关赞助商

R语言是S语言的一种开源实现,一种用于数据分析和图形化的编程环境。资深分析师Catherine最近撰文结合自己的实践经验详细介绍了R语言的优点和缺点。

R是一个强大的脚本语言。我最近被邀请去分析一次概略研究的结果。这些研究者翻阅了1600篇研究论文,并把这些内容用几种标准来编码——事实上是大量的标准,并且这些标准还包括多个选项和分支。他们的数据曾经放到微软的Excel表格中,这表格中居然包括8000列,然后这些列大多是是空的。这些研究者们想要在不同的类别和标题下对总数进行压缩,R是一种强大的脚本语言,它能够像Perl的正则表达式一样来处理文本。凌乱的数据需要编程语言这样的资源,尽管SAS和SPSS有处理那些超越下拉菜单任务的脚本语言,但是R是被用作一门编程语言来写的,因此,对于这一目的,R是一种更好工具。

R领导新的方式。许多新的统计学方面的产品在成为商业平台之前,最初是作为R的包而出现的。我最近得到关于病人回访的医学研究的数据。对于每一个病人,我们有医生曾经建议的治疗条目的数量,同时也有病人实际记住的条目数量。自然模型是β-二项分布。自20世纪50年代以来,这一点已经被广泛熟知,但是把估计程序与感兴趣的协变量关联起来却是最近的事情。通常,像这样的数据都要用一般估计方程来处理,但GEE方法是渐进的,并且假设前提是样本足够大。我曾经希望R能够拥有处理广义线性模型与β-二项式的能力。恰好最近的一个包估计了这个模型: Ben Bolker所写的β-二项式。SPSS都没有完成这个功能。

告诉我们您的想法

免责声明:凡本网注明 “来源:XXX(非中国房产新闻网)” 的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

最新资讯

滚动播报

更多