月度归档:2015年02月

Ribose-seq: 鉴定RNA片段插入基因组DNA序列事件

核糖核苷酸是RNA的基本单位,它们会在DNA复制和修复过程中嵌入基因组DNA,进而影响基因组的稳定性。然而,迄今为止人们还无法鉴定和定位这些插入DNA的核糖核苷酸。

为此,乔治亚理工学院和科罗拉多大学的科学家们开发了一种新测序技术Ribose-seq。该技术可以鉴定和分析插入基因组DNA的核糖核苷酸,适用于包括人类在内的多种生物。这一成果发表在一月二十六日的Nature Methods杂志上。

研究人员利用这一技术在酿酒酵母的细胞核和线粒体DNA中,绘制了核糖核苷酸的完全图谱,鉴定了核糖核苷酸插入的“热点”区域。研究显示,核糖核苷酸嵌入很普遍但并不是随机发生的。

“核糖核苷酸是DNA中丰度最高的非标准核苷酸,但迄今为止人们还无法确定它们的位置和类别,”乔治亚理工学院的副教授Francesca Storici说,他与科罗拉多大学的助理教授Jay Hesselberth共同领导了这项研究。“核糖核苷酸插入会改变DNA的结构和功能。”

核糖核苷酸里的羟基(-OH)能使DNA发生扭曲,形成敏感性位点。值得注意的是,-OH和碱性溶液之间的反应,会让DNA更容易被切割。Ribose-seq就是利用这一反应来检测核糖核苷酸插入事件的。

研究人员先在核糖核苷酸处切割DNA,然后在此基础上构建DNA文库,文库中的DNA序列包含核糖核苷酸插入位点及其上游序列。随后,他们对文库进行高通量测序,将测序读取与参考基因组进行比对,最终获得rNMP插入事件的基因组图谱。

“Ribose-seq能够特异性直接捕捉嵌入DNA的核糖核苷酸,”Storici指出。“这一技术适用于任何基因组DNA(从细胞核基因组、质粒DNA到线粒体DNA),不需要进行标准化。Ribose-seq还可以在DNA遭遇环境压力发生断裂和脱碱基时分析rNMP。”

核糖核苷酸里的羟基是ribose-seq的关键,“-OH是核糖核苷酸特有的”文章的第一作者Kyung Duk Koh说。

研究人员在酿酒酵母中对这一方法进行了验证。“不论是核糖核苷酸的插入位点,还是核糖核苷酸的组成都存在偏好,”Koh说。“我们找到了核糖核苷酸插入基因组的一些热点。”人们可以在此基础上鉴定不稳定的基因组区域,理解它们对DNA性能和活性的影响。

下一步,研究人员将把Ribose-seq用于其它DNA,“这一技术可以用于任何生物的任何细胞类型,只要能提取出基因组DNA,”Koh说。

除了DNA修复和复制以外,药物、环境压力和其它因子造成的损伤也会使核糖核苷酸插入DNA。而Ribose-seq可以帮助人们研究这些过程产生的影响。

“Ribose-seq能让我们更好的理解核糖核苷酸对DNA结构和功能的影响,”Storici说,“鉴定特征性的核糖核苷酸插入,可以找到人类疾病的新生物学指标,比如癌症和退行性疾病。”

参考文献:

Ribose-seq: global mapping of ribonucleotides embedded in genomic DNA

抗癌药代购第一人陆勇:获释后每天上百名患者找我

2013年8月下旬,湖南省沅江市公安局在查办一网络银行卡贩卖团伙时,将曾购买信用卡的陆勇抓获。2014年3月19日,陆勇被取保候审。7月21日,沅江市检察院以妨害信用卡管理罪和销售假药罪对陆勇提起公诉。

2015年1月15日,陆勇被沅江市公安局押回沅江。1月27日,沅江市检察院向法院请求撤回起诉,而法院也在当天就对“撤回起诉”做出准许裁定。在两天后,陆勇获准取保候审,免于强制羁押。对于撤回起诉的理由,检方截至昨日仍未作出明确解释,只模糊提及司法解释发生变化。

一切源于一枚被白血病病友视为救命稻草的高仿黄色小药片。由于未经国家药监部门审批,至今它仍属“假药”范畴。2002年,被查出患病后,陆勇开始连续两年服用每盒价格在23500元的抗癌专利药物格列卫,“一年下来的费用近30万元”。而能吃得起这种药的,仅是极少数病友。陆勇记得,数百人的病友QQ群里,几乎每个星期都有QQ头像不再亮起。由于难以承担高额费用,2004年,陆勇开始接触印度仿制抗癌药,并还将这种方式介绍给国内其他病友。2013年,印度药价格降至200元每盒,是正版药的百分之一。

卷入案件15个月,当事人陆勇仍坚信自己无罪。他希望尽快恢复平静生活,并坦言以后会继续帮助病友,但“肯定会更加谨慎”。陆勇还萌发了成立基金会的想法,在国家医保层面不能完全覆盖的情况下,展开互助自救。“我们每一个白血病患者,最大的希望就是能有尊严地活下去。”

对话

关于代购

北青报:当初你是怎么接触到印度仿制药的?

陆勇:我是2002年查出慢粒白血病的,当时抗癌专利药瑞士格列卫价格很昂贵,也没有任何慈善活动,患者得自费购买,每盒23500元。一年近30万元,我吃了两年。家里负担太重了,能否找到匹配的骨髓移植也是问题。我自己也很纠结,就上一些国外论坛,浏览一些这个领域的前沿学术。2004年6月份,我看到一篇介绍韩国慢粒白血病人的文章,有两句话让我眼前一亮:第一句是2001年时,韩国慢粒白血病患者已经从印度买到仿效药;第二句话是价格是正版药的三分之一。后来,我才从日本辗转买到印度的这种药物,当时每盒4000元人民币。拿到这个药后,看到药盒上有制药企业的联系方式,我便尝试发了一份传真,希望能直接购买。我是国内第一个跟印度公司联系的人。试吃了一个疗程后,感觉效果可以,我就告诉QQ群里其他病人。于是,到2004年9月份,大家都买到这个药了。

北青报:后来你就充当起了销售商及病友中间人的角色?

陆勇:好多患者不懂英文,我开始就帮他们翻译、转发邮件。对印度公司而言,我是第一个跟他们联系的中国人,他们认为通过我会比较方便,所以后来遇到网银升级的问题时,他们就跟我商量。刚开始,我们找了两名云南病友,由他们提供汇款账户,印度公司给他们提供免费药品。但后来交易数额大了,两名病友怕被警方怀疑洗钱,不愿意继续提供。所以我在网上买了一个信用卡账户,给印度公司使用。这才形成类似代购的事实。但其实我并没有代购。

北青报:之前不少媒体称你是作为“抗癌药代购第一人”卷入案件。但你好像认为自己被误解了?

陆勇:对。我只是把自己购买抗癌药的办法告诉大家,让大家也自己去按照我这个办法跟印度方面联系,按照他们提供的流程购买,价格按照我之前谈好的最便宜的价格卖给大家。只是跨国汇款(美金)有点麻烦,很多病友英文不好,不知怎么办理。在跟印度公司反映后,对方在中国国内开通人民币账户,简单方便。但后来网银频繁升级,还要绑定手机号,每次都需要账户开设人来中国办理,很麻烦。印度公司就让我帮忙,找一张信用卡。

所以,我是因为在网上买了一张信用卡提供给印度公司使用,才出了问题。不管买药、付款,全是病友自己完成的,不是我买了再转给他们。

关于假药

北青报:有统计过帮多少病友买过药吗?

陆勇:上千人不止。

北青报:购进未得到药监部门审批进入的都属于销售“假药”,你怎么看待这个界定?

陆勇:药效有效、能控制我们的病情,我们就认为它是真药;至于法律上认为未经过审批就是假药,我们也很难理解,可能是出于国家管理层面的考虑吧。但是我觉得,这里面还是要有一定的区分,我理解所谓的假药,是不含有效成分的药品。

北青报:这个过程中,会有病友认为你牟利或者有私心吗?

陆勇:我没有赚一分钱,警方查得很清楚。他们(有些病友)觉得我在里面有利益,我从不解释,没有意义。我没有通过药价来挣钱的动机。我有自己的公司,账面余额少说也有几百万,没必要再花时间去弄这个。再说,我自己也是一个患者,2002年到2004年吃了那么贵的药,一年将近30万人民币,两年都快把家底掏空了。所以我能理解其他患者的那种无助感受以及一人患病给整个家庭带来的巨大经济压力。所以,在力所能及的范围内,我愿意帮助他们,让我们这个群体有一条路。

关于互助

北青报:你一直在强调靠互助?

陆勇:其实,QQ群里好多病友都在互助。只是我的情况被媒体爆出来了,让更多人知道了而已。现实就是在好多省份,格列卫没有进医保,患者吃不起,那我们自救还不成吗?你还要把我抓起来?(笑)

北青报:既然是做帮助别人的好事,第一次被警方找上门时是什么反应?

陆勇:我觉得肯定是网上买信用卡出的问题。患者自购进口药是合法的。

北青报:今后还会继续帮病友买印度药吗?

陆勇: 还会帮,在我力所能及的范围内。但是我会更谨慎一点。另外,不会做上网买信用卡这种可能触犯法律的事情。

北青报:继续沿用原来的方式?

陆勇:方式会转变。我们会向法律专家或律师咨询,请他们来指导我们,看怎样做更合法、更简便。

我们国家太大了,很多事情政府暂时还没能力解决或者不便解决,大家只能互助。我想,可以成立一个基金会,通过这个平台召集更多志愿者,用专业化的手段来帮助大家是最好的办法。毕竟光靠我一个人的力量不现实。我自己也要工作、生活。

关于未来

北青报:前几天从看守所回来后,你的生活有什么变化?

陆勇:每天得有上百名患者要加我QQ,还有人找到家里。我真顾不过来了,有点力不从心(呵呵笑)。

北青报:检察院撤回起诉,你怎么看这个结果?

陆勇:我当然很高兴,给了一个公正的处理,我又恢复了自由。

北青报:你认为自己在这件事中是一个什么角色?

陆勇:我就是一个普通人,在力所能及的范围内帮助大家。但是大家的认可超过了我的想象,让我有点惊讶。

北青报:如未发现新证据,检察机关应在一个月内做出不予起诉的决定书。你有收到这份决定书吗?

陆勇:没收到。

北青报:舆论都很关心检方撤回起诉的依据,听说你跟律师也没有被明确告知?

陆勇:法律的问题我不想谈,还是法律专家们说的更权威。我一个老百姓,说了也没用不是?

北青报:不过这件事还是让公众了解了你背后的大量白血病患者的群体困境。

陆勇:随着国家对这些白血病等重大疾病患者的重视,我想会有越来越多的省份把“救命药”纳入医保。现在已经有人大代表跟我、跟记者联系,准备两会上提相关的议案。

机器学习资源大全

C++计算机视觉

  • CCV —基于C语言/提供缓存/核心的机器视觉库,新颖的机器视觉库
  • OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口,并支持Windows, Linux, Android and Mac OS操作系统。

通用机器学习

Closure通用机器学习

Go自然语言处理

  • go-porterstemmer—一个Porter词干提取算法的原生Go语言净室实现
  • paicehusk—Paice/Husk词干提取算法的Go语言实现
  • snowball—Go语言版的Snowball词干提取器

通用机器学习

  • Go Learn— Go语言机器学习库
  • go-pr —Go语言机器学习包.
  • bayesian—Go语言朴素贝叶斯分类库。
  • go-galib—Go语言遗传算法库。


数据分析/数据可视化

  • go-graph—Go语言图形库。
  • SVGo—Go语言的SVG生成库。

Java自然语言处理

  • CoreNLP—斯坦福大学的CoreNLP提供一系列的自然语言处理工具,输入原始英语文本,可以给出单词的基本形式(下面Stanford开头的几个工具都包含其中)。
  • Stanford Parser—一个自然语言解析器。
  • Stanford POS Tagger —一个词性分类器。
  • Stanford Name Entity Recognizer—Java实现的名称识别器
  • Stanford Word Segmenter—分词器,很多NLP工作中都要用到的标准预处理步骤。
  • Tregex, Tsurgeon and Semgrex —用来在树状数据结构中进行模式匹配,基于树关系以及节点匹配的正则表达式(名字是“tree regular expressions”的缩写)。
  • Stanford Phrasal:最新的基于统计短语的机器翻译系统,java编写
  • Stanford Tokens Regex—用以定义文本模式的框架。
  • Stanford Temporal Tagger—SUTime是一个识别并标准化时间表达式的库。
  • Stanford SPIED—在种子集上使用模式,以迭代方式从无标签文本中学习字符实体
  • Stanford Topic Modeling Toolbox —为社会科学家及其他希望分析数据集的人员提供的主题建模工具。
  • Twitter Text Java—Java实现的推特文本处理库
  • MALLET -—基于Java的统计自然语言处理、文档分类、聚类、主题建模、信息提取以及其他机器学习文本应用包。
  • OpenNLP—处理自然语言文本的机器学习工具包。
  • LingPipe —使用计算机语言学处理文本的工具包。


通用机器学习

  • MLlib in Apache Spark—Spark中的分布式机器学习程序库
  • Mahout —分布式的机器学习库
  • Stanford Classifier —斯坦福大学的分类器
  • Weka—Weka是数据挖掘方面的机器学习算法集。
  • ORYX—提供一个简单的大规模实时机器学习/预测分析基础架构。

数据分析/数据可视化

  • Hadoop—大数据分析平台
  • Spark—快速通用的大规模数据处理引擎。
  • Impala —为Hadoop实现实时查询

Javascript自然语言处理

  • Twitter-text-js —JavaScript实现的推特文本处理库
  • NLP.js —javascript及coffeescript编写的NLP工具
  • natural—Node下的通用NLP工具
  • Knwl.js—JS编写的自然语言处理器

数据分析/数据可视化


通用机器学习

  • Convnet.js—训练深度学习模型的JavaScript库。
  • Clustering.js—用JavaScript实现的聚类算法,供Node.js及浏览器使用。
  • Decision Trees—Node.js实现的决策树,使用ID3算法。
  • Node-fann —Node.js下的快速人工神经网络库。
  • Kmeans.js—k-means算法的简单Javascript实现,供Node.js及浏览器使用。
  • LDA.js —供Node.js用的LDA主题建模工具。
  • Learning.js—逻辑回归/c4.5决策树的JavaScript实现
  • Machine Learning—Node.js的机器学习库。
  • Node-SVM—Node.js的支持向量机
  • Brain —JavaScript实现的神经网络
  • Bayesian-Bandit —贝叶斯强盗算法的实现,供Node.js及浏览器使用。

Julia通用机器学习

  • PGM—Julia实现的概率图模型框架。
  • DA—Julia实现的正则化判别分析包。
  • Regression—回归分析算法包(如线性回归和逻辑回归)。
  • Local Regression —局部回归,非常平滑!
  • Naive Bayes —朴素贝叶斯的简单Julia实现
  • Mixed Models —(统计)混合效应模型的Julia包
  • Simple MCMC —Julia实现的基本mcmc采样器
  • Distance—Julia实现的距离评估模块
  • Decision Tree —决策树分类器及回归分析器
  • Neural —Julia实现的神经网络
  • MCMC —Julia下的MCMC工具
  • GLM —Julia写的广义线性模型包
  • Online Learning
  • GLMNet —GMLNet的Julia包装版,适合套索/弹性网模型。
  • Clustering—数据聚类的基本函数:k-means, dp-means等。
  • SVM—Julia下的支持向量机。
  • Kernal Density—Julia下的核密度估计器
  • Dimensionality Reduction—降维算法
  • NMF —Julia下的非负矩阵分解包
  • ANN—Julia实现的神经网络

自然语言处理

数据分析/数据可视化

杂项/演示文稿

Lua
通用机器学习

  • Torch7
    • cephes —Cephes数学函数库,包装成Torch可用形式。提供并包装了超过180个特殊的数学函数,由Stephen L. Moshier开发,是SciPy的核心,应用于很多场合。
    • graph —供Torch使用的图形包。
    • randomkit—从Numpy提取的随机数生成包,包装成Torch可用形式。
    • signal —Torch-7可用的信号处理工具包,可进行FFT, DCT, Hilbert, cepstrums, stft等变换。
    • nn —Torch可用的神经网络包。
    • nngraph —为nn库提供图形计算能力。
    • nnx—一个不稳定实验性的包,扩展Torch内置的nn库。
    • optim—Torch可用的优化算法库,包括 SGD, Adagrad, 共轭梯度算法, LBFGS, RProp等算法。
    • unsup—Torch下的非监督学习包。提供的模块与nn(LinearPsd, ConvPsd, AutoEncoder, …)及独立算法 (k-means, PCA)等兼容。
    • manifold—操作流形的包。
    • svm—Torch的支持向量机库。
    • lbfgs—将liblbfgs包装为FFI接口。
    • vowpalwabbit —老版的vowpalwabbit对torch的接口。
    • OpenGM—OpenGM是C++编写的图形建模及推断库,该binding可以用Lua以简单的方式描述图形,然后用OpenGM优化。
    • sphagetti —MichaelMathieu为torch7编写的稀疏线性模块。
    • LuaSHKit —将局部敏感哈希库SHKit包装成lua可用形式。
    • kernel smoothing —KNN、核权平均以及局部线性回归平滑器
    • cutorch—torch的CUDA后端实现
    • cunn —torch的CUDA神经网络实现。
    • imgraph—torch的图像/图形库,提供从图像创建图形、分割、建立树、又转化回图像的例程
    • videograph—torch的视频/图形库,提供从视频创建图形、分割、建立树、又转化回视频的例程
    • saliency —积分图像的代码和工具,用来从快速积分直方图中寻找兴趣点。
    • stitch —使用hugin拼合图像并将其生成视频序列。
    • sfm—运动场景束调整/结构包
    • fex —torch的特征提取包,提供SIFT和dSIFT模块。
    • OverFeat—当前最高水准的通用密度特征提取器。
  • Numeric Lua
  • Lunatic Python
  • SciLua
  • Lua – Numerical Algorithms
  • Lunum

演示及脚本

  • Core torch7 demos repository.核心torch7演示程序库
    • 线性回归、逻辑回归
    • 人脸检测(训练和检测是独立的演示)
    • 基于mst的断词器
    • train-a-digit-classifier
    • train-autoencoder
    • optical flow demo
    • train-on-housenumbers
    • train-on-cifar
    • tracking with deep nets
    • kinect demo
    • 滤波可视化
    • saliency-networks
  • Training a Convnet for the Galaxy-Zoo Kaggle challenge(CUDA demo)
  • Music Tagging—torch7下的音乐标签脚本
  • torch-datasets 读取几个流行的数据集的脚本,包括:
    • BSR 500
    • CIFAR-10
    • COIL
    • Street View House Numbers
    • MNIST
    • NORB
  • Atari2600 —在Arcade Learning Environment模拟器中用静态帧生成数据集的脚本。

Matlab计算机视觉

  • Contourlets —实现轮廓波变换及其使用函数的MATLAB源代码
  • Shearlets—剪切波变换的MATLAB源码
  • Curvelets—Curvelet变换的MATLAB源码(Curvelet变换是对小波变换向更高维的推广,用来在不同尺度角度表示图像。)
  • Bandlets—Bandlets变换的MATLAB源码

自然语言处理

  • NLP —一个Matlab的NLP库

通用机器学习

数据分析/数据可视化

  • matlab_gbl—处理图像的Matlab包
  • gamic—图像算法纯Matlab高效实现,对MatlabBGL的mex函数是个补充。

.NET计算机视觉

  • OpenCVDotNet —包装器,使.NET程序能使用OpenCV代码
  • Emgu CV—跨平台的包装器,能在Windows, Linus, Mac OS X, iOS, 和Android上编译。

自然语言处理

  • Stanford.NLP for .NET —斯坦福大学NLP包在.NET上的完全移植,还可作为NuGet包进行预编译。

通用机器学习

  • Accord.MachineLearning —支持向量机、决策树、朴素贝叶斯模型、K-means、高斯混合模型和机器学习应用的通用算法,例如:随机抽样一致性算法、交叉验证、网格搜索。这个包是Accord.NET框架的一部分。
  • Vulpes—F#语言实现的Deep belief和深度学习包,它在Alea.cuBase下利用CUDA GPU来执行。
  • Encog —先进的神经网络和机器学习框架,包括用来创建多种网络的类,也支持神经网络需要的数据规则化及处理的类。它的训练采用多线程弹性传播。它也能使用GPU加快处理时间。提供了图形化界面来帮助建模和训练神经网络。
  • Neural Network Designer —这是一个数据库管理系统和神经网络设计器。设计器用WPF开发,也是一个UI,你可以设计你的神经网络、查询网络、创建并配置聊天机器人,它能问问题,并从你的反馈中学习。这些机器人甚至可以从网络搜集信息用来输出,或是用来学习。

数据分析/数据可视化

  • numl —numl这个机器学习库,目标就是简化预测和聚类的标准建模技术。
  • Math.NET Numerics— Math.NET项目的数值计算基础,着眼提供科学、工程以及日常数值计算的方法和算法。支持 Windows, Linux 和 Mac上的 .Net 4.0, .Net 3.5 和 Mono ,Silverlight 5, WindowsPhone/SL 8, WindowsPhone 8.1 以及装有 PCL Portable Profiles 47 及 344的Windows 8, 装有 Xamarin的Android/iOS 。
  • Sho —Sho是数据分析和科学计算的交互式环境,可以让你将脚本(IronPython语言)和编译的代码(.NET)无缝连接,以快速灵活的建立原型。这个 环境包括强大高效的库,如线性代数、数据可视化,可供任何.NET语言使用,还为快速开发提供了功能丰富的交互式shell。

Python计算机视觉

  • SimpleCV—开源的计算机视觉框架,可以访问如OpenCV等高性能计算机视觉库。使用Python编写,可以在Mac、Windows以及Ubuntu上运行。

自然语言处理

  • NLTK —一个领先的平台,用来编写处理人类语言数据的Python程序
  • Pattern—Python可用的web挖掘模块,包括自然语言处理、机器学习等工具。
  • TextBlob—为普通自然语言处理任务提供一致的API,以NLTK和Pattern为基础,并和两者都能很好兼容。
  • jieba—中文断词工具。
  • SnowNLP —中文文本处理库。
  • loso—另一个中文断词库。
  • genius —基于条件随机域的中文断词库。
  • nut —自然语言理解工具包。

通用机器学习

  • Bayesian Methods for Hackers —Python语言概率规划的电子书
  • MLlib in Apache Spark—Spark下的分布式机器学习库。
  • scikit-learn—基于SciPy的机器学习模块
  • graphlab-create —包含多种机器学习模块的库(回归,聚类,推荐系统,图分析等),基于可以磁盘存储的DataFrame。
  • BigML—连接外部服务器的库。
  • pattern—Python的web挖掘模块
  • NuPIC—Numenta公司的智能计算平台。
  • Pylearn2—基于Theano的机器学习库。
  • hebel —Python编写的使用GPU加速的深度学习库。
  • gensim—主题建模工具。
  • PyBrain—另一个机器学习库。
  • Crab —可扩展的、快速推荐引擎。
  • python-recsys —Python实现的推荐系统。
  • thinking bayes—关于贝叶斯分析的书籍
  • Restricted Boltzmann Machines —Python实现的受限波尔兹曼机。[深度学习]。
  • Bolt —在线学习工具箱。
  • CoverTree —cover tree的Python实现,scipy.spatial.kdtree便捷的替代。
  • nilearn—Python实现的神经影像学机器学习库。
  • Shogun—机器学习工具箱。
  • Pyevolve —遗传算法框架。
  • Caffe —考虑了代码清洁、可读性及速度的深度学习框架
  • breze—深度及递归神经网络的程序库,基于Theano。

数据分析/数据可视化

  • SciPy —基于Python的数学、科学、工程开源软件生态系统。
  • NumPy—Python科学计算基础包。
  • Numba —Python的低级虚拟机JIT编译器,Cython and NumPy的开发者编写,供科学计算使用
  • NetworkX —为复杂网络使用的高效软件。
  • Pandas—这个库提供了高性能、易用的数据结构及数据分析工具。
  • Open Mining—Python中的商业智能工具(Pandas web接口)。
  • PyMC —MCMC采样工具包。
  • zipline—Python的算法交易库。
  • PyDy—全名Python Dynamics,协助基于NumPy, SciPy, IPython以及 matplotlib的动态建模工作流。
  • SymPy —符号数学Python库。
  • statsmodels—Python的统计建模及计量经济学库。
  • astropy —Python天文学程序库,社区协作编写
  • matplotlib —Python的2D绘图库。
  • bokeh—Python的交互式Web绘图库。
  • plotly —Python and matplotlib的协作web绘图库。
  • vincent—将Python数据结构转换为Vega可视化语法。
  • d3py—Python的绘图库,基于D3.js。
  • ggplot —和R语言里的ggplot2提供同样的API。
  • Kartograph.py—Python中渲染SVG图的库,效果漂亮。
  • pygal—Python下的SVG图表生成器。
  • pycascading

杂项脚本/iPython笔记/代码库

Kaggle竞赛源代码

Ruby自然语言处理

  • Treat—文本检索与注释工具包,Ruby上我见过的最全面的工具包。
  • Ruby Linguistics—这个框架可以用任何语言为Ruby对象构建语言学工具。包括一个语言无关的通用前端,一个将语言代码映射到语言名的模块,和一个含有很有英文语言工具的模块。
  • Stemmer—使得Ruby可用 libstemmer_c中的接口。
  • Ruby Wordnet —WordNet的Ruby接口库。
  • Raspel —aspell绑定到Ruby的接口
  • UEA Stemmer—UEALite Stemmer的Ruby移植版,供搜索和检索用的保守的词干分析器
  • Twitter-text-rb—该程序库可以将推特中的用户名、列表和话题标签自动连接并提取出来。

通用机器学习

数据分析/数据可视化

Misc
杂项

R通用机器学习

数据分析/数据可视化

Scala自然语言处理

  • ScalaNLP—机器学习和数值计算库的套装
  • Breeze —Scala用的数值处理库
  • Chalk—自然语言处理库。
  • FACTORIE—可部署的概率建模工具包,用Scala实现的软件库。为用户提供简洁的语言来创建关系因素图,评估参数并进行推断。

数据分析/数据可视化

  • MLlib in Apache Spark—Spark下的分布式机器学习库
  • Scalding —CAscading的Scala接口
  • Summing Bird—用Scalding 和 Storm进行Streaming MapReduce
  • Algebird —Scala的抽象代数工具
  • xerial —Scala的数据管理工具
  • simmer —化简你的数据,进行代数聚合的unix过滤器
  • PredictionIO —供软件开发者和数据工程师用的机器学习服务器。
  • BIDMat—支持大规模探索性数据分析的CPU和GPU加速矩阵库。

通用机器学习

  • Conjecture—Scalding下可扩展的机器学习框架
  • brushfire—scalding下的决策树工具。
  • ganitha —基于scalding的机器学习程序库
  • adam—使用Apache Avro, Apache Spark 和 Parquet的基因组处理引擎,有专用的文件格式,Apache 2软件许可。
  • bioscala —Scala语言可用的生物信息学程序库
  • BIDMach—机器学习CPU和GPU加速库。

原文链接: awesome-machine-learning
译文链接: http://blog.jobbole.com/73806/