Apache Spark with Pipeline and LDA
最近入坑Apache Spark,这个分布式框架让我知道了什么叫做大数据,以及在处理大数据之中所碰到的一些问题。首先说明一下语言当然用Scala 虽然一开始让人感觉比较反人类,但是经过一段时间的摸索发现真的挺好用的,甚至喜欢上了它,前提是不报错。
说一下工作环境:
Scala IED
Scala 2.10.6
Apache Spark 1.6.1
Apache Zepprlin
这些版本要对应起来,要不然吃不了兜着走。这里集群的管理工具是ambari,这个工具可以让你轻松的进行图像可视化。
这里我们用的是 Spark on Yarn 模式,其中进行提交......