1.Hadoop API
HadoopAPI包括如下几种主要的包(Package)。
(1)org.apache.hadoop.conf:定义了系统参数的配置文件处理API。
(2)org.apache.hadoop.dfs: Hadoop分布式文件系统(HDFS)模块的实现。
(3)org.apache.hadoop.fs:定义了抽象的文件系统API。
(4)org.apache.hadoop.io:定义了通用的I/0 API,用于针对网络、数据库、文件等数据对象做读/写操作。
(5)org.apache.hadoop.ipc:用于网络服务端和客户端的工具,封装了网络异步I/O的基础模块。
(6)org.apache.hadoop.mapred:Hadoop分布式计算系统(MapReduce)模块的实现,包括任务的分发调度等。
(7)org.apache.liadoop.metrics:定义了用于性能统计信息的API,主要用于mapred和dfs模块。
(8)org.apaclie.liadoop.record:定义了针对记录的I/0 API类及一个记录描述语言翻译器,用于简化将记录序列化成语言中性的格式(Language-neutral Manner)。
(9)org.apache.hadoop.tools:定义了一些通用的工具。
(10)org.apache.hadoop.util定义了一些公用的API。
在org.apache.hadoop.fc众多类中,最重要的是FileSystem抽象类。为了便于方便编程使用和提供一定的文件访问安全性,HDFS将上层客户端需要的操作封装在FileSystem类中通过这个类提供给上层文件操作的抽象。它定义了文件系统中的一些基本操作,如create、rename、delete、mkdirs等,还定义了分分布式文件系统具有的操作,如copyFromLocalFUe,copyToLocalFile等。其中,LocalFileSystem和DistributedpileSystem继承与此类,分别实现了本地文件系统和分布式文件系统。
2.浏览器接口
典型的HDFS安装会配置一个Web服务器开放自己的命名空间,其TCP端口是可配的,这样用户就可以通过Web浏览器浏览HDFS的命名空间并査看集群当前的基本状态和信息。在默认配置下http://namenode-name:50070这个页面列出了集群里的所有DataNode和集群的基本状态。